开发者文档

性能与资源

影响推理表现的主要因素

  • 模型规模
  • 量化等级
  • 后端类型
  • CPU / GPU / 内存条件
  • ctx-size
  • 是否开启更多并行或 GPU offload

最值得先看的指标

  • 首 token 延迟
  • 每秒生成 token 数
  • 模型加载耗时
  • 内存或显存占用

Linux CLI 下的观察方式

  • CLI 非流式输出会打印 token 用量和性能统计
  • runtime 日志可用于观察启动与加载问题
  • 你也可以直接通过 API 返回体中的 usagetimings 做采样
OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1