性能与资源
影响推理表现的主要因素
- 模型规模
- 量化等级
- 后端类型
- CPU / GPU / 内存条件
ctx-size- 是否开启更多并行或 GPU offload
最值得先看的指标
- 首 token 延迟
- 每秒生成 token 数
- 模型加载耗时
- 内存或显存占用
Linux CLI 下的观察方式
- CLI 非流式输出会打印 token 用量和性能统计
- runtime 日志可用于观察启动与加载问题
- 你也可以直接通过 API 返回体中的
usage和timings做采样

ctx-sizeusage 和 timings 做采样
万象智维

公众号

小红书
© 2025 万象智维科技有限公司. All rights reserved.
京ICP备2025136340号-1