开发者文档

性能与资源

影响性能的主要因素

OmniStudio 的推理表现主要受以下因素影响:

  • 硬件配置,包括 CPU 核心数、内存大小和 GPU 显存
  • 模型大小,参数量越大,推理越慢
  • 量化级别,低精度量化通常更快
  • 后端引擎,不同引擎在不同硬件上的表现不同
  • 上下文长度,上下文越长,内存与计算开销越高

吞吐指标:TPS

tps(tokens per second)是衡量推理速度的核心指标,表示模型每秒生成的 token 数量。

模型规模 纯 CPU(8 核) CPU + GPU 卸载 说明
0.8B - 3B 20 - 60 tps 40 - 100+ tps 体验流畅
7B - 8B 5 - 15 tps 15 - 40 tps 适合日常使用
13B - 14B 2 - 8 tps 8 - 20 tps 对硬件有要求
30B+ 小于 3 tps 5 - 15 tps 强烈建议用 GPU

一般来说,10 tps 以上就能获得较自然的对话体验。

延迟

推理延迟通常拆成两部分:

  • 首 token 延迟(TTFT):从请求发出到第一个 token 返回的时间
  • 生成延迟:后续 token 逐个生成的时间,通常可以理解为 1 / tps
因素 影响 优化建议
上下文长度 越长越慢 长话题及时开新会话
模型大小 越大越慢 选与硬件匹配的模型
量化等级 低量化更快 优先考虑 Q4_K_M
GPU 卸载 可显著降延迟 有独显时尽量启用
并发请求 会争抢资源 避免同时发送过多请求

GPU 与内存

模型参数量 Q4_K_M 量化大小 推荐最低 RAM
1B - 3B 1 - 2 GB 8 GB
7B - 8B 4 - 5 GB 16 GB
13B - 14B 7 - 8 GB 16 GB
30B - 34B 18 - 20 GB 32 GB
70B 38 - 40 GB 64 GB

如果有独立 GPU,可通过增加 n_gpu_layers 把一部分模型层卸载到显存中,从而提升速度。

OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1