性能与资源
影响性能的主要因素
OmniStudio 的推理表现主要受以下因素影响:
- 硬件配置,包括 CPU 核心数、内存大小和 GPU 显存
- 模型大小,参数量越大,推理越慢
- 量化级别,低精度量化通常更快
- 后端引擎,不同引擎在不同硬件上的表现不同
- 上下文长度,上下文越长,内存与计算开销越高
吞吐指标:TPS
tps(tokens per second)是衡量推理速度的核心指标,表示模型每秒生成的 token 数量。
| 模型规模 | 纯 CPU(8 核) | CPU + GPU 卸载 | 说明 |
|---|---|---|---|
| 0.8B - 3B | 20 - 60 tps | 40 - 100+ tps | 体验流畅 |
| 7B - 8B | 5 - 15 tps | 15 - 40 tps | 适合日常使用 |
| 13B - 14B | 2 - 8 tps | 8 - 20 tps | 对硬件有要求 |
| 30B+ | 小于 3 tps | 5 - 15 tps | 强烈建议用 GPU |
一般来说,10 tps 以上就能获得较自然的对话体验。
延迟
推理延迟通常拆成两部分:
- 首 token 延迟(TTFT):从请求发出到第一个 token 返回的时间
- 生成延迟:后续 token 逐个生成的时间,通常可以理解为
1 / tps
| 因素 | 影响 | 优化建议 |
|---|---|---|
| 上下文长度 | 越长越慢 | 长话题及时开新会话 |
| 模型大小 | 越大越慢 | 选与硬件匹配的模型 |
| 量化等级 | 低量化更快 | 优先考虑 Q4_K_M |
| GPU 卸载 | 可显著降延迟 | 有独显时尽量启用 |
| 并发请求 | 会争抢资源 | 避免同时发送过多请求 |
GPU 与内存
| 模型参数量 | Q4_K_M 量化大小 |
推荐最低 RAM |
|---|---|---|
| 1B - 3B | 1 - 2 GB | 8 GB |
| 7B - 8B | 4 - 5 GB | 16 GB |
| 13B - 14B | 7 - 8 GB | 16 GB |
| 30B - 34B | 18 - 20 GB | 32 GB |
| 70B | 38 - 40 GB | 64 GB |
如果有独立 GPU,可通过增加 n_gpu_layers 把一部分模型层卸载到显存中,从而提升速度。



