开发者文档

Windows / Mac Linux Android 开发者文档

性能与资源

影响性能的主要因素

OmniStudio 的推理表现主要受以下因素影响：

硬件配置，包括 CPU 核心数、内存大小和 GPU 显存
模型大小，参数量越大，推理越慢
量化级别，低精度量化通常更快
后端引擎，不同引擎在不同硬件上的表现不同
上下文长度，上下文越长，内存与计算开销越高

吞吐指标：TPS

tps（tokens per second）是衡量推理速度的核心指标，表示模型每秒生成的 token 数量。

模型规模	纯 CPU（8 核）	CPU + GPU 卸载	说明
0.8B - 3B	20 - 60 tps	40 - 100+ tps	体验流畅
7B - 8B	5 - 15 tps	15 - 40 tps	适合日常使用
13B - 14B	2 - 8 tps	8 - 20 tps	对硬件有要求
30B+	小于 3 tps	5 - 15 tps	强烈建议用 GPU

一般来说，10 tps 以上就能获得较自然的对话体验。

延迟

推理延迟通常拆成两部分：

首 token 延迟（TTFT）：从请求发出到第一个 token 返回的时间
生成延迟：后续 token 逐个生成的时间，通常可以理解为 1 / tps

因素	影响	优化建议
上下文长度	越长越慢	长话题及时开新会话
模型大小	越大越慢	选与硬件匹配的模型
量化等级	低量化更快	优先考虑 `Q4_K_M`
GPU 卸载	可显著降延迟	有独显时尽量启用
并发请求	会争抢资源	避免同时发送过多请求

GPU 与内存

模型参数量	`Q4_K_M` 量化大小	推荐最低 RAM
1B - 3B	1 - 2 GB	8 GB
7B - 8B	4 - 5 GB	16 GB
13B - 14B	7 - 8 GB	16 GB
30B - 34B	18 - 20 GB	32 GB
70B	38 - 40 GB	64 GB

如果有独立 GPU，可通过增加 n_gpu_layers 把一部分模型层卸载到显存中，从而提升速度。

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1