量化与格式
如何选择量化版本
量化的目标是降低模型体积和内存占用,同时尽量保留输出质量。常见 GGUF 量化格式如下:
| 量化类型 | 大小(相对) | 质量 | 推荐场景 |
|---|---|---|---|
Q2_K |
最小 | 较低 | 极端内存受限 |
Q4_K_M |
较小 | 良好 | 日常使用首选 |
Q5_K_M |
中等 | 较好 | 兼顾质量与性能 |
Q6_K |
较大 | 很好 | 更看重输出质量 |
Q8_0 |
很大 | 接近原始 | 内存较充足 |
F16 |
最大 | 原始精度 | 研究或高质量评估 |
多数场景下,Q4_K_M 是速度、质量和资源占用之间比较平衡的选择。
当前运行格式
OmniStudio 当前主要支持 GGUF 格式模型。GGUF 是 llama.cpp 生态中的主流格式,具备以下优点:
- 单文件可携带模型权重和元数据
- 支持多种量化级别
- 跨平台兼容性较好
- 社区预量化资源丰富
选择建议
- 先根据硬件决定模型大小
- 再根据场景决定量化等级
- 最后确认模型是否需要
mmproj等附加文件



