开发者文档

量化与格式

如何选择量化版本

量化的目标是降低模型体积和内存占用,同时尽量保留输出质量。常见 GGUF 量化格式如下:

量化类型 大小(相对) 质量 推荐场景
Q2_K 最小 较低 极端内存受限
Q4_K_M 较小 良好 日常使用首选
Q5_K_M 中等 较好 兼顾质量与性能
Q6_K 较大 很好 更看重输出质量
Q8_0 很大 接近原始 内存较充足
F16 最大 原始精度 研究或高质量评估

多数场景下,Q4_K_M 是速度、质量和资源占用之间比较平衡的选择。

当前运行格式

OmniStudio 当前主要支持 GGUF 格式模型。GGUF 是 llama.cpp 生态中的主流格式,具备以下优点:

  • 单文件可携带模型权重和元数据
  • 支持多种量化级别
  • 跨平台兼容性较好
  • 社区预量化资源丰富

选择建议

  • 先根据硬件决定模型大小
  • 再根据场景决定量化等级
  • 最后确认模型是否需要 mmproj 等附加文件
OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1