开发者文档

量化选择

常见 GGUF 量化

量化 体积 质量 适合场景
Q2_K 最小 较低 极端内存受限
Q4_K_M 较小 良好 日常默认首选
Q5_K_M 中等 更稳 兼顾质量与资源
Q6_K 较大 很好 更重视输出质量
Q8_0 很大 接近原始 资源较充足
F16 最大 原始精度 研究、评估、对照测试

Linux 上的常见建议

  • 不确定时先从 Q4_K_M 开始
  • 小内存机器优先降低模型规模,再考虑更低量化
  • 如果你遇到质量不稳定,再尝试 Q5_K_MQ6_K

VLM 额外注意点

多模态模型除了主模型外,还可能需要 mmproj

因此选择 VLM 时,不仅要看主模型体积,也要确认:

  • 是否带 mmproj
  • 当前 backend 是否支持该多模态形态
OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1