开发者文档

Windows / Mac Linux Android 开发者文档

量化选择

常见 GGUF 量化

量化	体积	质量	适合场景
`Q2_K`	最小	较低	极端内存受限
`Q4_K_M`	较小	良好	日常默认首选
`Q5_K_M`	中等	更稳	兼顾质量与资源
`Q6_K`	较大	很好	更重视输出质量
`Q8_0`	很大	接近原始	资源较充足
`F16`	最大	原始精度	研究、评估、对照测试

Linux 上的常见建议

不确定时先从 Q4_K_M 开始
小内存机器优先降低模型规模，再考虑更低量化
如果你遇到质量不稳定，再尝试 Q5_K_M 或 Q6_K

VLM 额外注意点

多模态模型除了主模型外，还可能需要 mmproj。

因此选择 VLM 时，不仅要看主模型体积，也要确认：

是否带 mmproj
当前 backend 是否支持该多模态形态

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1