量化选择
常见 GGUF 量化
| 量化 | 体积 | 质量 | 适合场景 |
|---|---|---|---|
Q2_K |
最小 | 较低 | 极端内存受限 |
Q4_K_M |
较小 | 良好 | 日常默认首选 |
Q5_K_M |
中等 | 更稳 | 兼顾质量与资源 |
Q6_K |
较大 | 很好 | 更重视输出质量 |
Q8_0 |
很大 | 接近原始 | 资源较充足 |
F16 |
最大 | 原始精度 | 研究、评估、对照测试 |
Linux 上的常见建议
- 不确定时先从
Q4_K_M开始 - 小内存机器优先降低模型规模,再考虑更低量化
- 如果你遇到质量不稳定,再尝试
Q5_K_M或Q6_K
VLM 额外注意点
多模态模型除了主模型外,还可能需要 mmproj。
因此选择 VLM 时,不仅要看主模型体积,也要确认:
- 是否带
mmproj - 当前 backend 是否支持该多模态形态



