模型大小选择
模型选择本质上是在“输出质量”“响应速度”“硬件占用”之间做平衡。
按硬件选择
| 硬件条件 | 推荐模型规模 | 推荐量化 | 适合场景 |
|---|---|---|---|
| 8GB RAM | 1B - 3B | Q4_K_M |
快速问答、轻量任务 |
| 16GB RAM | 7B - 8B | Q4_K_M / Q5_K_M |
日常对话、代码辅助 |
| 32GB+ RAM | 13B - 14B | Q4_K_M |
高质量文本生成 |
| 多模态需求 | VLM 系列 | Q4_K_M |
图文理解 |
选择建议
- 想要更快:优先减小模型规模,其次降低量化精度
- 想要更稳:优先选择社区成熟、标签为“推荐”的模型
- 想要中文效果:优先考虑 Qwen 等中文能力更强的系列
- 想要图像输入:确认选择的是 VLM,并准备好
mmproj
不确定时的默认方案
如果用户没有明确偏好,默认推荐:
- 模型规模:
7B - 8B - 量化格式:
Q4_K_M - 后端:
llama.cpp
这是一组在速度、兼容性与效果之间较平衡的组合。



