开发者文档

模型大小选择

模型选择本质上是在“输出质量”“响应速度”“硬件占用”之间做平衡。

按硬件选择

硬件条件 推荐模型规模 推荐量化 适合场景
8GB RAM 1B - 3B Q4_K_M 快速问答、轻量任务
16GB RAM 7B - 8B Q4_K_M / Q5_K_M 日常对话、代码辅助
32GB+ RAM 13B - 14B Q4_K_M 高质量文本生成
多模态需求 VLM 系列 Q4_K_M 图文理解

选择建议

  • 想要更快:优先减小模型规模,其次降低量化精度
  • 想要更稳:优先选择社区成熟、标签为“推荐”的模型
  • 想要中文效果:优先考虑 Qwen 等中文能力更强的系列
  • 想要图像输入:确认选择的是 VLM,并准备好 mmproj

不确定时的默认方案

如果用户没有明确偏好,默认推荐:

  • 模型规模:7B - 8B
  • 量化格式:Q4_K_M
  • 后端:llama.cpp

这是一组在速度、兼容性与效果之间较平衡的组合。

OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1