后端选择建议
通用优先级
如果没有特殊硬件需求,通常先从:
llama.cpp-linux
开始。
何时考虑切换
- 有 AMD GPU 且 ROCm 环境成熟:考虑
llama.cpp-linux-rocm - 有 Vulkan 运行环境:考虑
llama.cpp-linux-vulkan - Intel OpenVINO 场景:考虑
llama.cpp-linux-openvino s390x主机:使用llama.cpp-linux-s390x
模型选择建议
- 轻量问答:先用小模型 +
Q4_K_M - 日常对话:中小模型 + 合理
ctx-size - 多模态:确认 backend 与
mmproj支持链路



