常用优化项
-ngl
控制 GPU offload 层数,是 llama.cpp 常见优化入口。
--ctx-size
提升上下文长度会增加内存开销,不应盲目拉满。
-t / --threads
控制 CPU 推理线程数,适合根据宿主机核心数做实验。
Backend profile 是推荐入口
把这些 backend-native 参数写进 profile,通常比每次命令行手输更稳:
{
"load": {
"extra_args": ["-ngl", "99", "-t", "8"]
}
}
调优顺序建议
- 先选对模型规模与量化
- 再选对 backend
- 再调
-ngl、线程数和ctx-size



