开发者文档

常用优化项

-ngl

控制 GPU offload 层数,是 llama.cpp 常见优化入口。

--ctx-size

提升上下文长度会增加内存开销,不应盲目拉满。

-t / --threads

控制 CPU 推理线程数,适合根据宿主机核心数做实验。

Backend profile 是推荐入口

把这些 backend-native 参数写进 profile,通常比每次命令行手输更稳:

{
  "load": {
    "extra_args": ["-ngl", "99", "-t", "8"]
  }
}

调优顺序建议

  1. 先选对模型规模与量化
  2. 再选对 backend
  3. 再调 -ngl、线程数和 ctx-size
OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1