开发者文档

Windows / Mac Linux Android 开发者文档

常用优化项

`-ngl`

控制 GPU offload 层数，是 llama.cpp 常见优化入口。

`--ctx-size`

提升上下文长度会增加内存开销，不应盲目拉满。

`-t` / `--threads`

控制 CPU 推理线程数，适合根据宿主机核心数做实验。

Backend profile 是推荐入口

把这些 backend-native 参数写进 profile，通常比每次命令行手输更稳：

{
  "load": {
    "extra_args": ["-ngl", "99", "-t", "8"]
  }
}

调优顺序建议

先选对模型规模与量化
再选对 backend
再调 -ngl、线程数和 ctx-size

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1