核心概念
| 概念 | 说明 |
|---|---|
| Backend | 实际负责执行推理的运行后端,例如 llama.cpp-linux、llama.cpp-linux-rocm |
| Runtime | 某个 backend 对应的本地可执行文件、动态库、日志目录和模型目录 |
| Gateway | OmniInfer 本地服务层,负责后端生命周期和 API 代理 |
| Backend Profile | 后端专属高级配置文件,存放 backend-native 参数 |
| Model | 模型本体。对 llama.cpp-* 通常是 .gguf 文件或包含单个主模型 GGUF 的目录 |
| mmproj | 多模态投影文件,VLM 处理图像时常用 |
| Context Length | 单次请求可处理的上下文窗口大小 |
| Launch Args | backend 启动参数,例如 -ngl、-c、-np |
| Request Defaults | 模型加载后保存的默认推理参数,例如 temperature、max_tokens |
| Thinking | 推理请求中的默认思考开关,OmniInfer 可在 CLI 与 Gateway 侧统一管理 |



