核心概念

概念	说明
Backend	实际负责执行推理的运行后端，例如 `llama.cpp-linux`、`llama.cpp-linux-rocm`
Runtime	某个 backend 对应的本地可执行文件、动态库、日志目录和模型目录
Gateway	OmniInfer 本地服务层，负责后端生命周期和 API 代理
Backend Profile	后端专属高级配置文件，存放 backend-native 参数
Model	模型本体。对 `llama.cpp-*` 通常是 `.gguf` 文件或包含单个主模型 GGUF 的目录
mmproj	多模态投影文件，VLM 处理图像时常用
Context Length	单次请求可处理的上下文窗口大小
Launch Args	backend 启动参数，例如 `-ngl`、`-c`、`-np`
Request Defaults	模型加载后保存的默认推理参数，例如 `temperature`、`max_tokens`
Thinking	推理请求中的默认思考开关，OmniInfer 可在 CLI 与 Gateway 侧统一管理