核心概念

下面这些术语会在 OmniStudio 的使用和设置过程中频繁出现。

概念	说明
后端引擎（Backend）	实际执行模型推理的引擎，例如 `llama.cpp`、`vLLM`、`OmniInfer Native`。不同引擎适用于不同硬件和场景。
模型（Model）	预训练 AI 模型文件。OmniStudio 支持 GGUF 格式模型，涵盖 LLM、VLM 和 World Model。
量化（Quantization）	将模型权重从高精度压缩到低精度的技术，用于降低模型体积和内存占用。
Gateway	OmniInfer 网关，负责管理后端生命周期，并对外代理推理请求。
mmproj	VLM 的多模态投影文件，用于处理图像输入。
上下文长度（Context Length）	模型单次推理可处理的最大 token 数量。
GPU 卸载（GPU Offloading）	将部分模型层加载到 GPU 上以提升推理速度。
KV Cache	键值缓存，用于加速自回归生成过程中的注意力计算。

优先理解的概念