核心概念
下面这些术语会在 OmniStudio 的使用和设置过程中频繁出现。
| 概念 | 说明 |
|---|---|
| 后端引擎(Backend) | 实际执行模型推理的引擎,例如 llama.cpp、vLLM、OmniInfer Native。不同引擎适用于不同硬件和场景。 |
| 模型(Model) | 预训练 AI 模型文件。OmniStudio 支持 GGUF 格式模型,涵盖 LLM、VLM 和 World Model。 |
| 量化(Quantization) | 将模型权重从高精度压缩到低精度的技术,用于降低模型体积和内存占用。 |
| Gateway | OmniInfer 网关,负责管理后端生命周期,并对外代理推理请求。 |
| mmproj | VLM 的多模态投影文件,用于处理图像输入。 |
| 上下文长度(Context Length) | 模型单次推理可处理的最大 token 数量。 |
| GPU 卸载(GPU Offloading) | 将部分模型层加载到 GPU 上以提升推理速度。 |
| KV Cache | 键值缓存,用于加速自回归生成过程中的注意力计算。 |
优先理解的概念
- 如果你主要关注日常使用,建议优先理解“后端引擎”“模型”“量化”“上下文长度”。
- 如果你需要排障或开发接入,再重点了解 “Gateway”“mmproj”“GPU 卸载”“KV Cache”。



