开发者文档

核心概念

下面这些术语会在 OmniStudio 的使用和设置过程中频繁出现。

概念 说明
后端引擎(Backend) 实际执行模型推理的引擎,例如 llama.cppvLLMOmniInfer Native。不同引擎适用于不同硬件和场景。
模型(Model) 预训练 AI 模型文件。OmniStudio 支持 GGUF 格式模型,涵盖 LLM、VLM 和 World Model。
量化(Quantization) 将模型权重从高精度压缩到低精度的技术,用于降低模型体积和内存占用。
Gateway OmniInfer 网关,负责管理后端生命周期,并对外代理推理请求。
mmproj VLM 的多模态投影文件,用于处理图像输入。
上下文长度(Context Length) 模型单次推理可处理的最大 token 数量。
GPU 卸载(GPU Offloading) 将部分模型层加载到 GPU 上以提升推理速度。
KV Cache 键值缓存,用于加速自回归生成过程中的注意力计算。

优先理解的概念

  • 如果你主要关注日常使用,建议优先理解“后端引擎”“模型”“量化”“上下文长度”。
  • 如果你需要排障或开发接入,再重点了解 “Gateway”“mmproj”“GPU 卸载”“KV Cache”。
OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1