开发者文档

快速开始

环境准备

  1. 安装 Python 3
  2. 准备至少一个本地 runtime backend
  3. 确认模型文件或模型目录已就绪

如果你使用源码仓库,请按当前平台准备 runtime:

  • Windows:参考 docs/build.md#windows
  • macOS:参考 docs/build.md#macos

runtime 位置

源码仓库的典型 runtime 路径是:

  • Windows:.local/runtime/windows/<backend>/
  • macOS:.local/runtime/macos/<backend>/

打包发布版本则通常把 runtime 放在:

  • runtime/<backend>/

启动 Gateway

python3 omniinfer_gateway.py --host 127.0.0.1 --port 9000

启动后,当前实现的典型输出更接近:

OmniInfer listening on http://127.0.0.1:9000
Selected backend on startup: llama.cpp-cpu
Default thinking mode: off

验证服务状态

curl http://127.0.0.1:9000/health

查看模型目录和 backend

建议优先使用:

curl http://127.0.0.1:9000/omni/backends
curl "http://127.0.0.1:9000/omni/supported-models/best?system=windows"

在客户端产品中,这些步骤通常由界面包装,但开发和排障时仍然建议直接看 API。

加载模型

curl -X POST http://127.0.0.1:9000/omni/model/select \
  -H "Content-Type: application/json" \
  -d '{"model": "C:/models/Qwen3.5-0.8B-Q4_K_M.gguf"}'

对于 VLM:

curl -X POST http://127.0.0.1:9000/omni/model/select \
  -H "Content-Type: application/json" \
  -d '{"model": "C:/models/vlm.gguf", "mmproj": "C:/models/mmproj-F32.gguf"}'

发送第一个请求

curl -X POST http://127.0.0.1:9000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [{"role": "user", "content": "你好,请介绍一下你自己"}],
    "stream": false
  }'
OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1