快速开始

环境准备

安装 Python 3
准备至少一个本地 runtime backend
确认模型文件或模型目录已就绪

如果你使用源码仓库，请按当前平台准备 runtime：

Windows：参考 docs/build.md#windows
macOS：参考 docs/build.md#macos

runtime 位置

源码仓库的典型 runtime 路径是：

Windows：.local/runtime/windows/<backend>/
macOS：.local/runtime/macos/<backend>/

打包发布版本则通常把 runtime 放在：

runtime/<backend>/

启动 Gateway

python3 omniinfer_gateway.py --host 127.0.0.1 --port 9000

启动后，当前实现的典型输出更接近：

OmniInfer listening on http://127.0.0.1:9000
Selected backend on startup: llama.cpp-cpu
Default thinking mode: off

验证服务状态

curl http://127.0.0.1:9000/health

查看模型目录和 backend

建议优先使用：

curl http://127.0.0.1:9000/omni/backends
curl "http://127.0.0.1:9000/omni/supported-models/best?system=windows"

在客户端产品中，这些步骤通常由界面包装，但开发和排障时仍然建议直接看 API。

加载模型

curl -X POST http://127.0.0.1:9000/omni/model/select \
  -H "Content-Type: application/json" \
  -d '{"model": "C:/models/Qwen3.5-0.8B-Q4_K_M.gguf"}'

对于 VLM：

curl -X POST http://127.0.0.1:9000/omni/model/select \
  -H "Content-Type: application/json" \
  -d '{"model": "C:/models/vlm.gguf", "mmproj": "C:/models/mmproj-F32.gguf"}'

发送第一个请求

curl -X POST http://127.0.0.1:9000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [{"role": "user", "content": "你好，请介绍一下你自己"}],
    "stream": false
  }'