快速开始
环境准备
- 安装 Python 3
- 准备至少一个本地 runtime backend
- 确认模型文件或模型目录已就绪
如果你使用源码仓库,请按当前平台准备 runtime:
- Windows:参考
docs/build.md#windows - macOS:参考
docs/build.md#macos
runtime 位置
源码仓库的典型 runtime 路径是:
- Windows:
.local/runtime/windows/<backend>/ - macOS:
.local/runtime/macos/<backend>/
打包发布版本则通常把 runtime 放在:
runtime/<backend>/
启动 Gateway
python3 omniinfer_gateway.py --host 127.0.0.1 --port 9000
启动后,当前实现的典型输出更接近:
OmniInfer listening on http://127.0.0.1:9000
Selected backend on startup: llama.cpp-cpu
Default thinking mode: off
验证服务状态
curl http://127.0.0.1:9000/health
查看模型目录和 backend
建议优先使用:
curl http://127.0.0.1:9000/omni/backends
curl "http://127.0.0.1:9000/omni/supported-models/best?system=windows"
在客户端产品中,这些步骤通常由界面包装,但开发和排障时仍然建议直接看 API。
加载模型
curl -X POST http://127.0.0.1:9000/omni/model/select \
-H "Content-Type: application/json" \
-d '{"model": "C:/models/Qwen3.5-0.8B-Q4_K_M.gguf"}'
对于 VLM:
curl -X POST http://127.0.0.1:9000/omni/model/select \
-H "Content-Type: application/json" \
-d '{"model": "C:/models/vlm.gguf", "mmproj": "C:/models/mmproj-F32.gguf"}'
发送第一个请求
curl -X POST http://127.0.0.1:9000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [{"role": "user", "content": "你好,请介绍一下你自己"}],
"stream": false
}'



