开发者文档

流式输出与 Thinking

流式输出

CLI 默认会把对话结果以流式方式打印到终端。

这适合:

  • 交互式问答
  • 长回答场景
  • 观察模型实时输出节奏

如果你想关闭流式输出:

./omniinfer chat --no-stream --message "Hello"

Thinking 默认值

OmniInfer 支持查看和设置默认 thinking 状态:

./omniinfer thinking show
./omniinfer thinking set on
./omniinfer thinking set off

单次请求覆盖

./omniinfer chat --think on --message "Explain your reasoning briefly."
./omniinfer chat --think off --message "Just answer directly."

你需要知道的一点

不同模型对 thinking 的模板支持并不完全一致。

因此:

  • CLI 和 Gateway 会尽量统一开关语义
  • 但最终呈现仍取决于具体模型模板与后端行为
OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1