开发者文档

上下文与最佳实践

CLI 模式下的上下文认知

OmniInfer CLI 的 chat 命令默认是单次请求式交互。

它不会像 GUI 聊天应用那样自动长期维护一个“会话侧边栏”,而是把本次请求转换成一组消息发送给当前 Gateway / backend。

需要长上下文时

你应重点关注:

  • 当前模型支持的上下文窗口
  • --ctx-size 的设置
  • 历史消息是否由上层应用自行维护

如果你通过 OpenAI 兼容 API 接入,则由你的应用负责管理 messages 历史。

最佳实践

  • 长任务优先选更大上下文模型
  • ctx-size 不要盲目拉满,过大只会带来更高资源消耗
  • 多轮对话型应用建议接入 API,由应用层管理消息历史
  • 纯命令行临时推理时,优先保持 prompt 简洁
OmniMind

万象智维

Omni Studio 公众号二维码

公众号

Omni Studio 小红书二维码

小红书

© 2025 万象智维科技有限公司. All rights reserved.

京ICP备2025136340号-1