上下文与最佳实践
CLI 模式下的上下文认知
OmniInfer CLI 的 chat 命令默认是单次请求式交互。
它不会像 GUI 聊天应用那样自动长期维护一个“会话侧边栏”,而是把本次请求转换成一组消息发送给当前 Gateway / backend。
需要长上下文时
你应重点关注:
- 当前模型支持的上下文窗口
--ctx-size的设置- 历史消息是否由上层应用自行维护
如果你通过 OpenAI 兼容 API 接入,则由你的应用负责管理 messages 历史。
最佳实践
- 长任务优先选更大上下文模型
ctx-size不要盲目拉满,过大只会带来更高资源消耗- 多轮对话型应用建议接入 API,由应用层管理消息历史
- 纯命令行临时推理时,优先保持 prompt 简洁



