全部动态

成果|AgentProg:基于程序驱动的智能体长程任务框架

长程任务的难点不在单步能力,而在于模型是否能在较长链路里持续保持目标感、处理中间异常,并在必要时调整执行方案。

AgentProg 尝试用程序驱动的方式组织智能体工作流,把复杂任务显式拆分为可组合、可回溯的执行阶段,再由模型在阶段内部完成细粒度决策。

这一方向对于复杂软件操作、研究辅助和自动化工程任务都具有很强的延展性,也将是我们后续持续投入的重要能力基础。

Agentic Coding: SWE-Bench Pro

Mock benchmark chart

Z
58.4
GLM-5.1
57.7
GPT-5.4
57.3
Claude
56.6
Qwen3
56.2
MiniMax
54.2
Gemini
53.8
Kimi