全部研究

Reward Shaping for Action-consistent GUI Agents

GUI 任务中的奖励往往稀疏且滞后,导致模型在训练早期会出现大量无意义探索。

我们基于动作连贯性、目标接近度与状态变化反馈构建奖励函数,帮助代理更快形成有效操作序列。

方法收益

这一方案不仅提高了训练效率,也增强了策略跨应用迁移时的稳定性,使代理更容易适配未见过的界面布局与控件结构。

它为更通用的 GUI 智能体训练提供了可靠的强化学习基座。