Cross-modal Grounding for Lightweight Mobile Agents

移动端页面的信息来源高度碎片化，视觉元素、文本标签与交互反馈往往分布在不同区域且随时变化。

这项研究构建统一的跨模态表示，让模型在观察页面截图时，能够同步关联文字语义、控件位置与历史动作结果。

结果

在多个移动代理评测任务中，这一对齐机制显著缩短了模型找到关键控件的时间，并改善了弱监督场景下的泛化能力。

它也为后续的 UI 导航与自动化操作研究提供了共同基础。