全部研究
MANA: 通过多模式代理 UI 导航实现高效移动广告检测
MANA 聚焦移动端广告审核中的复杂场景理解问题。相比传统脚本驱动方案,它能够在页面结构频繁变化、组件嵌套层级复杂、交互路径不固定的环境中持续完成检测任务。
系统由感知模块、导航代理和判定模块组成,既能读取视觉内容,也能分析控件语义、事件触发路径和页面上下文,再将这些信号统一为一个可推理的任务状态。
在内部评测中,MANA 在多种页面跳转、弹窗插层和激励视频场景下表现稳定,能够明显减少人工规则维护成本,并提升难例发现率。
标题格式
为了适配真实业务流程,我们在训练中加入了跨页面任务奖励和动作一致性约束,让代理在长链路导航中更少出现重复点击、误判跳转和上下文遗失等问题。
这套能力不仅服务于广告检测,也可迁移到 App 测试、合规检查和智能巡检等需要“看懂页面并做出下一步动作”的移动端任务。
Agentic Coding: SWE-Bench Pro
Mock visualization
Z
58.4
GLM-5.1
57.7
GPT-5.4
57.3
Claude
56.6
Qwen
56.2
Gemini
54.2
MiniMax