端侧强化学习

强化学习研究组聚焦打通决策智能理论、优化方法与系统实现的关键链路,构建复杂动态环境下可持续学习、稳定演进的强化学习方法体系,围绕策略建模等核心问题开展研究,形成“决策建模 — 高效优化 — 系统支撑 — 自主演进”一体化技术链路,服务于端智能体等前沿场景,成果发表于 ICML、ICLR 等顶级学术会议。

课题方向

强化学习基础理论与高效优化

针对复杂决策任务中样本效率、优化稳定性、泛化能力的核心痛点,研究强化学习基础理论与高效优化方法,突破高噪声、长时序等场景下的学习瓶颈;围绕策略建模、价值估计等核心问题,揭示决策学习的误差传播规律与收敛机制,构建兼顾样本效率、计算效率与可靠性的通用框架。

资源约束下的端强化学习基础架构

面向移动终端、具身系统等资源受限场景,研究端侧强化学习基础架构,突破低功耗、低内存、高可靠要求下的落地瓶颈;通过构建训推一体化、轻量化更新等机制,实现强化学习系统在真实设备上稳定运行,为端模型持续学习、自适应决策提供可扩展系统支撑。

强化学习在新一代决策系统中的应用

面向大语言模型、具身系统等新一代智能形态,研究强化学习与复杂决策系统的融合路径,推动感知理解到规划控制的闭环智能演进;结合表征学习等技术,探索长时序任务分解等关键机制,增强智能系统鲁棒性与泛化性,为新一代自主决策系统提供方法与技术支撑。

研究成果