端侧强化学习

强化学习研究组聚焦打通决策智能理论、优化方法与系统实现的关键链路,构建复杂动态环境下可持续学习、稳定演进的强化学习方法体系,围绕策略建模等核心问题开展研究,形成“决策建模 — 高效优化 — 系统支撑 — 自主演进”一体化技术链路,服务于端智能体等前沿场景,成果发表于 ICML、ICLR 等顶级学术会议。

课题方向

强化学习基础理论与高效优化

针对复杂决策任务中样本效率、优化稳定性、泛化能力的核心痛点,研究强化学习基础理论与高效优化方法,突破高噪声、长时序等场景下的学习瓶颈。

资源约束下的端侧强化学习基础架构

面向移动终端、具身系统等资源受限场景,研究端侧强化学习基础架构,突破低功耗、低内存、高可靠要求下的落地瓶颈。

强化学习在新一代决策系统中的应用

面向大语言模型、具身系统等新一代智能形态,研究强化学习与复杂决策系统的融合路径,推动感知理解到规划控制的闭环智能演进。

研究成果