端侧强化学习

强化学习研究组聚焦打通决策智能理论、优化方法与系统实现的关键链路，构建复杂动态环境下可持续学习、稳定演进的强化学习方法体系，围绕策略建模等核心问题开展研究，形成“决策建模 — 高效优化 — 系统支撑 — 自主演进”一体化技术链路，服务于端智能体等前沿场景，成果发表于 ICML、ICLR 等顶级学术会议。

课题方向

强化学习基础理论与高效优化

针对复杂决策任务中样本效率、优化稳定性、泛化能力的核心痛点，研究强化学习基础理论与高效优化方法，突破高噪声、长时序等场景下的学习瓶颈；围绕策略建模、价值估计等核心问题，揭示决策学习的误差传播规律与收敛机制，构建兼顾样本效率、计算效率与可靠性的通用框架。

资源约束下的端强化学习基础架构

面向移动终端、具身系统等资源受限场景，研究端侧强化学习基础架构，突破低功耗、低内存、高可靠要求下的落地瓶颈；通过构建训推一体化、轻量化更新等机制，实现强化学习系统在真实设备上稳定运行，为端模型持续学习、自适应决策提供可扩展系统支撑。

强化学习在新一代决策系统中的应用

面向大语言模型、具身系统等新一代智能形态，研究强化学习与复杂决策系统的融合路径，推动感知理解到规划控制的闭环智能演进；结合表征学习等技术，探索长时序任务分解等关键机制，增强智能系统鲁棒性与泛化性，为新一代自主决策系统提供方法与技术支撑。

研究成果

2026.03.31

Less is More: Clustered Cross-Covariance Control for Offline RL

A fundamental challenge in offline reinforcement learning is distributional shift. Scarce data or datasets dominated by out-of-distribution (OOD) areas exacerbate this issue. Our theoretical analysis and experiments show that the standard squared error objective induces a harmful TD cross covariance...

2025.12.03

Offline Federated Reinforcement Learning With Mixed-Quality Data

Offline Federated Reinforcement Learning (FRL), a marriage of federated learning and offline reinforcement learning, has attracted increasing interest recently. Albeit with some advancement, we find that the performance of most existing offline FRL methods drops dramatically when provided with...

2026.02.02

Context Learning for Multi-Agent Discussion

Multi-Agent Discussion (MAD) has garnered increasing attention very recently, where multiple LLM instances collaboratively solve problems via structured discussion. However, we find that current MAD methods easily suffer from discussion inconsistency, LLMs fail to reach a coherent solution, due to...