Agent Memory Compression for Persistent On-device Assistants

持续运行的端侧助手需要长期记住用户偏好、任务上下文与历史交互，但原始记忆直接堆积会快速拉高存储与检索成本。

我们提出分层式记忆压缩策略，把高频、短期与长期记忆分开组织，再结合事件重要性打分来决定何时保留、何时摘要。

实验观察

在多轮连续任务中，压缩后的记忆结构仍然能保持较高的召回准确率，并有效降低上下文膨胀导致的推理不稳定问题。

这为端侧个人助手提供了更可持续的长期运行基础。