相关链接:

Abstract#

RULER-HQA的准确率分数。即使采用了长上下文持续预训练和外推技术的模型，也无法保持一致的性能。相比之下，使用RL的MEMAGENT仅表现出微小的性能下降。

尽管通过长度外推、高效注意力和记忆模块取得了改进，但在外推过程中处理无限长的文档而不出现性能下降，仍然是长文本处理中的终极挑战。为了解决这个问题，我们引入了一种新颖的智能体工作流——MEMAGENT，它分段处理文本并通过覆盖策略更新记忆，通过增强的记忆管理来应对长上下文任务的挑战。我们进一步扩展了DAPO算法，以端到端的方式直接优化记忆能力，通过独立上下文的多对话生成促进训练。实验结果表明，MEMAGENT具有卓越的长上下文能力，能够将上下文从8K外推到3.5M的问答任务，性能损失小于10%，并在512K的NIAH测试中达到超过95%的准确率

Introduction#

如何有效地处理长上下文——处理整本书籍、执行多步复杂推理链，或管理智能体系统的长期记忆——所有这些复杂任务都可能产生海量文本，迅速超出当前LLM的典型上下文窗口大小。

长度外推方法：通过移动位置嵌入来扩展模型的上下文窗口，并辅以继续预训练。尽管潜力巨大，但由于在处理极长文本时具有O(n²)的计算复杂度，这些方法常常遭受性能下降和处理速度慢的问题。
利用稀疏注意力和线性注意力机制来降低注意力复杂度，从而更高效地处理更长的序列。通常需要从头开始训练，存在固有的缺陷，例如线性注意力在并行训练方面面临困难，或者稀疏注意力依赖于人工定义的模式。
上下文压缩：旨在token级别或通过外部记忆插件模块来压缩信息。这类方法常常在外推方面遇到困难，并且需要集成额外的模块或上下文操作，这不可避免地会干扰标准的生成过程，并阻碍兼容性和并行化。

目标：

处理无限长度的文本
在扩展时无显著性能下降
具有线性复杂度的高效解码

MEMAGENT的灵感来自于人类处理长文档的方式。它将文档分成多个块，并允许llm迭代地处理它们，在内存中记录相关信息。最后，llm根据存储在内存中的信息生成答案。

MEMAGENT方法提出将每个上下文独立的对话视为一个优化目标。基于DAPO算法，实现了多对话DAPO，以通过可验证的结果奖励来优化任意智能体工作流。

使LLM能够在推理期间以线性时间复杂度，在有限的上下文窗口内处理任意长的输入，克服了长上下文处理中的一个重大瓶颈。
设计了一个智能体工作流来实现这种机制，并提出了一种使用多对话DAPO算法的端到端训练方法。
通过实验证明，基于RL训练的方法使模型能够外推到极长的文档，且性能下降最小，从而突破了当前长上下文LLM系统所能实现的界限。

Methodology#

把长文档切成N份chunk
每次给模型看：
1. 当前问题
2. 上一个chunk得到的memory
3. 当前chunk内容
模型输出一份基于当前chunk的内容增量的memory覆盖旧的
所有chunk读完后再输入问题、最终memory
基于最终memory输出答案

关键点：

memory固定长度
memory属于普通token
每轮是覆盖写入而不是无限追加

受限带宽下的信息压缩，边读边做笔记

要求模型每轮做出决策：

哪些信息需要保留
哪些细节可以丢
哪些旧信息该被新信息替换

The Memagent Workflow: RL-Shaped Memory For Unbounded Contexts#

MEMAGENT不将任意长的文档视为一个整体块，而是视为一个受控的证据流。在每个步骤，模型精确地看到两样东西：下一块文本和一个紧凑的、固定长度的记忆，该记忆总结了到目前为止所有被认为重要的信息。关键的是，记忆只是上下文窗口内的一串普通token，因此基础LLM的核心生成过程保持不变。

阅读一个新的文本块后，模型会用更新后的记忆覆盖之前的记忆。因为记忆长度从不增长，每个文本块的总计算量保持在O(1)，端到端的复杂度严格与文本块数量成线性关系。

将覆盖决策形式化为一个强化学习问题：智能体因保留以后会有用的信息并丢弃会浪费宝贵token的干扰项而获得奖励->模型学会了在积极压缩的同时保留对答案关键的事实。

在上下文处理模块中，模型迭代处理文本块，使用提示模板更新记忆。
当证据流耗尽，调用最终的答案生成模块。模型仅依据问题陈述和记忆来生成其框定好的答案。

MEMAGENT主要好处：

无限长度：文档可以长达数百万token，因为它作为流处理
无性能明显衰退：RL鼓励记忆精确地保留所需信息，产生近乎无损的外推
线性成本：恒定的窗口大小意味着解码时间和内存消耗随输入长度线性增长

Training Memagent With Multi-Conv RL#

GRPO与多conv DAPO的比较。在Multi-conv DAPO的推出阶段，每个示例都会生成多个会话。最后对话中包含的答案用于计算奖励和优势，然后用于优化之前的所有对话。

每轮上下文里只放：

当前问题
当前 memory
当前 chunk 每一轮可以视为一个独立的conversation，最终reward只有最后回答时才能拿到，但是每一轮的memory update都要对最终答案负责
用RLVR来训练MEMAGENT
采用DAPO作为训练算法

由于MEMAGENT方法的性质，它为单个查询生成多个上下文无关的对话，如图2所示，因此将每个对话视为一个独立的优化目标。这种方法需要将损失计算从传统的（组、令牌）结构扩展到新的（组、对话、令牌）维度，如图3所示。

一个样本 rollout 出多段 conversation
最后一段回答产生 outcome reward
这个 reward 再分配回前面所有 memory update conversation
从而让每一轮“写记忆”的行为都得到优化

策略模型 $π_{θ_{old}}$ 为一个输入 $x$ 采样一组 $G$ 个独立的响应 $\{o_{i,j}\}_{i=1}^G$ 。

设 $n_i$ 表示对于给定样本 $(q_i, a_i)$ 生成的对话数量 $(o_{i,1}, o_{i,2}, ..., o_{i,n_i})$ $o_{i,j}$ 进一步分解为token级别的输出 $(o_{i,j,1}, o_{i,j,2}, ..., o_{i,j,|o_{i,j}|})$

统一应用于源自同一样本的所有对话，如公式1所示。遵循Dr.GRPO，不按标准差对优势进行去偏。公式2描述了损失函数。

$\hat{A}_{i,j,t} = R_{i} - \mathrm{mean}(\{R_{i}\}_{i = 1}^{G}) \quad (1)$