20260529-Adaptive Planning for Multi-Attribute Controllable Summarizationwith Monte Carlo Tree Search

相关链接:

摘要#

可控摘要超越了通用输出，朝着由指定属性引导的、与人类对齐的摘要方向发展。在实践中，属性之间的相互依赖性使得语言模型难以一致地满足相关的约束。此外，先前的方法通常需要对每个属性进行微调，限制了跨不同摘要属性的灵活性。在本文中，我们提出了用于多属性可控摘要的自适应规划（PACO），这是一个无需训练的框架，将任务重定义为通过定制的蒙特卡洛树搜索（MCTS）规划顺序属性控制的顺序。在PACO中，节点表示摘要，动作对应于单属性调整，从而能够逐步细化仅需要进一步控制的属性。该策略自适应地发现最优控制顺序，最终生成有效满足所有约束的摘要。跨不同领域和模型的广泛实验表明，PACO实现了稳健的多属性可控性，超越了基于LLM的自规划模型和微调基线。值得注意的是，使用Llama-3.2-1B的PACO在可控性上可与大得多的Llama-3.3-70B基线相媲美。在更大的模型上，PACO实现了卓越的控制性能，优于所有竞争对手。

1 引言#

可控摘要根据用户指定的属性（如长度、抽取性或主题）定制摘要，对于现实世界的应用至关重要，能够实现更个性化的输出。例如，准备考试的学生可能更喜欢只突出关键主题的简洁摘要，而准备讲课材料的教师可能需要更详细、更具特异性且覆盖范围广的版本。

近期研究探索了使用属性特定监督进行多属性可控摘要训练。例如，Goyal等人（2022）利用了混合专家模型（MoE），每个解码器专精于一个属性；而Zhang等人（2023）采用了硬提示调优（HP）和软前缀调优（SP）来训练多属性模型。然而，这些方法需要对每个属性进行额外的微调，限制了灵活性和对未见偏好的泛化能力。更根本的是，语言模型的自回归生成可能难以在单次解码过程中同时强制执行多个相关约束（图1）。

图1：摘要由多个属性组成。我们的目标是生成同时满足用户指定的多种约束的输出。

由于多个属性常常以复杂的方式相互作用，实现对所有属性的完全控制可能在结构上导致冲突；例如，提高抽取性可能会无意中损害长度控制。此外，可能的属性控制顺序空间呈组合增长，如何系统性地探索最优且有效的控制路径仍然是一个未解决的问题。

为了应对这些挑战，我们提出了用于多属性可控摘要的自适应规划（PACO），

图2：PACO中MCTS过程示意图。树搜索从使用提示生成的一个摘要开始，该提示要求控制所有属性，作为根节点。所有模拟完成后，在决策阶段从整棵树中选择度数最高的节点。

这是一种无需训练的框架，将多属性摘要转化为一个顺序决策（即规划）问题。PACO不是试图一次性强制执行所有约束，而是逐步地、一步一步地调整属性。具体来说，我们设计了一个定制的蒙特卡洛树搜索（MCTS）算法，通过在摘要级别定义节点来探索不同的控制顺序，同时允许重新审视属性，以自适应地找到最优控制路径。由于每个节点都封装了一个完整的摘要，一旦树完全展开，我们可以选择使属性控制程度最大化的节点。为了确保结构化的搜索和评估，我们按类型对属性进行分类，区分必须精确匹配用户目标的确定性属性和值越高越好的非确定性属性。

我们在多个领域评估PACO，包括MACSum_Doc、MACSum_Dial（Zhang等人，2023）和DialogSum（Chen等人，2021）。在一系列LLM上的实验表明，PACO在不同大小和领域的模型上均展现出稳健的控制性能。值得注意的是，我们无需训练的PACO搭配1B模型达到了与70B基线模型相当的控制性能，而搭配70B模型的PACO在所有属性上均优于所有基线，表现出持续强大的可控性。至关重要的是，PACO通过逐步调整属性而非一次性强制所有约束（这可能危及摘要质量），在实现可控性提升的同时没有牺牲摘要质量。我们的主要贡献如下：

我们提出了PACO，这是首个将可控摘要形式化为顺序规划问题并调整MCTS以系统探索最优控制路径的框架。我们定义了摘要级节点并按属性类型分类以分配奖励，从而能够灵活有效地强制执行多个属性约束。跨模型和数据集的广泛实验表明，即使没有属性特定的训练，PACO也具有优越的可控性和与用户偏好的强对齐。

2 PACO#

由于LLM难以同时控制多个属性（Ryu等人，2026），我们旨在逐步地、一次一个地调整属性。然而，顺序控制多个属性并非易事，因为结果取决于控制顺序，且可能顺序的搜索空间是组合爆炸的。此外，控制尝试可能立即成功或反复失败，使得固定策略不可靠，并激发了对系统性探索的需求。

为了优化属性控制规划，我们提出了PACO，它将MCTS算法集成到多属性可控摘要中。我们将属性控制规划过程形式化为一个马尔可夫决策过程（MDP）。按照先前基于树的LLM方法（Yao等人，2023；Hao等人，2023；Wan等人，2024）中定义的细粒度节点（如词元或句子级别）会导致长文本生成任务（如文本摘要）中的搜索空间难以处理。

为了解决这个问题，我们在摘要级别定义每个节点，从而降低了搜索复杂度和模型的规划负担。

2.1 问题形式化#

从一个初始摘要开始，PACO识别控制不足的属性，并根据规划的控制顺序逐步调整它们，最终生成与目标属性值对齐的摘要（图2）。LLM充当策略 $\pi$ ，每个动作 $a$ 对应于控制单个属性。我们从反映了所有属性控制的初始摘要开始，该摘要作为根节点 $s_0$ ，并为每个文档自适应地搜索最优的属性控制顺序 $[attribute_1, attribute_2, \ldots, attribute_n]$ 。每个中间摘要作为一个状态 $s$ ，形成从 $s_0$ 通过连续属性调整的转移序列。在每一步 $t$ ，模型确定控制特定属性的动作 $a_t$ ，并通过将完整历史 $s_0, s_1, \ldots, s_t$ 作为输入来生成下一个摘要 $s_{t+1}$ ，从而能够基于所有先前的修改做出明智的决策。我们将树宽度 $w$ 定义为合法动作的数量，树深度为 $d$ 。该过程迭代直到达到终止状态 $T$ ，即当所有属性都已被精确控制或超出步数限制时。图3显示了每个属性如何被调整的示例，下面我们详细描述PACO定制MCTS算法的关键操作。

2.2 MCTS设计#

选择。PACO过程从根节点 $s_0$ 开始，该节点通过提示模型在单次初始尝试中控制所有属性而生成。然后算法基于预测置信上限树（PUCT）（Rosin，2011）算法的变体探索搜索树，使用以下方程选择节点：

\begin{array}{r}U(s,a) = c_{\mathrm{puct}}\cdot \pi_{\theta}(s,a)\cdot \frac{\sqrt{\sum_{b}N(s,b)}}{1 + N(s,a)}\\ a = \arg \max_{a}\left[Q(s,a) + U(s,a)\right] \end{array} \quad (2)

这里， $Q(s,a)$ 表示状态-动作值， $N(s,a)$ 是状态 $s$ 下动作 $a$ 的访问次数，两者在搜索过程中维护和更新。 $N(s,b)$ 表示从状态 $s$ 采取动作 $b$ 的访问次数。为了平衡探索和利用，我们使用以下项 $c_{\mathrm{puct}} = \log \left(\frac{\sum_{b}N(s,b) + c_{\mathrm{base}} + 1}{c_{\mathrm{base}}}\right) + c_{\mathrm{init}}$ ，它鼓励探索访问较少的动作，同时促进利用那些具有高价值估计的动作，以最大化预期奖励。选择过程持续直到达到终止状态 $T$ ，定义为满足所有属性约束的摘要或达到预定义的最大树深度。

扩展。当到达叶节点时，我们通过为所有可能的动作生成子节点来扩展它。动作空间定义为 $\text{action} \in \{ext, len, spc, top, spk\}$ ，每个动作对应控制单个属性。由于先前应用的动作的效果可能被后续动作改变，所有动作在整个搜索过程中都被视为合法的。

评估。为了估计节点的价值，我们使用基于中间步骤的局部奖励，它捕捉即时的改进。局部奖励通过调整可控摘要的多属性度量（Ryu等人，2026）来计算，每个属性定义如下：

抽取性：摘要中出现于源文档中的词所占的比例。
长度：摘要的总词数。
特异性：命名实体数量与摘要总词数的比率。
主题： $n$ 个摘要词与 $k$ 个主题词之间的平均嵌入相似度 $\mathcal{B}$ ： $\frac{1}{k} \sum_{j \in k} \frac{1}{n} \sum_{i \in s} \mathcal{B}(\mathrm{topic}_j, \mathrm{word}_i)$ 。
说话人：摘要与目标说话人在对话中的话语集 $\mathcal{U}$ 之间的嵌入相似度，通过BERTScore $(s, \mathcal{U})$ 测量。

使用这些属性度量，我们计算每个请求属性的预测值与目标值之间的平均绝对偏差（MAD）。我们区分确定性和非确定性属性：确定性属性（如抽取性、长度和特异性）期望与用户指定的目标值匹配，而非确定性属性（如主题和说话人）则基于其与目标的对齐程度进行评估，值越高表示对齐越好。因此，对于非确定性属性，我们直接使用对齐得分而不是MAD。

图3：PACO通过其规划过程调整摘要的示例。初始摘要显示LLM在单次传递中难以处理多属性约束。为了解决这个问题，PACO成功地将摘要细化以满足目标属性。表示转向以说话人为中心的内容；表示删除不必要的细节以达到目标长度。参考摘要旁边的值表示目标属性，而生成摘要旁边的值显示它们测量到的属性得分。

总局部奖励，称为控制度，通过计算确定性属性的平均MAD（ $avg_{det}$ ）并加上非确定性属性的对齐得分（ $avg_{non-det}$ ）得到。由于 $avg_{det}$ 的值越低表示性能越好，我们取其倒数以使奖励方向一致。这些超参数可以调整，以控制确定性和非确定性属性的相对重要性。

\mathrm{Local~reward} = \frac{\alpha}{avg_{\mathrm{det}} + \epsilon} +\frac{1}{\beta}\cdot avg_{\mathrm{non - det}} \quad (3)

反向传播。每次模拟结束时，我们使用来自叶节点 $s_l$ 的模拟结果 $V(s_l)$ 更新搜索路径上每个节点的访问次数和累积价值估计 $W(s,a)$ 。平均动作值 $Q(s,a)$ 计算为累积价值除以访问次数。

\begin{array}{rl} & N(s_t,a_t)\gets N(s_t,a_t) + 1\\ & W(s_t,a_t)\gets W(s_t,a_t) + V(s_t)\\ & Q(s_t,a_t) = \frac{W(s_t,a_t)}{N(s_t,a_t)} \end{array} \quad (5)

决策。虽然在模拟过程中节点探索由逐步价值更新引导，但最终摘要的选择基于固定的度数。与选择访问次数最多或价值最高的叶节点的标准MCTS方法（Browne等人，2012）不同，PACO选择整棵树中度数最高的节点。这使得PACO能够自适应地控制属性的子集，而不是强制执行所有属性，从而允许为每个文档量身定制的更灵活的摘要。算法细节见附录A。

3 方法变体#

3.1 基于LLM的自规划#

我们通过引入两个基于提示的自规划基线来检验LLM是否能自行进行属性控制规划：隐式自规划和显式自规划。

隐式自规划。我们提示LLM在单次传递中生成摘要，同时隐式考虑首先控制哪个属性，使用“让我们一步步思考”（Kojima等人，2022）。鼓励模型在不显式生成单独计划的情况下考虑控制顺序，并在输出中体现这种考虑。

显式自规划。我们提示LLM从初始摘要生成显式的控制计划，然后顺序执行。这里，初始摘要通过提示模型一次性控制所有属性获得。显式控制计划指示修改初始摘要中未对齐属性的顺序。在该计划的引导下，模型顺序调整每个属性。

3.2 计算量匹配的方法#

为了验证PACO的性能提升并非源于额外的推理时计算，我们设计了两种具有相同推理时预算的比较方法：联合迭代法和随机顺序法。联合迭代法迭代地联合控制多个属性，而随机顺序法顺序调整随机选择的属性。两种方法在与PACO相同次数的生成后选择控制效果最好的摘要，从而能够进行直接比较。

3.3 启发式价值函数#

虽然传统的MCTS方法利用rollout来估计价值函数（Kocsis和Szepesvari，2006；Gelly和Silver，2011），但LLM中的MCTS应用通常采用基于提示的启发式价值函数（Yao等人，2023；Hao等人，2023；Yu等人，2023）或学习到的价值函数（Wan等人，2024；Chen等人，2024）以降低计算成本。类似地，我们为可控摘要设计了一个定制的启发式价值函数。具体来说，我们定义了一个启发式分数，反映最终输出的全局置信度，评估在当前摘要和已采取的动作路径下，模型是否能够可行地控制所有剩余属性。由于模型难以将这个分数生成为明确的数值，我们将查询构建为二分类问题，并使用“是”响应的概率作为启发式分数。

4 实验设置#

数据集。我们在两个混合属性可控摘要数据集MACSumpial和MACSumpoc（Zhang等人，2023）以及一个面向主题的对话摘要数据集DialogSum（Chen等人，2021）上进行实验。

MACSumpial构建自QMSum数据集（Zhong等人，2021），其中包含来自三个来源的会议记录：AMI（Carletta等人，2005）、ICSI（Janin等人，2003）以及威尔士议会和加拿大议会的委员会会议。MACSumpoc基于新闻领域数据集CNN/DailyMail（See等人，2017）。DialogSum由涵盖日常生活一般话题的真实场景组成。值得注意的是，只有MACSumpial包含说话人属性。

模型。我们通过将我们的方法应用于不同大小的各种LLM来证明其鲁棒性，包括Llama系列（Llama-3.2-1B-Instruct和Llama-3.3-70B-Instruct）（Touvron等人，2023；Grattafiori等人，2024）和Qwen2.5-7B-Instruct（Bai等人，2023；Yang等人，2024）。作为基线，我们比较了基于LLM的自规划方法，即隐式自规划和显式自规划（包括基本版和自适应版），以及硬提示调优结合软前缀调优（HP+SP）（Raffel等人，2020；Li和Liang，2021），按照Zhang等人（2023）基于BARTlarge（Lewis等人，2020）重新实现。我们使用BERTScore（Zhang等人，2020）测量嵌入相似度，并使用FLAIR（Akbik等人，2019）提取命名实体，这是一个在OntoNotes 5（Pradhan等人，2013）上训练的良好建立的命名实体识别模型，覆盖包括新闻和对话语音在内的多个领域。

度量指标。我们对确定性和非确定性属性采用不同的评估方式。对于确定性属性，我们计算目标值与生成属性值之间的平均绝对偏差（MAD）（越低越好），而对于非确定性属性，我们直接评估生成的值（越高越好）。虽然我们的主要目标是实现可控摘要，但保持整体摘要质量仍然很重要。为此，我们还使用ROUGE-1（Lin，2004）和BERTScore F1（Zhang等人，2020）评估生成摘要的质量。

5 主要结果#

可控性结果。虽然目标属性可以任意选择，但我们使用参考摘要的值以便直接比较。对于主题和说话人，我们使用数据集中提供的值。如表1所示，较小规模的LLM基线难以控制属性，尤其是长度，导致在MACSumpial上MAD过高。由于该数据集包含长且复杂的会议记录，即使是像Llama-3.3-70B这样的大模型也难以控制长度，MAD超过15。相比之下，PACO在不同模型上始终展现出强大的属性控制能力。值得注意的是，它将1B模型上的长度MAD从55.68降低到17.96，与70B基线的性能相当。在Llama-3.3-70B上，PACO在确定性属性上的平均MAD约为5，显示出精确的控制，并明显优于所有基线。将PACO应用于Qwen2.5-7B也比基础模型有显著改进，性能介于1B和70B Llama模型之间，凸显了其泛化能力。重要的是，PACO优于预算匹配的方法，表明其改进源于结构化规划而非额外的尝试尝试。此外，随机顺序法优于联合迭代法，支持了我们逐步控制框架的有效性。

表1：MACSumpial上的可控性评估结果。显式自规划表示基本版本，显式自规划+指自适应变体。粗体表示同一基线模型中最好的可控性；*表示在相应数据上训练的模型； $\dagger$ 表示越高越好， $\downarrow$ 表示越低越好。

表2：MACSumpoc上的可控性评估结果，该数据集不包含说话人属性。

表3：DialogSum上的评估结果。虽然标注者特定的属性导致不同的控制趋势，但PACO始终优于所有基线。

跨数据集的鲁棒性。如表2所示，PACO在MACSumpoc上再次显著优于所有基线。值得注意的是，1B PACO模型甚至超越了70B基线，而我们70B模型表现出主导性的可控性，明显超过所有其他模型。与由更长更复杂输入文本组成的MACSumDial相比，所有模型在输入更简单的MACSumDoc上都表现出更好的可控性。这些结果凸显了PACO在不同领域和输入复杂度下保持稳健控制，而基线方法在输入变长变复杂时性能显著下降。

图4：(a) LLM在其自生成计划中常常过度控制且缺乏多样性，而(b) PACO仅控制每个实例所需的属性。我们可视化了每种方法的前10个计划。

我们进一步在DialogSum上评估PACO。表3显示PACO在所有模型大小上均实现了可控性的显著提升。有趣的是，DialogSum上的可控性模式与MACSum数据集不同。在MACSum中，长度是最难控制的属性，特异性是最容易的，而在DialogSum中则相反。这种差异可能源于领域特定属性或标注风格的差异，因为人类撰写的摘要可能因标注者而异。这些结果强调了PACO中自适应控制的有效性，它能够灵活适应每个数据集的独特特征。

属性类型之间的平衡。结果表明，基于LLM的模型在控制非确定性属性方面比确定性属性更有效，主题和说话人得分与参考摘要相当。由于属性类型可以设置优先级，我们对确定性属性赋予更高的权重。关于跨属性类型平衡控制性能的更详细实验见附录D。尽管HP+SP明确训练用于属性控制，但它常常无法遵循指令。我们认为这是由于编码器-解码器架构的结构性限制，以及对确定性属性使用模糊的监督（例如“高”而不是精确的目标）。

图5：每个条形图显示了每个模型大小的属性控制频率，计划中重复的属性只计算一次。百分比表示相对比例。“初始”表示一开始同时控制所有属性的状态。

与自规划的比较。我们评估了LLM是否能进行属性控制规划（表1、2）。结果表明，隐式和显式自规划都未能生成有效的计划，表现甚至比基线更差。特别是隐式自规划表现出最弱的控制性能。自适应版本显式自规划+在提示中加入了软约束，相比基本版有所改进，但仍落后于基线。这些发现凸显了LLM在多属性可控摘要中难以进行属性规划，强调了需要更有效的规划策略来指导生成过程。

如图4所示，PACO从初始摘要开始有选择地仅调整必要的属性，产生多样且均衡的控制计划分布。相比之下，显式自规划+尽管被提示只进行必要的调整，但在大多数数据点上仍产生重复且不均衡的计划。这凸显了LLM在可控摘要中规划能力的不足。

表4：价值函数的消融研究。“L”表示局部奖励，“H”表示启发式分数。

图6：DialogSum中每一步平均控制的属性。后面的步骤主要控制长度，这可能是因为长度与其他属性高度相关。

质量评估。过度关注属性控制可能会损害摘要质量，因此我们也评估了整体摘要质量（表1、2）。值得注意的是，通过逐步控制属性而不是同时强制执行所有约束，PACO避免了潜在的质量下降，并保持了与基线相当的摘要质量。尽管LLM已经展示了强大的摘要能力（Goyal等人，2023；Pu等人，2023；Zhang等人，2024b；Ryu等人，2024b），PACO不仅在控制性能上表现出色，而且还保持了它们的高生成质量。此外，尽管LLM倾向于生成更多释义的输出，这往往导致比训练过的编码器-解码器模型更低的ROUGE分数，但当给出精确的控制指令时，它们仍然可以获得更高的ROUGE分数。

属性控制频率。在图5中，我们分析了PACO在不同模型大小和领域下调整的属性。随着模型大小的增加，初始摘要被选中的次数减少。这表明更大的模型能更有效地调整属性。特别是，它们更频繁地控制抽取性和特异性，展示了其复杂控制的能力。在所有模型大小中，长度是最常调整的属性，这可能是因为它与其他属性高度相关，并且需要额外的修订。在输入更长更复杂的MACSumDial中，初始摘要被选中的总数少于MACSumDoc。这表明更长的输入通常需要额外的调整来满足多个约束。

逐步控制模式。我们分析了PACO在可变长度计划的每一步中平均控制的属性（图6）。70B模型在早期步骤中调整多种属性，而后期步骤倾向于聚焦于长度，因为它可能受到其他属性的强烈影响。相比之下，1B模型从更深层次的调整中获得的可控性提升有限，并且很少尝试控制长度以外的属性。

价值函数的消融研究。我们展示了比较不同节点值计算策略的消融研究，比较了当前步骤的控制度与启发式评分（这是基于LLM的MCTS中的常见选择）（表4）。结果表明，启发式分数作为价值函数提供的益处很小，尤其是对于1B模型。结合两种信号仅带来微小的增益，不足以抵消额外的成本。因此，仅使用局部奖励既更高效又更有效，这可能是因为预测部分受控的摘要是否能满足所有剩余属性并非易事。

6 分析#

7 相关工作#

可控摘要。关于可控摘要的先前工作主要集中在单属性控制上（Zhong等人，2021；Liu和Chen，2021；Dou等人，2021；Chan等人，2021；Mao等人，2022；Zhang等人，2022；Bahrainian等人，2022；Ahuja等人，2022；Liu等人，2022；Maddela等人，2022；Mehra等人，2023；Xu等人，2023；Pagnoni等人，2023；Wang等人，2023；Retkowski和Waibel，2025；Gu等人，2025；Ryu等人，2026），最常见的是针对长度和主题的调整（Urlana等人，2024）。为了控制多样化的属性，He等人（2022）引入了一个能够控制各种属性（如实体、长度和目的）的框架，尽管这些属性不是同时控制的。

最近，同时控制多个属性引起了越来越多的兴趣（Fan等人，2018；Goyal等人，2022；Zhang等人，2023）。Zhang等人（2023）引入了混合属性可控摘要，而Goyal等人（2022）利用MoE联合控制多个属性。然而，这些方法需要对每个属性进行额外的训练，当属性数量增加时变得不切实际。相比之下，PACO利用LLM而无需任何属性特定的训练，通过MCTS进行规划以发现最优控制路径，并实现对所有目标属性的同时控制。

LLM的树搜索。树搜索主要应用于推理任务，其中问题被分解为子问题并表示为搜索树中的节点，以便逐步推理出正确答案（Yao等人，2023；Hao等人，2023；Wan等人，2024；Chen等人，2024；Zhang等人，2024a；Xie等人，2024；Lee等人，2025）。Yao等人（2023）将每个节点框架为部分解，并搜索树以解决复杂问题。Hao等人（2023）将语言模型视为世界模型，定义任务特定的状态和动作。先前的工作应用MCTS来识别导致正确最终答案的推理路径，而我们的任务要求整个解码过程满足多个约束。为了解决这个问题，我们为可控摘要场景定制了MCTS，在摘要级别而不是词元或句子级别定义每个节点。此外，由于先前调整过的属性的控制程度可能随着后续动作而改变，我们允许在搜索过程中多次调整同一个属性。

8 结论#

我们提出了PACO，一种将蒙特卡洛树搜索集成到多属性可控摘要中的自适应规划方法，从而能够有效控制多个属性。由于语言模型难以在单次传递中同时强制执行所有约束，PACO通过构建最优控制路径逐步调整属性，仅修改必要的属性。因此，它在各种模型和领域上展示了稳健且一致的控制，同时保持了摘要质量。

限制#

尽管PACO在多属性上提供了强大的可控性，我们注意到一些实际限制和扩展方向。首先，虽然摘要级节点有助于减少搜索空间，但树搜索仍然计算量大（见附录E）。寻找最优控制路径需要更深入的模拟，导致更长的运行时间。尽管如此，PACO完全在测试时运行且无需额外训练，尽管增加了计算开销，但仍具有实际价值。为了缓解这一限制，未来的工作可以探索更高效的搜索时启发式方法或结合近似策略，以在不牺牲控制质量的情况下降低计算成本。其次，整合质量维度的优化，如Ryu等人（2024a）和Song等人（2025）先前所探索的，可以将可控性从属性对齐扩展到更广泛的质量维度，如连贯性、一致性、相关性和流畅性。为了支持更全面和用户定制的摘要，未来的工作可以扩展PACO以适应更广泛的属性类型。

伦理声明#

本文聚焦于可控摘要的应用，不引发任何伦理问题。使用的所有数据集都是公开可用的，AI辅助仅用于语法纠正。

致谢#

本工作得到了韩国国家研究基金会（NRF）由韩国政府（MSIT）资助的资助（编号：RS-2023-00217286）（45%）；通过韩国警察技术研究所（KIPoT）由韩国国家警察局（KNPA）资助的警察人员智慧医疗项目（www.kipot.or.kr）（编号：RS-2022-PT000186）（45%）；以及由韩国政府（MSIT）资助的信息通信技术规划与评估研究院（IITP）的资助（编号：RS-2019-II191906，人工智能研究生院项目（POSTECH））（10%）。

A PACO算法#

算法1概述了PACO过程。该算法在模拟阶段包括选择、扩展、评估和反向传播，随后是决策步骤，从整个树中选择最终摘要。

B 超参数#

我们将最大树深度 $d$ 设置为5，每次搜索进行8次模拟。为了计算局部奖励，我们使用 $\alpha = 1$ 用于确定性属性， $\beta = 10$ 用于非确定性属性，以平衡它们的尺度。所有预算匹配的方法使用与PACO模拟次数相同次数的生成。我们采用Silver等人（2017）和Schrittwieser等人（2020）中的大部分MCTS超参数，包括 $c_{\mathrm{base}} = 19652$ 和 $c_{\mathrm{init}} = 1.25$ 。我们按照Zhang等人（2023）训练HP+SP基线并使用最终检查点。在我们所有的实验中，我们使用束宽为3的束搜索，并遵循Transformer实现的默认解码设置（温度 $= 1.0$ ，top_k $= 50$ ，top_p $= 1.0$ ）。我们采用束搜索是因为每个节点代表一个完整的摘要而不是词元或句子级别的片段。在这种情况下，贪婪解码会损害流畅性并且通常生成质量较低的摘要，而小束宽（beam=3）在不引入过多分支的情况下提高了生成质量。此外，动作空间固定为五个操作（对应于属性的数量），最大树深度也限制为五。因此，搜索树非常浅。

C 硬件使用#

我们在实验中使用了4块NVIDIA A100-SXM4-80GB GPU。

D 确定性与非确定性属性之间的平衡#

为了在搜索过程中评估每个节点，我们计算局部奖励为 $\frac{\alpha}{avg_{\mathrm{det}} + \epsilon} +\frac{1}{\beta}\cdot avg_{\mathrm{non - det}}$ ，其中 $avg_{\mathrm{det}}$ 表示确定性属性与目标值的平均偏差， $avg_{\mathrm{non-det}}$ 表示非确定性属性的平均亲和度得分。超参数 $\alpha$ 和 $\beta$ 控制两项的相对重要性， $\epsilon$ 是一个小常数，用于确保数值稳定性。由于LLM通常在结构化、确定性属性（例如长度、抽取性）上比与内容相关的非确定性属性更难控制，我们在主要结果（表1和2）中设置 $\beta = 10$ ，以适度提高确定性控制性能的权重。

在表5中，我们改变 $\beta$ 的值来调整实验中确定性和非确定性属性之间的相对权重。我们在MACSumpial数据集上使用Qwen2.5-7B和Llama-3.3-70B作为基线模型进行实验。较小的 $\beta$ 值增加了分配给非确定性属性的相对权重。实验结果显示，随着 $\beta$ 减小，主题和说话人等非确定性属性的得分逐渐增加，而抽取性、长度和特异性等确定性属性的得分趋于下降。具体来说，使用Qwen2.5-7B时，当 $\beta = 10$ ，长度的MAD为11.79，主题得分为0.799。然而，当 $\beta$ 减小到0.01以强调非确定性属性时，长度的MAD增加到17.94，而主题得分提高到0.801。使用Llama-3.3-70B模型时观察到类似的趋势。这些发现表明，用户可以通过调整权重来控制摘要输出，以强调他们最看重的属性。

E 计算成本#

在表6中，我们展示了每个模型生成最终摘要所需的平均时间。尽管PACO带来了更高的计算成本，但它明显优于也相对昂贵的自规划方法。这展示了计算与可控性之间的有利权衡，特别是在需要结构化控制的任务中。重要的是，我们的方法完全通过测试时推理解决了多属性控制的复杂挑战。由于更强的推理和可控性通常需要更高的计算成本，并且语言模型正变得更快更高效，我们认为更强的可控性所需的增加的计算成本是实用且有前景的，而不是一个长期限制。

F 属性控制提示#

以下是用于属性控制的详细提示。这些提示在PACO和自规划方法之间共享，以确保公平比较。

计划（仅生成计划）：

G.3 显式自规划+#

你是一个有帮助的助手。你的任务是为用户生成调整后的摘要。

文章：{{Article}}

摘要：{{Previous summary}}

你是一个有帮助的助手。你的任务是生成调整摘要的计划。

你必须修改{{target attributes}}，但由于很难一次性全部修改，你应该逐个调整它们。计划应该先修改哪个属性。注意你不需要修改所有属性，并且必要时可以多次调整同一个属性。输出应返回为一个列表。例如，plan = [‘attribute1’, ‘attribute2’, …]

计划（仅生成计划）：

H 基于LLM的启发式分数#

你是一个有帮助的助手。你的任务是评估用户的摘要。

文章：{{Article}}

摘要：{{Summary}}

对这篇摘要的进一步调整能否完全满足所有目标属性？最终目标是生成一个满足目标属性{{target attributes}}的摘要。当前摘要已按{{path}}的顺序进行了调整。请记住，对早期属性的更改可能会在你调整后期属性时被破坏。

答案（仅生成“是”或“否”）：