11648 字
58 分钟
20260529-OR-PRM-A Process Reward Model for Algorithmic Problem in Operations Research
2026-05-29

相关链接:

OpenReview 原文

摘要#

具有过程奖励模型(Process Reward Models, PRMs)的大型语言模型(LLMs)展现出了强大的推理能力,但它们在运筹学(Operations Research, OR)中的潜力尚未被探索。我们提出了第一个为OR量身定制的PRM,但发现直接在主流通用数据集上训练会产生出人意料地弱的表现。为了理解这一差距,我们进行了系统分析,并确定了主要的瓶颈:数据集本身,其中超过30%的标注存在严重缺陷。为了克服这些限制,我们首先收集了所有现有的合成数据集,并应用精心设计的过滤流程构建了一个高质量的种子数据集。在此种子数据集的基础上,我们构建了OR-ProcessQA,这是第一个具有逐步监督的大规模OR数据集,其中通过蒙特卡洛树搜索(MCTS)生成多样化的求解路径,并且每一步都由GPT-4o验证逻辑一致性。基于此基础,我们训练了OR-PRM,这是OR领域的第一个过程奖励模型,旨在评估并指导每一步的推理,而不仅仅是最终结果。这些进展共同使OR-PRM能够显著提高LLM的推理能力,在Best-of-N设置中相较于基座模型实现了高达12.5%的绝对提升,并突显了过程导向监督在运筹学中实现可靠问题解决的能力。

1 引言#

image.png 图1:嘈杂数据(左)与我们的数据(右)左面板说明了现有数据集中的常见问题,例如不可行的问题、建模错误和编码缺陷。右边的面板展示了我们结构良好的种子数据,它是OR-ProcessQA数据集的基础,其特点是逐步解决方案,带有明确的正确性标签和基础真值更正。

大型语言模型 DeepSeek-AI (2024); Yang et al. (2025a) 近期展现了强大的推理能力,这主要归功于强化学习和过程奖励模型(PRM)等后训练方法。它们在具有挑战性的领域中的快速进步是显而易见的,例如,GPT-5已经在2025年ICPC世界总决赛中超越了所有人类选手 OpenAI (2025),这是一项著名的零样本编程竞赛。这些进展表明,LLM不再仅仅是流畅的文本生成器,而是正在演变为解决严谨问题的强大引擎。

运筹学为这种推理提供了一个特别有说服力的试验场,因为它涉及使用数学优化、模拟和分析方法对复杂的现实世界决策问题进行建模和求解,以在受限系统内有效分配稀缺资源并最大化性能。求解OR问题不仅需要最终答案的正确性,还需要逐步的逻辑一致性——这恰好是PRM的自然匹配,PRM旨在明确评估中间步骤的正确性。乍一看,似乎很自然地期望PRM在OR中像在数学或编程中一样表现出色。

然而,这种期望并未成立。当我们开发第一个为OR量身定制的PRM时,其表现远弱于预期,即使使用了最先进的LLM基座。我们的分析表明,主要障碍是数据质量,因为现有的OR数据集存在惊人的不可靠性。在Industry OR数据集中,甚至超过30%的样本在最终答案中包含严重错误,与其他数据集一样,许多样本包含不完整或嘈杂的推理步骤(图1)。这种噪声使得PRM极难学习可靠的推理,导致看似合理但常常违反隐藏约束或破坏逻辑一致性的解。

为了克服这些挑战,我们首先通过一个严格的三阶段过滤流程筛选了一个高质量的种子数据集。在此基础之上,我们结合了用于解空间探索的MCTS和用于细粒度逐步标注的GPT-4o,生成了数十万条问题-求解轨迹。经过严格的一致性检查,这一过程产生了OR-ProcessQA,这是第一个具有可靠步骤级监督用于训练PRM的大规模OR数据集。

利用这一资源,我们开发了OR-PRM,这是第一个为运筹学量身定制的过程奖励模型。与将推理质量压缩为单个标量分数的传统PRM不同,OR-PRM通过分类错误并提供针对性修正来提供结构化反馈。这种设计使其不仅能评估最终答案的正确性,还能评估每个中间步骤的有效性。通过区分正确代码、不正确但仍可运行的代码以及不可运行的代码,OR-PRM为改进提供了可操作的指导。我们的实验表明,这种反馈显著提高了LLM的逻辑一致性和规则遵循行为,标志着向OR应用中可信决策迈出了重要一步。

总体而言,我们的贡献有三方面:(①) 我们提出了OR-PRM,这是第一个为运筹学量身定制的过程奖励模型,训练用于评估和指导每一步的推理,而不仅仅是依赖最终答案。(②) 我们通过筛选现有的合成OR数据筛选了一个高质量的种子数据集,并进一步通过MCTS探索和GPT-4o标注将其扩展为OR-ProcessQA,这是第一个具有可靠步骤级正确性标签用于训练PRM的OR数据集。(③) 我们通过实验证明,使用OR-PRM进行过程导向监督显著提高了LLM在OR任务中的逻辑可靠性和正确性(例如,在六个基准测试上平均获得12.5%的准确率提升),为现实应用中的可信决策铺平了道路。

2 相关工作#

用于运筹学的大语言模型#

LLM在自然语言理解和复杂推理方面的卓越能力最近推动了它们在运筹学中的应用。一个核心挑战在于如何有效地将这些自然描述的优化问题转化为求解器可以处理的精确数学模型。当前的学术探索主要遵循两条技术路径 Xiao et al. (2025):一条路径涉及推理增强方法,通过精心设计的提示词引导通用LLM进行建模。例如,X-of-Thought方法(例如,Autoformulation使用的树搜索推理 Astorga et al. (2025))和多专家系统(例如,Chain-of-Experts Xiao et al. (2024) 和 OptiMUS Ahmadi-Teshnizi et al. (2024))。第二条路径专注于领域特定微调,模型在专用数据集上进行微调以增强其专业能力。诸如ORLM Huang et al. (2025a) 和 LLaMoCo Ma et al. (2024) 等研究表明,微调后的模型可以超越GPT-4等通用LLM。在此基础上,LLMOPT Jiang et al. (2025) 通过引入五元组形式作为通用问题定义范式并采用Kahneman-Tversky优化(KTO)进行模型对齐,进一步推进了这一方向,提高了模型的泛化能力。

面向运筹学的数据合成#

然而,上述两条技术路径都高度依赖高质量数据集。因此,研究人员开始探索数据合成技术,大致分为以问题为中心和以模型为中心的方法 Xiao et al. (2025)。前者以OR-Instruct Huang et al. (2025a) 为例,通过修改现有问题来增强数据。后者优先考虑首先生成模型,然后反向构建问题描述,从而更好地控制难度和正确性。例如,Re-Socratic Yang et al. (2025b) 方法从形式化证明中反向生成问题,而OptiMath Lu et al. (2025) 和 MILP-Evolve Li et al. (2025) 则直接从模型代码或类型生成。同时,学术界发布了一些评估基准,包括NL4Opt、MAMO和IndustryOR。然而,最近的研究发现这些广泛使用的基准存在惊人的高错误率(某些数据集的错误率超过50% Xiao et al. (2025)),严重损害了评估的可靠性。为了解决数据质量这一瓶颈,本研究创新性地清洗并构建了一批高质量的优化建模数据,为训练和评估更可靠的优化模型奠定了坚实基础。

过程奖励模型#

过程奖励模型 Cobbe et al. (2021); He et al. (2024); Zhang et al. (2025b;a) 通过对中间推理步骤进行评分来提供过程级监督,引导模型逐步推理,提高逻辑一致性和准确性。基于这一能力,PRM已成功应用于Best-of-N采样 Wang et al. (2025) 和离线数据选择 Xie et al. (2023),显著提高了推理质量和模型优化。代表性工作如Skywork-PRM He et al. (2024) 和Qwen2.5-Math-PRM Zhang et al. (2025b) 结合了人工标注和合成奖励来评估数学、科学和编程领域的性能。它们在分布外推理上常常失败。Zhu et al. (2025) 通过RetrievalPRM解决了这个问题,这是一个使用问题和步骤级检索来提高泛化能力的过程奖励模型。除了通用领域,PRM也被扩展到垂直领域;例如,Fin-PRM Zhou et al. (2025) 将PRM适配到金融领域,具有轨迹感知、领域特定的奖励建模。将PRM应用于垂直领域需要领域特定知识;因此,我们针对运筹学的特点合成了数据集并进行了训练。

3 方法论#

image.png

图2:我们的自动化框架的概述。我们首先通过三阶段过滤管道和基于mcts的轨迹生成以及步骤级验证来构建OR-ProcessQA。基于这个数据集,OR-PRM被训练来提供结构化的、逐步的反馈。

我们的方法通过一个三阶段流程来应对将LLM应用于运筹学的核心挑战,如图2所示。我们首先建立一个稳健的数据基础。首先,我们在第3.1.1节中构建一个高质量的种子数据集,以减轻数据噪声和不一致性。接着,我们在第3.1.2节中构建OR-ProcessQA数据集,这是OR领域中第一个提供细粒度步骤级标注的过程监督数据。最后,我们在第3.3节中开发了面向OR领域的过程奖励模型(OR-PRM)。这个专门的PRM为OR推理步骤提供超越标量分数的自然语言批评和修正。我们的方法通过在整个求解过程中提供详细、可解释的反馈,显著提高了LLM在OR中的可靠性和性能。

3.1 数据集构建#

高质量的数据集对于确保PRM监督的有效性至关重要。我们提出了一种更严格的数据集构建方法。具体来说,我们首先通过仔细的筛选和多轮检查在第3.1.1节中创建一个更干净的种子数据集。然后,我们在第3.1.2节中利用这个精选的种子数据集生成多样且准确的过程标注数据。

3.1.1 种子数据构建#

在本节中,我们首先标准化问题表示以实现一致的生成。然后,我们采用现有的强OR模型 LLMOPT Jiang et al. (2025) 来生成求解器代码。最后,我们采用多阶段流程筛选出高质量数据。

问题表示。 我们采用LLMOPT作为生成策略,首先将每个问题生成为规范的五元组形式 (S,θ,x,f(x),g(x)c)(S,\theta ,x,f(x),g(x)\leq c),确保与下游验证和建模阶段的兼容性。这种基于策略的生成从一开始就确保了数学形式良好且与求解器无关的结构。

为了实现一致的建模和自动化验证,我们通过一个紧凑的五元组表示每个问题 (p):

p=(S,θ,x,f(x),g(x)c),p = \left(S,\theta ,x,f(x),g(x)\leq c\right),

其中 SS(指标集),θ\theta(参数),xx(变量),f(x)f(x)(目标函数),和 g(x)cg(x)\leq c(约束条件)共同以规范形式 minxf(x) s.t. g(x)c\min_{x}f(x)~s.t.~g(x)\leq c 定义了优化任务。这种模式确保了与求解器无关的结构,使得能够针对声明的约束和目标进行确定性的代码-输出验证,这对于可扩展、无错误的种子数据集构建至关重要。

求解器生成。 我们直接使用LLMOPT为每个问题元组自动生成定制的求解器代码,将数学公式与可执行实现直接联系起来。

多阶段验证。 然后,每个生成的样本都经过一个三阶段验证流程以确保高质量的推理。样本沿三个轴进行评估:代码执行、约束满足和建模准确性,如果任何阶段失败则被丢弃。

  1. 代码执行: 我们执行提供的代码并验证它无错误运行并产生预期输出。这验证了代码的可执行性并建立了

  2. 约束满足: 我们采用Qwen3-8B Yang et al. (2025a) 作为推理验证器:给定来自五元组的约束表达式 (g(x)cg(x) \leq c) 和求解器代码产生的数值解 (x^\hat{x}),它执行符号或数值代入以验证是否满足所有约束。这使得能够进行自动化的、基于模型的可行性检查,而无需额外的代码生成。

  3. 建模准确性: 最后,我们使用GPT-4o验证数学公式是否准确反映了原始问题陈述。这确保了五元组 (S,θ,x,f,g)(\mathcal{S}, \theta , x, f, g) 忠实地捕获了问题的语义。

当且仅当一个样本通过所有三个验证阶段(成功的代码执行、约束满足和建模准确性)时,它才会被保留。这个集成的生成过程为我们提供了一个干净、可靠的种子数据集。

3.1.2 逐步标注生成#

种子数据只能支持SFT(监督微调)而不能支持PRM训练,因此我们进一步将其扩展为逐步轨迹并进行标注,获得一个适合PRM监督的高质量数据集。具体来说,该过程包括三个部分:(1) 基于种子问题通过MCTS自动生成步骤;(2) 使用GPT-4o对每个步骤进行结构化评估以识别潜在错误;(3) MCTS和GPT-4o输出之间的一致性过滤,仅保留逻辑合理的轨迹。

通过MCTS自动标注。 遵循OmegaPRM Luo et al. (2024),我们将MCTS应用于种子数据集中的问题以采样求解轨迹。正确的步骤标记为1.0,任何失败路径中的第一个错误标记为0.0。这个过程产生了超过55万个带标注步骤的原始数据集。

使用GPT-4o进行结构化错误分析。 为了增强可靠性,我们采用GPT-4o系统地重新评估每个候选推理步骤。该模型按预定义顺序检查每个组件:(1) 参数定义,(2) 目标函数和约束条件,(3) 生成的代码,以及 (4) 代码执行输出。一旦检测到第一个错误,它就会停止进一步分析并输出四个结构化字段:

  • 问题描述: 错误的自然语言描述;
  • 判断: 二元标签“正确”或“不正确”;
  • 修正版本: 错误组件的修正内容;
  • 修正步骤: 包含修正的完整修订推理步骤。

这种结构化分析确保了训练和细化的一致、可解释和可操作的反馈。

基于共识的过滤。 我们采用双重验证机制来筛选最终训练集。只有当 LabelMCTS(s)=LabelGPT4o(s)\mathrm{Label}_{\mathrm{MCTS}}(s) = \mathrm{Label}_{\mathrm{GPT - 4o}}(s) 时,样本才会被保留,其中Label表示二元有效性标签(正确或不正确),(s) 是推理步骤。

通过这个流程,我们获得了高置信度的标注样本,构成了我们的最终数据集:OR-Process-QA。该数据集在规模和精度之间取得了平衡,有效地支持了OR-PRM的细粒度奖励建模和逐步纠错能力。

3.2 面向OR问题的生成式PRM#

传统的PRM 通常输出一个标量分数来表示判断。它们采用逐步评估方法。首先,为响应中的每个推理步骤分配一个标量分数。然后,通过加权和或取最小值等方法聚合这些分数来计算最终奖励。然而,传统的PRM通常只为每个步骤分配一个标量值。这对于像运筹学这样的复杂任务是不够的。

这类任务需要详细分析变量关系(例如,x over Sx~over~S),约束满足 (g(x)c)(g(x) \leq c) 以及目标函数 f(x)f(x) 的逻辑结构。此外,虽然发现代码生成中的语法错误等问题依赖于大型语言模型的生成能力,但一个简单的分数不足以正确捕捉这些潜在问题,尤其是当代码必须与规范形式 minxf(x) s.t. g(x)c\min_{x} f(x)~s.t.~g(x) \leq c 对齐时。

生成式PRM 用自然语言判断取代了诸如正确或不正确之类的二元标签。在推理过程中,模型为每个推理步骤生成文本批评和判断,实现了可解释的逐步评估。受GM-PRM Zhang et al. (2025a) 的启发,我们采用了一种为运筹学任务量身定制的生成式过程奖励建模方法。我们的模型不为推理步骤分配标量分数,而是为解决方案的每个组件生成自然语言批评和判断。这使得基于领域特定逻辑的细粒度、可解释的评估成为可能。

具体来说,给定一个优化问题 (p=(S,θ,x,f(x),g(x)c)p = (\mathcal{S}, \theta , x, f(x), g(x) \leq c)) 及其逐步解决方案,模型按顺序分析四个关键组件:(1) 变量定义(在 (S\mathcal{S}) 上的 (x),由 (θ\theta) 参数化),(2) 目标函数 (f(x)f(x)) 和约束条件 (g(x)cg(x) \leq c),(3) 代码实现(如果有),以及 (4) 最终输出。对于每个组件,它生成一个简短的目的陈述,一个对关键问题的集中分析,以及一个二元判断“正确”或“不正确”。如果任何组件被判断为不正确,模型仅输出第一个有缺陷部分的修正版本。

3.3 训练目标#

我们的训练过程分为两个主要阶段,以有效利用我们的OR-ProcessQA数据集。我们首先使用监督微调(SFT)来教模型生成批评的基本格式,然后使用直接偏好优化(DPO)进行对齐阶段,以完善其逻辑判断。

3.3.1 监督微调#

第一阶段,SFT,将基座模型适配到生成式PRM任务。SFT的主要目标是教模型正确的格式、风格以及OR问题求解所需的逐步推理过程。

具体来说,模型使用我们的高质量标注样本进行训练,采用标准的自回归下一token预测目标。输入包括问题描述和候选解决方案,而目标是我们在数据标注流程(第3.3.2节)中生成的完整结构化批评。SFT损失函数 (LSFT\mathcal{L}_{\mathrm{SFT}}) 定义为:

LSFT(θ)=E(x,y)DSFT[t=1TlogPθ(ytx,y<t)](1)\mathcal{L}_{\mathrm{SFT}}(\theta) = -\mathbb{E}_{(x,y)\sim \mathcal{D}_{\mathrm{SFT}}}\left[\sum_{t = 1}^{T}\log P_{\theta}(y_t|x,y_{< t})\right] \quad (1)

其中 (y) 表示包含四个结构化字段的目标序列:问题描述、判断、修正版本和修正步骤。这个过程教会了模型执行细粒度、逐步的错误分析和修正,这是我们生成式PRM的定义特征。

3.3.2 对齐#

监督微调产生的步骤格式正确但缺乏逻辑可靠性。这是因为模型只是模仿示例而没有更深入的理解。为了解决这个问题,我们使用了一个对齐阶段。该阶段采用DPO来促进真正的逻辑推理。

直接偏好优化 我们利用OR-ProcessQA数据集以及来自SFT模型的输出:我们使用SFT模型重新运行推理,识别失败案例(即模型产生不正确或较差推理的地方),并据此构建偏好对 ((x,yw,yl)(x, y_{w}, y_{l}))。对于每个提示 (xx),(ywy_{w}) 是正确或更优的推理步骤,而 (yly_{l}) 是由SFT模型生成的有缺陷的步骤。

DPO直接优化语言模型策略 (πθ\pi_{\theta}),以增加偏好响应相对于非偏好响应的似然,相对于一个参考策略 (πref\pi_{\mathrm{ref}})。DPO损失函数为:

LDPO(πθ;πref)=E(x,yw,yl)D[logσ(βlogπθ(ywx)πref(ywx)βlogπθ(ylx)πref(ylx))](2)\mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) = -\mathbb{E}_{(x,y_{w},y_{l})\sim \mathcal{D}}\left[\log \sigma \left(\beta \log \frac{\pi_{\theta}(y_{w}|x)}{\pi_{\mathrm{ref}}(y_{w}|x)} -\beta \log \frac{\pi_{\theta}(y_{l}|x)}{\pi_{\mathrm{ref}}(y_{l}|x)}\right)\right] \quad (2)

4 实验与分析#

在本节中,我们将在第4.1节介绍OR-PRM的实验设置。然后,我们在第4.2节讨论其在两种不同设置下的性能。最后,我们在第4.3节介绍消融研究。

4.1 实验设置#

模型。 我们评估了OR-PRM应用于几个领先语言模型时的性能,包括Qwen2.5系列(7B、14B和32B)以及LLMOPT Jiang et al. (2025),一个专为运筹学定制的专业模型。我们选择Qwen2.5是因为它提供了完整的模型大小范围,使我们能够研究扩展效应,并且它在最近的LLM研究中展示了强大的推理能力和广泛的应用。

基准。 我们在一组优化基准上评估了模型性能。然而,即使是运筹学中的基准也包含严重错误 Xiao et al. (2025); Jiang et al. (2025)。为了提供公平的评估并防止误导性答案,我们使用了来自Xiao et al. (2025) 的清洗后基准,以确保我们结果的可靠性,包括Industry OR Huang et al. (2025a)、Easy-LP Huang et al. (2025b)、Complex-LP Huang et al. (2025b)、NL4LP AhmadiTeshnizi et al. (2024)、NL4OPT Ramamonjison et al. (2022)。

训练细节。 为了训练OR-PRM,我们使用Qwen2.5-7B-Coder作为基座模型。训练过程在八块Nvidia A100 GPU上分两个阶段进行,使用DeepSpeed ZeRO-2和bfloat16精度。首先,我们以2e-5的学习率进行监督微调。之后,模型以4e-5的学习率和0.2的beta值进行直接偏好优化(DPO)。在两个训练阶段中,每设备的批量大小均为2。

推理细节。 我们在两种互补的推理设置下评估OR-PRM。第一种侧重于选择,即生成多个候选推理路径,OR-PRM识别出最可靠的那个(Best-of-N采样)。第二种强调精炼,OR-PRM批评中间步骤并引导模型改进解决方案(建模-批评-代码生成流程)。对于评估,正确性通过数值验证,并且由于许多问题允许多种求解路径,我们在报告性能时只比较最终的最优值。

BEST-OF-N 采样。 默认情况下,我们设置 (N = 8)。模型以温度1.0生成 (N) 条不同的思维链 CoT Wei et al. (2022) 推理路径。OR-PRM将每条路径中的每个推理步骤评估为正确或错误,并选择包含最多正确步骤的路径,倾向于最连贯和准确的推理轨迹。

建模、批评和代码生成流程。 在这种设置下,基座语言模型遵循一个结构化的三阶段工作流程,由OR-PRM引导。首先,模型通过逐步推理构建一个正式的问题建模。接下来,OR-PRM通过识别潜在错误或不一致性来批评每个推理步骤。最后,原始建模及其批评被拼接起来并反馈给模型,以指导生成满足预定义输入输出规范的可执行Python代码。这个过程通过迭代反馈强制执行一个自我修正、实现感知的推理轨迹。

为了全面评估我们提出的流程的有效性,我们采用了两个主要评估指标:pass@1,衡量首次尝试的正确性,反映模型即时的问题解决能力;以及pass@8,评估当允许最多八次尝试时模型的上限潜力,从而揭示其在给定搜索空间内自我修正和迭代精化的能力。

表1:六个推理基准上的结果。实验结果表明,在Best-of-8评估策略下,使用OR-PRM作为评论家模型显著提高了推理性能。蓝色字体表示性能提升。 image.png

4.2 主要结果#

Best-of-N 采样。 如表1所示,OR-PRM在Qwen模型系列的不同规模上一致且显著地提高了推理性能。它在Qwen2.5 Yang et al. (2024) 系列(7B-32B)和专用模型LLMOPT Jiang et al. (2025) 上取得了均匀的提升,证明了其有效性和相对于模型大小的强扩展性。值得注意的是,在14B模型上,OR-PRM实现了近12.5%的最高平均提升。

此外,OR-PRM带来的性能提升在不同难度级别的任务中都一致显现。在最具挑战性的Complex-LP基准上,Qwen2.5-32B取得了令人印象深刻的24.2%的绝对提升。对于相对简单的基准如Easy-LP,14B模型实现了23.2%的大幅提升。即使对于已经在推理上进行了广泛优化并在困难任务上表现出强劲性能的LLMOPT,OR-PRM在Complex-LP上仍然贡献了额外的19.0%提升。这些结果进一步证实了OR-PRM在苛刻条件下准确识别和优先考虑高质量推理步骤的有效性。

建模-批评-代码流程的结果。 如图3所示,OR-PRM在著名开源模型Qwen-2.5-14B和先进的闭源模型GPT-4o上均表现出一致的显著性能提升。

最显著的提升尤其体现在具有挑战性的Complex-LP基准上,突显了OR-PRM解决复杂问题的强大能力。Qwen2.5-14B的pass@1准确率惊人地提升了23.4%,而最先进的GPT-4o也实现了8.1%的显著增长。pass@8的提升也很显著:Qwen2.5-14B大幅增长了36.1%,GPT-4o提升了6.3%。

这些提升突显了OR-PRM通过有效从初始失败中恢复正确解来提高推理上限的能力。即使第一次尝试失败,OR-PRM也能实现迭代修正,增强了在不确定性和复杂性下的稳健性。在较简单的Easy-LP基准上,它仍然产生了24%的一致的提升,展示了跨任务难度的可靠性。

OR-PRM的核心是其评论家组件——一个评估每个推理步骤的智能反馈循环。它强化正确的步骤,并精确诊断错误,提供有针对性的指导而非二元判断。这种细粒度的反馈帮助模型像人类学习者一样迭代精炼其推理,从而带来显著的准确率提升。这种交互式纠正是OR-PRM跨模型和任务广泛有效性的关键。

image.png

图3:OR-PRM增强了跨模型的优化能力。它在开源(Qwen2.5-14B)和闭源(GPT-4o)模型上均持续提升性能,并能够解决即使有8个样本仍未解决的问题。

4.3 消融研究#

在本节中,我们分析了通过DPO进行模型对齐的有效性,并检查了跨任务难度级别的性能趋势。结果呈现在表2中。

表2:消融结果。在Qwen2.5-14B上的结果。

image.png

模型对齐的有效性 我们的消融研究证实了直接偏好优化(DPO)在OR-PRM模型训练中的有效性。如表2所示,在SFT之上结合DPO的完整模型达到了51.0%的平均准确率。这代表了相对于仅SFT基线(43.0%)8.0%的绝对提升,证明了DPO在改进模型方面的关键作用。其他基线包括Qwen2.5(零样本)模型,它代表了没有经过任何SFT或DPO训练的原始基座模型性能,以及自一致性(过滤空值)方法,该方法在过滤掉那些未能产生有效数值目标值的路径后,对 (N = 8) 条路径进行多数投票。

跨任务难度级别的性能 如表2所示,OR-PRM在简单和具有挑战性的基准上均持续优于多数投票基线。这一性能表明,OR-PRM能够在简单和具有挑战性的基准上检测到推理路径中的绝大多数错误。

4.4 讨论#

我们进一步讨论了当前训练数据和细粒度判别能力方面的局限性,未来的方向如下所述。

我们的OR-PRM在新的OR-ProcessQA数据集上表现良好。然而,由于现有数据集不能用于PRM训练,很难进行比较。此外,我们的Best-of-N性能很强,但仍未达到理论上限。这一性能差距主要归因于我们当前数据集和模型的大小。因此,我们未来将扩展训练数据,使模型更擅长检测细微的推理错误。

5 结论与局限性#

在这项工作中,我们介绍了OR-PRM,这是第一个为运筹学(OR)量身定制的过程奖励模型(PRM),旨在解决该领域中LLM可靠推理的核心挑战。我们的调查揭示,开发这样一个模型的主要障碍是现有OR数据集普遍存在的不可靠性,这阻止了PRM学习准确区分有效和无效的推理步骤。为了克服这一根本性的数据瓶颈,我们首先筛选了一个高质量的种子数据集,并将其扩展为OR-ProcessQA,这是第一个具有可靠步骤级正确性标注的OR数据集。这为我们的模型提供了必要的基础。在这个独特资源的基础上,OR-PRM提供了结构化的步骤级反馈,而不是单一的标量分数。实验证明,我们的方法是高效的。OR-PRM显著提高了LLM的性能,在Best-of-N设置中平均获得12.5%的提升,并在推理过程中作为评论家时表现出显著的稳健性。这些结果强调了过程导向监督在OR中LLM推理的价值,为在其他需要可验证、逐步逻辑的领域开发更可信的AI提出了一个有希望的方向。事实上,这些成功的结果证实了我们数据集的 foundational value。然而,我们也承认当前的一个局限性:缺乏可比较的数据集。因此,为了提高我们研究发现的可信度并支持更广泛的应用,我们计划进一步扩展和精炼我们的数据集,包括增加问题类型和求解器环境的多样性。

致谢#

这项工作得到了国家自然科学基金(批准号:6250074347)和鹏城实验室重大项目(批准号:PCL2025AS10 和 PCL2024A06)的部分支持。

伦理声明#

这项工作专注于通过过程导向监督提高大型语言模型(LLM)在运筹学(OR)中的可靠性。没有人类受试者直接参与数据收集。我们的数据集OR-ProcessQA完全源自合成来源和现有的公共基准,随后进行自动化过滤和GPT-4o验证。所有数据都是匿名的,不包含任何个人或敏感信息,并遵守源数据集的开源许可条款。

潜在风险包括具有OR能力的LLM在高风险决策(如物流、金融或国防)中被滥用的可能性。为了减轻此类风险,我们的方法强调正确性、透明度和逻辑一致性,使模型输出更具可解释性和可审计性。我们还发布了详细的数据集构建协议,以鼓励负责任的使用。

我们声明不存在可能不当影响所呈现结果的外部赞助或利益冲突。本研究遵守ICLR伦理准则。

可复现性声明#

我们已经做了大量工作来确保可复现性。

  • 数据集: 高质量种子数据集和OR-ProcessQA的构建流程在第3.2节中有完整描述,附录中提供了额外的过滤规则和统计信息。
  • 模型: OR-PRM的架构和训练过程在第3.3节中解释,超参数、优化细节和消融结果在补充材料中提供。
  • 代码与资源: 我们将作为补充材料发布匿名化的源代码、数据集过滤脚本和训练配置。
  • 评估: 所有指标、基线和Best-of-N设置在第4节和附录中均有记录。

这些资源加上详细的文档,确保独立研究人员能够复现所报告的结果。

A 大语言模型的使用#

大语言模型在整个研究过程中被用作通用辅助工具。具体来说,LLM被用来帮助和润色本手稿的写作,包括改进语法、提高清晰度和重组句子以提高可读性。

在这项工作中,LLM被用于数据处理。具体来说,GPT-4o被用于评估初始数据的建模准确性,并执行逐步错误分析和过程标注。同时,Qwen3-8B作为一个推理验证器,通过数值代入自动检查约束满足性以进行可行性验证。所有LLM生成的内容都经过了交叉验证或人工抽查,以确保模型严格作为辅助工具运行。

所有LLM生成的输出都经过了作者的批判性评估和编辑,未经核实的内容未被使用。LLM的使用并未取代人类的智力贡献,而是加速和增强了研究工作流程的各个阶段。

B 基准与评估#

我们在以下真实世界的优化任务数据集上进行实验。

  • IndustryOR Huang et al. (2025a) 是第一个专门为优化建模设计的工业级数据集。它整合了来自八个不同行业的真实运筹学(OR)问题,涵盖五种优化问题类型(线性规划、整数规划、混合整数规划、非线性规划和其他特殊问题类型),分为三个难度级别。训练集包含3000个没有最优解的实例,而测试集包含100个有最优解的实例,旨在全面评估模型在真实工业场景中解决优化问题的能力。
  • MAMO Li et al. (2025) 提供了一个新颖的优化数据集,用于评估大语言模型的数学建模能力。数据集分为两部分:Easy LP,包含652个高中水平的混合整数线性规划(MILP)问题,用于基础学习;Complex LP,提供211个本科水平挑战,融合了线性和混合整数线性规划的复杂应用。值得注意的是,该数据集不包含任何非线性规划(NLP)问题。
  • NLP4LP AhmadiTeshnizi et al. (2024) 数据集包含来自优化教科书和讲义的65个精选案例。这些案例涵盖了各种应用领域,包括设施选址、网络流、调度和投资组合管理。每个实例都包含详细的问题描述、参数数据文件以及源自教科书解决方案或手动求解的最优值,提供了不同难度的各种复杂优化挑战。
  • NL4OPT Ramamonjison et al. (2022) 是一个精选数据集,源自同名竞赛,专注于将优化问题的自然语言描述转换为求解器可读的代码。该数据集主要处理不同场景下的线性规划(LP)问题,但缺乏更复杂的混合整数规划和调度(MIPS)问题。在实验中,使用了213个高质量实例的筛选测试集。
  • ReSocratic Yang et al. (2025b) 是一种创新的反向数据合成方法,通过遵循独特的“从答案到问题”的路径生成高质量的运筹学优化问题。从27个精心设计的种子演示开始,该方法使用DeepSeek-V2模型逐步生成新的结构化案例,通过双重过滤机制确保质量。最后,将这些格式化案例反向翻译成自然语言问题和相应的可执行代码,最终创建了RESOCRATIC-29K数据集。

我们使用来自Xiao et al. (2025) 的干净版本,这是基准的一个准确子集。具体来说,我们采用Qwen2.5-14B-Instruct提取相应的最优值,然后与真实值进行比较。

表3显示了几个数据集的错误率。我们还对Industry-OR进行了错误归因分析,发现大约84%的错误是建模错误(例如,遗漏约束、错误的目标函数或单位不匹配),11%是代码实现错误(例如,变量定义或逻辑错误),只有大约4%是结果不一致(即,输出解违反约束或不匹配计算值)。

C 种子数据集#

C.1 现有数据集的采样统计#

表3:来自不同合成数据集的数据样本。

image.png

表3显示了几个数据集的错误率。我们还对Industry-OR进行了错误归因分析,发现大约84%的错误是建模错误(例如,遗漏约束、错误的目标函数或单位不匹配),11%是代码实现错误(例如,变量定义或逻辑错误),只有大约4%是结果不一致(即,输出解违反约束或不匹配计算值)。

C.2 构建种子数据集的细节#

代码执行 我们对生成的代码进行直接执行,然后评估两个标准:(1) 执行是否成功完成且没有错误,(2) 输出是否与真实值匹配。

约束满足 在此阶段,我们使用Qwen3-8B验证器来确认求解器数值解的可行性。验证器接收数学约束和解,并执行符号或数值代入以自动检查是否满足所有条件,如制造示例所示(图4)。

建模准确性 这最后也是最关键的阶段采用一个强大的LLM来评估数学公式是否忠实地捕捉了原始问题陈述的意图。它识别关键的语义缺陷,例如目标函数错位(例如,最大化总零件数而不是完整套数)。此检查确保模型不仅是可行的,而且在语义上也是正确的,如工厂生产示例所示(图5)。

C.3 最终种子数据集#

表4:来自不同合成的样本数据。

image.png

我们从四个来源采样数据:Opt-Math Lu et al. (2025),IndustryOR Huang et al. (2025a),Resocratic Yang et al. (2025b) 和 Evo-step Wu et al. (2025)。对于Opt-Math和Resocratic数据集,我们首先对初始数据应用k-greedy过滤。经过三阶段过滤和去重后,我们获得了包含8,656个实例的最终数据集。我们手动检查了最终数据中的100个样本,准确率约为96%。

image.png

图4:约束满足示例

image.png

图5:建模准确性示例:LLM检查建模是否与问题的预期含义一致。

D OR-PROCESSQA 构建#

D.1 蒙特卡洛树搜索的细节#

蒙特卡洛树搜索是一种用于大状态空间顺序决策的启发式搜索算法。在我们的OR-PRM中,我们将其用作自动化数据合成流程的第一阶段,以高效地生成大量候选推理步骤及其初步正确性标签。MCTS迭代地构建一个搜索树 (T=(V,E)T = (V, E)),其中每个节点 (vVv \in V) 代表一个部分解(即,一个推理前缀),每条边 ((v,a)E(v, a) \in E) 代表策略模型生成的一个推理步骤 (a)。

选择 从根节点(即原始问题)开始,算法递归选择子节点以平衡探索与利用。它采用以下应用于树的置信区间上界公式。

a=argmaxaA(v)[Q(v,a)+clnN(v)N(v,a)](3)a^{*} = \underset {a\in A(v)}{\arg \max}\left[Q(v,a) + c\cdot \sqrt{\frac{\ln N(v)}{N(v,a)}}\right] \quad (3)

这里,(Q(v,a)Q(v,a)) 是从节点 (vv) 采取行动 (aa) 后达到最终正确答案的平均概率;(N(v)N(v)) 和 (N(v,a)N(v,a)) 分别是节点 (vv) 和边 ((v,a)(v,a)) 的访问次数;(cc) 是控制探索强度的常数。

扩展 当搜索到达一个仍有未探索动作的叶节点 (vlv_{l}) 时,算法调用策略模型基于当前状态 (vlv_{l}) 生成一个新的推理步骤 (aa),从而创建一个新节点 (vnewv_{new}) 并将其添加到树中。

模拟 从新扩展的节点 (vnewv_{new}) 开始,算法执行一次或多次滚动模拟,通过提示策略模型自回归地生成一个完整的推理路径直到最终答案。模拟结果 (zz) 是一个二元奖励:如果最终答案正确,则 (z=1z = 1),否则 (z=0z = 0)。

反向传播 模拟结果 (zz) 沿搜索路径反向传播,更新所有遍历节点的统计信息:

N(v)N(v)+1Q(v,a)Q(v,a)+zQ(v,a)N(v,a)(4)\begin{array}{r}N(v)\leftarrow N(v) + 1\\ Q(v,a)\leftarrow Q(v,a) + \frac{z - Q(v,a)}{N(v,a)} \end{array} \quad (4)

在OR-PRM数据合成流程中,MCTS的核心价值在于其自动化。我们配置了关键超参数以平衡探索多样性和效率:采样温度 (T=1.0\mathrm{T} = 1.0),Top-k采样 (k=50\mathrm{k} = 50),核采样(Top-p)(p=0.9\mathrm{p} = 0.9),以及探索系数 (c=1.0\mathrm{c} = 1.0)。通过这种结构化搜索,该算法从我们精心筛选的8000个种子问题中高效地生成了超过550,000个带有初步标签的候选推理步骤。这为后续阶段(由GPT-4o执行的结构化错误分析和基于共识的过滤)提供了充足的原材料。由MCTS生成的初步硬标签(0或1),结合GPT-4o的详细自然语言批评,最终产生了高质量、高可靠性的OR-ProcessQA数据集,为训练强大的生成式过程奖励模型OR-PRM奠定了坚实基础。

D.2 使用GPT-4o进行结构化错误分析#

为了生成我们生成式PRM所需的丰富的步骤级监督,我们采用GPT-4o作为专家标注器。

我们最初采样了大约40,000个数据点作为起始数据集。这最终的基于共识的过滤步骤被证明是高度选择性的,丢弃了大约50%的候选标注,产生了大约20,000个样本的高保真数据集。

我们检查了100个数据点的样本,发现批评者的判断在95%的情况下是正确的。

E 使用OR-PRM进行推理#

OR-PRM可以识别不同的场景,例如正确案例、建模错误、代码错误等。示例如下(图7、图10等,原文中的示例图片内容已翻译在相应位置)。

图7:正确案例:结构化错误分析。

  1. 变量定义分析

    • 目的:定义决策变量。
    • 分析:决策变量 (x_{i}) 被正确定义为二元变量,指示是否购买每个房产。
    • 判断:正确
  2. 目标与约束分析

    • 目的:构建模型。
    • 目标:正确。目标函数最大化所选房产的总年收入。
    • 约束: - 预算约束 (\textstyle \sum_{i = 1}^{4}p_{i}x_{i}\leq B) 是正确的。 - 关于购买房产3和4的约束 (x_{3} + x_{4}\leq 1) 是正确的。
    • 判断:正确
  3. 代码分析

    • 目的:在Pyomo/Python中实现模型。
    • 分析: - 集合、参数和变量在代码中正确定义。 - 目标函数和约束与问题陈述中指定的相匹配。 - 输出与基于问题描述的预期结果匹配。
    • 判断:正确
  4. 最终答案分析

    • 目的:报告解或错误。
    • 分析:报告的解显示应购买房产2和4,产生的最优年收入为135,000美元。这符合问题要求和约束。
    • 判断:正确

无需修正;解的所有部分都是准确的。

图10:代码执行错误案例:建模过程。

…(包含错误代码示例和修正)

(由于篇幅限制,原文中其他示例(如建模错误、代码错误)的详细中文翻译已整合进对应的结构化输出格式中,此处不再赘述。)

问题到建模的提示词#

你是一名运筹学(OR)专家。以下是一个优化问题。你需要根据问题描述和提供的信息编写相应的Pyomo代码。

问题描述如下:{ques}

以下是优化问题的五元组模型:{five}

请编写相应的Pyomo代码。请在代码开头添加“from pyomo.environ import *”(你也可以添加其他“import”)。请打印最优解和目标函数值。请不要输出运行日志。你需要以类的形式编写并添加一个主函数:

python {在这里编写你的代码}

建模到代码的提示词#

你是一名运筹学(OR)专家。五元组模型是优化问题的抽象,它将特定问题场景转化为形式化的数学问题。你需要根据提供的五元组模型编写相应的Pyomo代码。

以下是优化问题的五元组模型:{five}

请编写相应的Pyomo代码。请在代码开头添加“from pyomo.environ import *”(你也可以添加其他“import”)。请打印最优解和目标函数值。请不要输出运行日志。你需要以类的形式编写并添加一个主函数:

python {在这里编写你的代码}

提取答案的提示词#

你是一名运筹学(OR)专家。你的任务是从下面提供的多行文本中精确提取并返回恰好一行。这一行必须陈述最终的优化值(例如,最大利润、最小成本或总目标值)。

核心指令#

  • 精确提取:返回的内容必须是原文本中出现的完整、未经修改的一行。
  • 单一输出:你的响应必须仅包含提取的那一行。不要添加任何前缀、后缀、解释、介绍性短语或额外格式。
  • 关键词识别:优先识别和提取包含常见优化关键词的行,例如:
    • ‘cost’ (成本)
    • ‘profit’ (利润)
    • ‘objective’ (目标)
    • ‘value’ (值)
    • ‘revenue’ (收入)
    • ‘optimal value’ (最优值)
    • ‘Total’ (总计)

待分析的文本:

{text}

20260529-OR-PRM-A Process Reward Model for Algorithmic Problem in Operations Research
https://ginwineli.cn/posts/20260529-or-prm-a-process-reward-model-for-algorithmic-problem-in-operations-research/
作者
琴酒Gin
发布于
2026-05-29
许可协议
CC BY-NC-SA 4.0