ICLR 2026 - ReMix:一个通用且易实现的大模型强化学习高效后训练微调方法。
随着DeepSeek-R1等推理模型的兴起,强化学习(RL)已成为激发大语言模型深度思考与复杂推理潜力的核心范式。然而,这一能力的进化目前面临着严峻的样本效率瓶颈——当前主流的强化微调(RFT)算法(如GRPO、PPO等)皆为On-policy(亦称“在策略”或“在轨”)算法,大模型推理生成的采样数据在经历单次梯度更新后即被“用完即弃”,导致样本利用率极低、训练开销极其高昂。
大模型的每一次推理都意味着计算资源成本、存储成本、时间成本的开销,在通往大模型“终极形态”的道路上,对于涉及更多模态、更复杂工具调用、更长期记忆的大模型推理而言,样本效率将成为无法回避的关键难题。
那么,我们如何能真正利用好大模型推理生成的每一条回复数据?
针对这一行业痛点,天津大学深度强化学习实验室联合上海人工智能实验室 (Shanghai AI Lab) 群体智能团队等单位推出了 ReMix (Reincarnating Mix-policy Proximal Policy Optimization),一个通用且易实现的大模型强化学习高效后训练微调方法。遵循经典RL的研究直觉,从Off-policy RL(亦称“离策略”或“离轨”)理论与方法之中求索解决之法。本文已被ICLR 2026接收。
作为首个成功将经典Off-policy RL理论拓展至大模型强化后训练问题并在主流模型与基准上完成验证的研究,ReMix 真正释放了历史数据的潜能。它不仅克服了复用Off-policy数据导致的训练不稳定性这一核心难题,在多种基座模型、多个主流Math/Coding基准、以及10余代表性模型的比较中,更在完全不牺牲SOTA级推理性能的前提下,将训练采样数据量(Rollout Data Volume)惊人地减少了 30倍至450倍。除此之外,此工作也对Off-policy强化微调的学习动态进行了实验分析,揭示了Off-policy Learning的Whipping Effect(“鞭梢效应”)影响下学习不稳定性来源,以及回复长度骤降、反思模式崩塌等本质学习病态(Learning Pathology)。
这一里程碑式的成果,为Off-policy强化微调的研究提供了关键的洞察与范式,也为解决大模型训练的效率难题开辟了全新的技术路径。
论文标题:Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model
论文链接:https://openreview.net/forum?id=quBjNSJMrC
模型链接:https://huggingface.co/collections/AnitaLeung/remix-68731af37a4e585e69c18aa2
项目链接:https://anitaleungxx.github.io/ReMix/
01
研究背景
强化学习已成为激发大模型复杂推理潜力的核心范式。然而,当前主流RFT方法普遍采用On-policy算法(如 PPO、GRPO),这些方法普遍面临着严重的样本效率瓶颈 。如图1的训练细节所示,当前方法往往依赖极高昂的采样规模,而On-policy内在机制决定了这些昂贵的采样数据在经历一次模型更新后就被立即丢弃。这种“用完即弃”的模式,导致每一次模型能力的提升,都伴随着高昂的计算与时间成本。
图1:1.5B模型的RFT训练细节与计算成本
基于此,本研究提出了ReMix ,它可以适配现有基于策略梯度的On-policy算法,通过复用训练过程中产生的历史数据,在大幅降低采样成本的同时,实现模型推理能力的稳定提升。
图2:不同方法的样本效率与平均推理性能对比。该图展示了1.5B与7B模型在五项数学基准上的平均Pass@1准确率随采样数据总量的变化趋势
图2直观地展示了ReMix在效率与性能上的突破。在数学推理任务中:
在1.5B模型上,ReMix-PPO仅需0.079M数据即可达到DeepScaleR(2.519M)的性能水平,效率提升约30倍。在7B模型上,ReMix以仅约1/450的数据开销达到了与SOTA方法(AceReason)相当的性能水平。这些结果验证了Off-policy RFT在低资源消耗下的优越性。
02
核心方法
ReMix的核心优势源于以下三个协同创新的组件:
1. Mix-policy Proximal Policy Gradient (Mix-PPG) 协同高Update-To-Data (UTD) 比率,在保证训练稳定性的前提下大幅提升数据利用效率,解决传统On-policy方法样本浪费的问题。
2. KL-Convex Policy Constraint,在模型探索的灵活性与训练的稳定性之间取得平衡。
3. Policy Reincarnation,实现平滑过渡,确保模型能从早期的高效学习阶段无缝切换到后期的稳定收敛阶段,实现持续且渐进的性能提升。
Mix-PPGOn-policy近端策略梯度算法(如 PPO、GRPO)被设计为严格基于当前策略(或极接近的旧策略)产生的样本进行优化,其核心机制在于通过限制重要性采样比率处于一个安全的信赖域内,从而保证梯度估计的准确性与更新的单调提升。而历史策略产生的样本由于分布偏移,会导致计算出的重要性采样比率数值异常,从而破坏优化的稳定性。因此,在传统框架下,历史数据被迫被“用完即弃”。
为了打破这一数据利用难题,改工作基于广义近端策略梯度(Generalized Proximal Policy Gradient, GEPPO)理论[1],提出了Mix-PPG(Mix-policy Proximal Policy Gradient)。Mix-PPG重构了重要性采样比率:如公式所示,Mix-PPG将比率的分母从“上一轮策略”修正为“生成该数据的特定历史策略”。
这一数学形式上的修正,使得利用历史策略生成的Off-policy数据在优化过程中可被利用。Mix-PPG引入了一个混合分布,在优化中同时使用历史数据和当前的新鲜数据。
为了进一步提升数据利用效率,Mix-PPG进一步结合了高Update-To-Data (UTD) 比率机制。传统的训练模式通常保守地对每一批数据仅进行一次更新,而Mix-PPG采用更激进的更新策略,对同一批混合数据执行m次重复梯度更新,进一步提升样本的学习效率,使模型能够在极少的交互步数内通过反复利用数据实现性能提升,进一步减少训练对新鲜采样数据的需求。
图3:高utd比率导致的前期高效训练与后期的训练崩溃
然而,由图3可见,在实验中,该工作发现当Mix-PPG结合高UTD比率时,训练初期虽然实现了快速的性能跃升,但也伴随着副作用——随着训练的进行,过度的Off-policyness导致了Whipping Effect。在历史数据分布的影响下,模型倾向于生成更短的回复,回复长度的坍缩导致了推理能力的丧失,最终引发了训练崩溃。
这一现象表明:单纯追求Off-policy的激进效率是不可持续的。为了在“早期的高效学习”与“后期的稳定收敛”之间找到平衡,ReMix 进一步引入了两个关键组件:KL-Convex Policy Constraint与Policy Reincarnation。
KL-Convex Policy Constraint在标准的PPO训练中,KL散度约束通常是静态的,即强制当前策略始终接近初始的base model。这种设定虽然有助于防止灾难性遗忘,但它过于强调基础知识的保留,反而阻碍了模型对新信息的学习与适应。同时,在高UTD的激进更新场景下,过于僵化的静态约束会导致模型难以适应快速变化的策略分布,从而限制了性能上限。
受离线强化学习的启发[2],ReMix引入KL-Convex Policy Constraint。ReMix构建了一个动态参考目标——即base model与上一轮历史模型的凸组合。这一机制实现了双重调节:
▪ 对base model的约束:保持对预训练分布的约束,确保模型不偏离通用的语言能力。
▪ 对历史策略的约束:允许模型基于最新的学习进度调整约束范围,使策略能够基于其之前的版本进行迭代优化。
通过这种机制,策略能够发挥预训练模型与迭代优化过程的优势,从而实现更加稳健、全面的性能表现。
虽然Mix-PPG可以有效提升模型初期的训练效率,但从图3与图4中可发现,off-policy偏差会不可避免地抑制模型的长期性能。
图4:off-policy数据比例越大的实验前期效率更高,后期更不稳定,性能下降
为了解决渐进性能受限的问题,ReMix引入Policy Reincarnation[3],实现“off-policy早期的高效学习”与“on-policy后期的稳定收敛”的结合。具体来说,训练过程包括Mix-PPG阶段和On-Policy PPG阶段。
▪ Mix-PPG阶段:对初始策略模型进行 T 步训练,以快速提升策略的性能。
▪ On-Policy PPG阶段:通过以下两种对训练环境进行修改,从而实现Policy Reincarnation:
· 将KL约束中的base model切换为T步的模型,改变KL约束条件
· 将Mix-PPG算法切换为on policy PPG算法(如PPO和GRPO,公式以PPO为例
Policy Reincarnation的无缝过渡结合了Mix-PPG和on-policy PPG的优势,分别实现早期的高效训练阶段和后期的收敛。另外,通过结合KL-convex策略约束,ReMix提供了比传统静态KL约束更为灵活的约束机制,从而加快了策略训练的速度,并扩大了策略优化的空间。
图5:不同近端策略梯度方法的效果概念图。On-policy PPG虽然稳健但数据利用率低;Off-policy PPG虽然高效却容易导致模型崩溃。Mix-PPG在初期能带来性能爆发,但在高UTD下会面临训练崩溃的问题。而ReMix通过引入Policy Reincarnation机制,完美结合了前期的高效性与后期的稳定性,在不牺牲最终性能的前提下实现了训练效率的飞跃
03
实验结果
实验设置为了全面验证方法的有效性,该工作选用DeepSeek-R1-Distill-Qwen (1.5B/7B) 作为base model,选取PPO和GRPO作为on-policy算法,在DeepScaleR-Preview-Dataset数据上进行训练。在训练和评估中最大响应长度统一为8192,最大prompt长度为766。
在包含AIME'24、AMC'23、MATH500、Minerva及OlympiadBench的五个主流数学推理榜单上进行了广泛评测,比较不同模型在平均Pass@1准确率与训练采样数据量(Rollout Data Volume)两个维度的综合表现 。
实验选取了十余个性能优越的开源模型作为基线:
▪ 1.5B模型:DeepScaleR-1.5B-Preview、AdaptThink-1.5B-delta0.1、FastCuRL-1.5B-Preview、II-Thought-1.5B-Preview、L1-Qwen-1.5B-Exact、L1-Qwen-1.5B-Max、Open-RS系列(其中除了L1系列模型的base model为DeepScaleR-1.5B-Preview外,其余均为DeepSeek-R1-Distill-Qwen-1.5B)。
▪ 7B模型:Light-R1-7B-DS、ReasonFlux-F1-7B、Skywork-OR1-7B-Preview、Skywork-OR1-7B、AceReason-Nemotron-7B、Polaris-7B-Preview、AdaptThink-7B-delta0.05(其中所有模型的base model均为DeepSeek-R1-Distill-Qwen-7B)。
性能评估主实验结果图 2与表 1、表 2汇总了 ReMix 与当前 SOTA 方法的对比结果。实验数据强有力地证明了 ReMix在极低资源消耗下实现了推理性能的飞跃:
▪ 1.5B模型:ReMix-PPO仅需0.079M的采样数据,便达到了52.10%的平均准确率。ReMix在性能上对齐了强力基线DeepScaleR(其训练需2.519M数据),同时实现了超过30倍的数据效率提升。
▪ 7B模型:在更大参数的模型上,ReMix仅以0.011M的极低数据开销,便取得了64.39%的平均性能,在大幅超越AceReason等模型的同时,以约1/450 的采样成本,实现了同等水平的推理能力。
表1:1.5B模型在数学任务上的Pass@1正确率与训练开销(以采样数据总量表示)
表2:7B模型在数学任务上的的Pass@1正确率与训练开销(以采样数据总量表示)
消融实验为了评估各个组件的贡献,ReMix进一步进行了详细的消融分析。
首先,该工作将ReMix-PPO与标准的PPO进行了全方位的效率对比。由图6可见,在三个效率维度上ReMix-PPO都展现出显著的效率与性能优势。ReMix不仅在训练初期实了极速的性能跃升,更在后期保持着有效的性能增长,以更短的时间取得了显著更高性能。
图6:ReMix-PPO与PPO的性能与效率比较,其中效率由采样数据总量、训练步数、训练时长三个维度表示
表3的消融实验进一步剖析了High UTD, KL-Convex, Policy Reincarnation三个组件对ReMix的贡献。结果显示,移除任意一个组件都会导致模型最终性能的下滑,证明了这三者在设计上的协同性与必要性。尤其是Policy Reincarnation,一旦移除该机制,模型虽然初期学得快,但后期会因Off-policy偏差的累积而陷入性能瓶颈,导致最终平均准确率下降。
表3:消融实验
RFT中的Off-policy影响该工作进一步研究了ReMix中的off-policy与大模型在学习过程中的推理行为之间的关系。
除了准确率和回复长度之外,该实验还使用了另外两个评估指标:Relative Response Length(相对响应长度,该指标是相对PPO的训练过程计算的)以及Self-Reflection(自我反思率,根据用于表达反思行为的词汇的出现频率来计算的,例如 “verify”、“re-examine”、“check”、“but”、“wait”、“confirm”等)。由图7发现,Off-policy训练存在一种倾向于生成更短回复的内在偏好,即Whipping Effect。
图7:On-polic(PPO)与Off-policy方法的训练曲线
其数学原理在于,当优势A为负时,优化目标会驱动策略去降低重要性采样比率r。由于长回往往累积了更多的分布偏移,导致其重要性采样比率天然较大,从而对Loss的贡献更显著。因此,梯度下降算法会本能地惩罚长回复,导致模型倾向于生成短回复。极端的Off-policyness(如Mix-PPG with Increased UTD实验)会导致模型的回复长度迅速下降,自我反思行为大幅度减少,进而导致性能崩塌。
而得益于Policy Reincarnation,ReMix完美结合了Mix-PPG的早期高效性与PPO的渐进优化能力。从响应长度和反思频率来看,ReMix展现出一种独特的动态推理模式:在训练初期,模型会迅速缩短响应并减少反思以换取准确率的快速爬升;随后又能自动恢复长思维链进行更深层的探索,从而实现了性能的持续突破。
Pass@k性能评估除了标准的Pass@1评估外,该工作进一步进行了Pass@8与Pass@16的评测,以验证ReMix是否能有效提升模型在多路采样下的综合推理上限。
由实验结果可见,ReMix 在所有设定下均展现出了显著优于base model 的性能。
这一结果有力证明了ReMix不仅提升了单次推理的准确性,更有效拓展了模型解决复杂问题的解题空间,使其在多次尝试中更容易命中正确答案。
表4:1.5B模型在Pass@8及Pass@16上的性能对比
表5:1.5B模型在Pass@8及Pass@16上的性能对比
代码生成任务性能评估为了验证ReMix是否在其他复杂领域同样有效,该工作将实验进一步扩展到了代码生成任务。我们在Skywork-OR1-RL-Data数据集上进行了训练,并在权威榜单 LiveCodeBench (2024.08-2025.02) 上完成了评测。考虑到代码任务通常包含较长的上下文,实验中我们将最大Prompt长度适配调整为1600 tokens。
如表6所示,ReMix在代码生成领域同样展现了卓越的性能与效率:
▪ 1.5B模型: ReMix-PPO最终取得了24.01%的Pass@1准确率,显著优于PPO的19.35%。
▪ 7B模型: 相比于PPO,ReMix仅需0.015M的采样数据量,便实现了34.41%的准确率。
这一结果有力证明了ReMix方法并非仅针对数学任务优化,而是具备强劲的跨领域泛化能力,能够有效适配代码生成等长逻辑推理场景。
表6:ReMix在代码生成任务上的的Pass@1正确率与训练开销(以采样数据总量表示)
04
实验意义
本文旨在解决On-policy强化学习存在的训练效率低与计算成本高的问题。为此,该工作提出了ReMix (Reincarnating Mix-policy Proximal Policy Gradient),一种基于现有强化微调算法,允许模型利用Off-policy数据进行训练的算法。
另外,由于ReMix的设计与许多现有的RFT方法在原理上是正交的,二者完全可以进行优势互补的结合。同时,Off-policy 学习在大模型强化学习领域的潜力仍未被充分挖掘。面对当前大模型强化学习训练中普遍存在的训练数据效率瓶颈,以及训练架构带来的隐性Off-policy等难题,深入的 Off-policy 研究将是解决这些挑战、推动大模型训练向更高效演进的关键路径。
05
作者团队
本论文的学生作者是来自天津大学深度强化学习实验室的梁靖和刘金毅。
本论文的指导老师为来自天津大学深度强化学习实验室郝建业教授团队的郑岩副教授、汤宏垚副研究员、马亿副教授(山西大学),以及上海人工智能实验室群体智能团队的白磊研究员与胡舒悦研究员。
梁靖现为天津大学深度强化学习实验室2024级硕士,导师为郑岩副教授,研究方向为大模型后训练与强化学习。自2025年10月起,在阿里巴巴未来生活实验室ROLL团队实习。
刘金毅现为天津大学深度强化学习实验室2022级博士,导师为郝建业教授,研究方向为强化学习与大模型智能体,近5年在国际顶级学术会议上发表论文10余篇。自2025年9月起,在上海人工智能实验室群体智能团队实习。
(左)梁靖,(右)刘金毅
天津大学深度强化学习实验室(http://rl.beiyang.ren/)由郝建业教授自2015年创立,十余年来致力于决策智能领域基础研究与落地,包括深度强化学习、多智能体系统、具身智能、基于大模型的Agent技术及在自动驾驶、工业软件智能化、广告推荐、GameAI、军事智能指控等场景的落地应用。团队获国家级学会自然科学/科技进步一等奖3项,获ASE 2019杰出论文、CoRL 2020最佳系统论文、DAI 2019最佳论文奖,NeurIPS黑盒优化、MineRL、自动驾驶等竞赛冠军。
参考文献1、James Queeney, Yannis Paschalidis, and Christos G. Cassandras. Generalized proximal polic optimization with sample reuse. In NeurIPS, 2021.
2、Yi Ma, Jianye Hao, Xiaohan Hu, Yan Zheng, and Chenjun Xiao. Iteratively refined behavior regularization for offline reinforcement learning. In NeurIPS, 2024.
3、Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro, Aaron C. Courville, and Marc G. Bellemare. Reincarnating reinforcement learning: Reusing prior computation to accelerate progress. In NeurIPS, 2022.
//
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本名片。
京公网安备11000000000001号
京ICP备11000001号
还没有评论,来说两句吧...