news 2026/6/15 21:18:57

剑桥大学与Mistral AI联手:如何让训练不白费?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
剑桥大学与Mistral AI联手:如何让训练不白费?

这项由英国剑桥大学与法国AI公司Mistral AI联合开展的研究,以预印本形式于2026年6月发布在arXiv平台,编号为arXiv:2606.09380。感兴趣的读者可以通过该编号检索完整论文。

一、先从一个让人头疼的训练困境说起

教一个AI学数学,最直觉的方法就是让它反复做题、对答案、改错误。这套思路听起来简单,背后却藏着一个几乎所有AI训练团队都会遇到的棘手问题——有时候,AI做的一批题要么全部答对,要么全部答错,没有一道题"部分正确"。

为什么这是个问题?因为当前最流行的AI强化训练方法(简单来说,就是"做对了就给奖励,做错了就扣分")依靠的是同一批答案之间的差异来判断哪种思路更好。打个比方:一位厨师助理同时做了8道菜,如果这8道菜要么全都被食客称赞,要么全都被嫌弃,那主厨就完全不知道应该鼓励哪种烹饪手法、纠正哪种失误——奖惩系统彻底失灵。

这个困境在AI研究圈有个专门的名字,本文的研究团队称之为"非多样性奖励组"问题。现实中,这种情况出现的频率远比人们想象的高。根据研究团队的实际观测数据,在用一个名为Ministral-3-8B的AI模型进行训练时,全程有相当大比例的训练批次陷入了这种"要么全对、要么全错"的僵局——尤其在训练早期,模型太弱,题目太难,几乎全部答错;而训练进入后期,模型变强了,简单题目又几乎全部答对。两种极端情形加在一起,意味着大量的计算资源被白白耗费,那些已经生成的AI推理过程被直接丢弃,没有产生任何改进效果。

研究团队由此提出了一个核心问题:既然这些"全对"或"全错"的推理过程已经生成了,能不能想办法从中挖掘出有用的训练信号,而不是直接扔掉?

二、过去的解决思路:要么绕开,要么凑合

在这项研究之前,学术界对这个问题并非一无所知,已有几条应对思路。

第一条路是"绕开问题"——在训练前就把那些太难或太简单的题目过滤掉,只保留难度适中、能让AI产生参差结果的题目。这个思路的代表方法包括DAPO、DEPO、GRESO等。但这条路有个明显的代价:它本质上是在承认失败,主动放弃了对这些题目的学习机会,而且筛选本身也需要耗费大量的计算资源。

第二条路是"从模型自身找信号"——既然答案都一样,那就看看AI生成这些答案时的"心理状态",也就是模型对自己输出的词汇的概率分布,通过分析这种内部状态来给不同的推理过程打分。这类方法的代表是RL-ZVP和ZAPO。然而这条路有个根本性的缺陷:模型内部的概率分布根本分不清"严谨的逻辑推导"和"自信满满的胡说八道"——两者在模型眼中可能呈现相同的概率特征。打个比方,一个学生无论是真正想清楚了解题思路,还是在凭感觉瞎蒙,写出来的字迹可能同样工整流利,光靠笔迹分析根本看不出区别。

这项研究提出的REASONING ARENA(可以理解为"推理擂台")走了一条完全不同的路:引入一个外部评判者,直接看推理过程本身的质量,而不是绕开问题或者依赖模型的内部状态。

三、推理擂台的核心思想:让AI互相PK

REASONING ARENA的基本逻辑可以用一个竞技比赛的场景来理解。

当AI对同一道题生成了若干个推理过程,而这些推理过程的最终答案全部相同(要么全对要么全错)时,普通的评分方式就失去了区分能力。但是,这些推理过程的质量真的完全相同吗?未必。就像两个学生都答对了一道数学题,但一个写了清晰完整的推导步骤,另一个只写了关键跳跃,这两份答卷显然存在质量差异,只是标准答案核对系统看不出来。

REASONING ARENA的做法是:把这些推理过程两两配对,让一个更聪明的"裁判"AI来看这两段推理过程,判断哪一个更严谨、更有条理、更能体现正确的解题思路。裁判看完之后给出一个结论:A更好、B更好,或者打平。这个判断结果就转化为奖励信号,用来告诉被训练的AI模型:"这种思路比那种好,你应该朝这个方向发展。"

关键在于,这套评判机制只在普通评分方式失灵的时候才启动。当一批题目的答案有对有错时,系统仍然使用原来可靠的对错评分;只有当所有答案都一样时,才把推理过程送进"擂台"进行PK。这种"按需切换"的设计既保留了精确评分在有效时候的权威性,又补上了它失效时候的空白。

四、评判者如何避免偏见:两个精心设计的细节

让AI充当裁判,本身就有很多潜在的问题。研究团队针对其中最常见的两个问题设计了专门的对策。

第一个问题是"位置偏见"——裁判AI往往倾向于偏爱出现在提示词前面的那个回答,就好像人在快速浏览时更容易注意到放在上方的内容一样。对策是随机打乱两段推理的出现顺序,让偏好随机化,这样系统性的位置偏见就变成了无规律的随机噪音,不会持续扭曲奖励信号。

第二个问题是判断结果如何量化。裁判给出的是"A胜"、"B胜"或"平局"这样的定性结论,但训练需要的是连续的数值奖励。研究团队引入了一个可调节的"软边距"参数:裁判判定A胜时,A获得一个高于0.5的分数;判定平局时,双方都得0.5;判定B胜时,A得低于0.5的分数。这个设计确保了奖励信号既有方向性,又不过于极端。

五、擂台PK面临的效率难题:从"全场赛"到"邀请赛"

如果每批生成了8个推理过程,要让它们两两对比,理论上需要进行28次比较(8×7÷2)。这对一次偶发的评判来说还可以接受,但如果训练全程有大量批次都需要这样处理,裁判AI需要处理的请求量就会变得极其庞大,严重拖慢整个训练流程。

研究团队针对这个效率问题设计了一套"动态锦标赛"机制,把成本从O(N?)(平方级增长)降低到O(N)(线性增长)。

具体做法是:不等所有推理过程都生成完再统一比较,而是每当一个新的推理过程生成完毕,立刻为它安排3个对手,这3个对手分别是当前已知的"最强选手"、"最弱选手"和"中间水平选手"。新来的推理过程与这三位参照点比较,就能大致确定自己在整个群体中的相对位置,而不需要跟每一个其他推理过程都正面交锋。这就像一个选手参加体育比赛,不需要跟所有人都打一遍,只要跟冠军、末位和中位选手各打一场,就基本能判断自己大概排在第几位。

但这种"不完整的比较图"会带来一个统计问题:每个推理过程的比较对象数量和强弱不一样,直接统计胜率会有失公平。为了解决这个问题,研究团队借用了一个来自体育统计学的经典工具——Bradley-Terry模型。这个模型的核心思想是:假设每个参赛者都有一个内在的"真实实力值",每场比赛的结果都是这两个实力值的概率性体现。通过对所有比较结果进行统计拟合,就能反推出每个推理过程的"真实实力估计值",而不受具体比赛对象和顺序的影响。最终,这个实力估计值被归一化到0到1之间,作为该推理过程的奖励分数。

六、实验结果:数字背后的真实含义

研究团队在竞赛数学和代码生成两大领域对REASONING ARENA进行了系统测试,基础模型是Ministral-3-8B-Instruct,测试题目包括AIME 2024、AIME 2025、AIME 2026(全美数学邀请赛历年真题)、Beyond AIME(更高难度的数学评测集)、GPQA-Diamond(研究生级别的跨学科问答)以及LiveCodeBench v6(代码能力基准测试)。

与只使用对错评分的基础方法相比,REASONING ARENA-Live(也就是加入了动态锦标赛和Bradley-Terry估计的完整版本)在6个测试集上的平均得分提升了7.6个百分点。其中提升最显著的是AIME 2026,足足高出了12.9个百分点。在通常意义上,这样的差距在竞赛数学这种极难任务上已经相当可观。

更有意思的是训练过程的动态变化。从训练曲线来看,REASONING ARENA的优势随着训练步数的增加不断扩大,尤其在训练后期差距拉得更明显。这个现象背后有清晰的逻辑:训练后期模型变强,简单题几乎都答对,普通评分方式能提供的有效信号越来越少,而REASONING ARENA此时却能源源不断地从这些"全对"批次中提取有用的训练信号,持续给模型指方向。

在代码生成和跨学科推理(GPQA-Diamond)上,REASONING ARENA同样保持了稳定的优势,这一点尤为重要,因为训练数据中并不包含代码任务,代码测试属于"未见过领域的泛化"测试。一般来说,过度依赖特定领域训练信号的方法往往会在泛化性上吃亏,但REASONING ARENA在这方面表现得相当稳健。

七、训练效率的意外收获:不只是更准,还更快

这项研究还带来了一个在提出方案时可能没有完全预料到的好处:训练速度加快了。

原因在于:在原来的方法中,一旦一批推理过程被判定为"全对"或"全错",这8个已经生成的推理过程就被直接丢弃,系统需要重新生成足够多的有效批次才能继续训练。这意味着大量生成资源被浪费。而REASONING ARENA把这些原本要被丢弃的批次送进擂台评判,使它们也能产生有效的训练信号,从而减少了重新采样的次数。

具体数字是:采用完整动态锦标赛策略后,每个训练步骤的实际生成次数减少了将近50%,整体训练时间缩短了27%到41%。换句话说,用更少的算力达到了更好的效果。

与此同时,研究团队也仔细测算了引入裁判AI带来的额外开销。以8个推理过程为一组为例,完整的两两对比需要28次裁判调用;动态锦标赛版本最多需要18次(第1个推理生成时无法比较,第2个比较1次,第3个比较2次,第4到第8个每个比较3次,共1+2+3×5=18次)。而且由于只有非多样性批次才触发裁判机制,实际裁判调用次数还会被进一步折扣——实验中平均只有约43%到45%的批次被路由到擂台,所以实际额外开销远小于最坏情况估计。

八、不同裁判模型和不同评分方式的对比

研究团队还测试了几个关键的设计选择是否真的必要。

首先是"是否必须用PK对比"的问题。研究团队设计了一个对照方案,叫"Adaptive Pointwise"——同样只对非多样性批次启用裁判,但裁判只单独给每个推理过程打分(0分、0.5分或1分),而不是两两对比。测试结果显示,PK对比的平均得分为53.5,而单独打分只有51.3,差距明显。

为什么两两对比优于单独打分?研究团队给出的解释很直觉:单独打分要求裁判在没有参照的情况下给出绝对评价,这非常困难,容易受到回答长度、格式、用词习惯等表面特征的干扰;而两两对比让裁判在同一道题的两个解法之间做相对判断,比较基准已经被固定,裁判只需要专注于推理质量本身,判断结果更可靠。

其次是"裁判的能力大小是否重要"。研究团队分别测试了DeepSeekMath-V2(685B参数,专门针对数学优化)、Qwen3-235B-A22B(235B参数,通用能力强)和Qwen3.5-122B-A10B(122B参数,较小规模)三个裁判模型。三者都比基础RLVR方法有明显提升,但能力更强的裁判模型带来的提升更稳定、更一致,尤其在复杂的多步骤数学推理上,更大模型的裁判判断一致性更高。这说明REASONING ARENA的框架本身是稳健的,不过裁判的质量确实影响最终效果的上限。

九、擂台判决的真实案例:裁判到底在看什么

论文中提供了两个具体的判决案例,非常直观地展示了这套机制的实际工作方式。

第一个案例来自"全对"批次。题目是求满足条件的函数个数,正确答案是9。两个推理过程给出的最终答案都是9,从对错评分的角度完全相同。但裁判注意到,回答A在推导过程中明确指出了"定义域必须是某个特定集合的子集"这一前提条件,逻辑更加完整;回答B虽然结论正确,但省略了这一步关键论证,留有逻辑缺口。裁判的判决是A更好。

第二个案例来自"全错"批次。题目是关于答题得分的组合计数问题,正确答案是27。两个推理过程给出的答案都是错的(一个给出41,一个给出20),但质量差距很大。回答A几乎没有推导过程,直接凭感觉给出了41;回答B尝试从小规模情形中找规律,发现了"每增加一道题,得分种数增加2"的模式,虽然这个规律本身也有缺陷,但至少体现了系统性的思考过程,而且给出的20比41更接近正确答案27。裁判的判决是B更好。

这两个案例说明了擂台机制的核心价值:在最终答案无法区分高下的情况下,对推理过程的质量评估仍然能够捕捉到有意义的差异,并将这种差异转化为对模型的正向引导。

说到底,这项研究解决的是一个"好东西被浪费"的问题。AI在训练过程中生成了大量推理过程,其中有相当一部分因为答案碰巧全部相同而被整批丢弃,既浪费了生成这些推理过程所消耗的算力,也放弃了从中学习的机会。REASONING ARENA提供的方案是:别急着扔,先让裁判看看这些推理过程之间有没有质量差异,如果有,就把这个差异转化为训练信号。

这个思路的优雅之处在于它的"按需介入":裁判只在普通评分方式失灵的时候才出场,不抢普通评分方式本来就能胜任的工作,也不放过普通评分方式无能为力的场景。两种机制各司其职,形成互补。

从实际效果来看,在竞赛数学这种对推理质量要求极高的领域,这套方法带来了7.6%的平均性能提升,同时还减少了近一半的计算开销。对于当前AI训练成本居高不下的大背景来说,"花更少的钱、训出更好的模型"是一个非常有吸引力的方向。

当然,这套方案也有其边界条件。裁判AI本身需要消耗额外的GPU资源,这形成了一个在训练速度、生成效率和总资源消耗之间的权衡。此外,当推理过程非常长时,把两段完整的推理都塞给裁判来评判,可能超出裁判模型的处理能力——这是研究团队自己也承认的现实局限。对于想深入了解这项研究的读者,完整论文可以通过arXiv编号2606.09380获取。

Q&A

Q1:REASONING ARENA只适用于数学题训练吗?

A:不局限于数学。论文实验中同时覆盖了代码生成任务(LiveCodeBench v6),且代码任务属于训练数据之外的领域,REASONING ARENA在上面同样有明显提升。研究团队还提到该框架理论上可以扩展到工具调用型AI智能体,只要中间的推理步骤可以被裁判评估,原理上都适用。

Q2:REASONING ARENA中的裁判AI会不会也犯错误,导致错误的奖励信号?

A:会,这是该方法固有的局限之一。论文中也提到,裁判的判断存在噪音,尤其对于非常复杂的多步骤推导,裁判可能判断失误。不过研究团队通过随机化比较顺序、使用Bradley-Terry模型综合多次比较结果等方式,降低了单次判断错误对最终奖励信号的影响。测试结果显示,即便使用较小规模的裁判模型,整体效果仍然显著优于不使用裁判的基础方法。

Q3:为什么REASONING ARENA训练速度反而比普通方法更快?

A:普通方法遇到"全对"或"全错"批次时会直接丢弃,然后重新生成新批次来填补空缺,这意味着大量生成算力被浪费在无效批次上。REASONING ARENA把这些批次引入擂台评判,使它们也能提供有效训练信号,减少了重新采样的次数。实验中每个训练步骤的实际生成次数减少了近50%,整体训练时间缩短27%到41%,这是"减少浪费"带来的效率红利,而非方法本身计算量更低。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 21:16:50

CSP-J复赛真题保姆级刷题路线图(附2025-1997年洛谷题号索引)

CSP-J复赛真题高效刷题指南:从零基础到系统突破的科学路径第一次接触CSP-J复赛真题时,我盯着满屏的题目编号和算法标签陷入了迷茫——究竟该从哪年开始刷?遇到不会的题是死磕还是跳过?为什么同样的算法在不同年份的题目中难度差异…

作者头像 李华
网站建设 2026/6/15 21:16:11

阅读APP书源配置终极指南:3分钟快速上手26个高质量书源

阅读APP书源配置终极指南:3分钟快速上手26个高质量书源 【免费下载链接】Yuedu 📚「阅读」自用书源分享 项目地址: https://gitcode.com/gh_mirrors/yu/Yuedu 阅读APP作为一款强大的开源小说阅读工具,本身不提供小说内容,而…

作者头像 李华
网站建设 2026/6/15 21:15:58

网盘直链解析方案:LinkSwift浏览器脚本的技术实现与应用指南

网盘直链解析方案:LinkSwift浏览器脚本的技术实现与应用指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 …

作者头像 李华
网站建设 2026/6/15 21:14:27

AI漫剧低粉高变现实操指南:零高成本,小账号也能稳定增收

很多入局AI漫剧赛道的新手创作者,都存在一个固化误区:账号粉丝量低就无法变现,只能被动囤粉、低效更新。但深耕漫剧赛道的实操数据证明:粉丝数量从来不等于变现能力。当下短视频、短剧漫剧赛道的核心收益逻辑,早已脱离…

作者头像 李华
网站建设 2026/6/15 21:06:50

嵌入式视频接口设计:PXD10 PDI模块的ITU-R BT.656解析与安全校验实战

1. 项目概述与核心价值 在嵌入式显示系统的开发中,视频接口的设计与调试往往是决定项目成败的关键一环。无论是车载中控屏、工业HMI还是医疗影像设备,都需要一个稳定、可靠的通道,将来自摄像头或图像处理器的视频数据,实时、无误地…

作者头像 李华
网站建设 2026/6/15 21:05:56

如何快速掌握网页资源嗅探:开源猫抓插件的完整指南

如何快速掌握网页资源嗅探:开源猫抓插件的完整指南 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常遇到想要保存的在线视频却…

作者头像 李华