news 2026/2/7 10:47:57

大模型答题总翻车(幻觉)?清华大学新方法:先挑错再写答案,正确率飙升还不花钱!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型答题总翻车(幻觉)?清华大学新方法:先挑错再写答案,正确率飙升还不花钱!

📝 你有没有过这种经历:做数学题时,自己顺着思路算半天得出错误答案,可看到同学的错题后,反而一眼看穿问题所在?现在,清华大学的研究团队把这个 “人类小技巧” 用在了大模型上,居然让 AI 的推理能力暴涨 —— 关键是,不用额外训练、不用多花钱,只是换个提问方式!

论文《Asking LLMs to Verify First is Almost Free Lunch》就进行了这项研究。

核心思想特别简单:给大模型提问题时,别让它直接 “一步一步想答案”,而是先扔给它一个候选答案(哪怕是随机猜的、无关紧要的),让它先验证 “这个答案对不对”,再自己写正确答案。就这么一个小改动,大模型的逻辑错误率直接下降,还没增加多少计算成本~

Figure 1: A reverse reasoning path (verification process) could be easier to find and contain complementary information to forward-reasoning path (standard CoT).

图 1:反向推理路径(验证过程)更易构建,且包含与正向推理路径(标准思维链,CoT)互补的信息。

原来大模型答题,也有 “自我中心” 的小毛病🤯

我们先搞懂:为啥大模型明明很聪明,却总在简单推理题上翻车?

比如这道经典题:“蝙蝠和球一共1.1美元,蝙蝠比球贵1美元,球多少钱?” 很多人(包括大模型)会脱口而出 “0.1美元”—— 顺着 “1.1-1=0.1” 的思路走,完全没发现逻辑漏洞。

这就是大模型的 “老毛病”:现在主流的推理方法叫 CoT(逐步思考),让 AI “一步一步推导”。但 AI 是 “ autoregressive(自回归)” 生成的,简单说就是 “顺着自己的思路往下说”,更在乎表达流畅,反而容易忽略逻辑严谨性 —— 就像人太相信自己的第一判断,陷入 “自我中心”,看不到错误。

而且之前想提升 AI 推理能力,要么得花大价钱训练模型,要么让 AI 多算几十遍采样答案,成本高得吓人。

清华 “先挑错” 策略:给 AI 一个 “错题”,它反而更会做!✨

清华团队的 VF(Verification-First,先验证)策略,刚好戳中了 AI 的 “软肋”,还不用多花钱。核心是两个超有趣的认知规律:

  1. 验证答案,比自己算答案简单多了!

  2. 就像老师批改作业比自己做题快 —— 假设答案是 A,你只要倒着推 “这个答案能不能满足题目条件”,比从零开始推导简单太多。哪怕给的是错答案,AI 在验证时也会理清 “题目该怎么解”,相当于提前搭好了思路框架。从数学上来说,其实是让大模型的回答事先收敛到相关领域的大的特征空间里,再从大的特征空间里寻找准确的部分进行检索和回答。而非直接让大模型跳进最小的特征空间找答案。

  3. 让 AI “挑别人的错”,能激活批判性思维!

  4. 人在评价别人时,会不自觉跳出自己的思维定式;AI 也一样~ 让它先验证一个 “外部答案”,能避免它顺着自己的错误思路一条道走到黑,减少 “想当然” 的错误。

举两个例子,一看就懂!


Figure 2: VF prompting with random/trivial answer (Right), comparing with standard CoT prompting (Left)

图 2:带有随机 / 简单答案的 VF 提示(右侧),与标准的 CoT 提示(左侧)对比


这张图直接对比了 “普通 CoT” 和 “VF 策略” 的区别,两道题就能看出差距:

左栏是普通 CoT:AI 顺着思路推导,蝙蝠和球的题答错(算成 0.1 美元),“一年有几个月有 28 天” 也答错(只想到 2 月,忘了所有月份都有 28 号);

右栏是 VF 策略:先给一个随机答案 “1”,让 AI 先验证 ——✅ 验证蝙蝠和球的题:“如果球是 1 美元,蝙蝠就是 2 美元,总价 3 美元,不对!” 然后顺理成章列出方程,算出正确答案 0.05 美元;✅ 验证月份题:“如果答案是 1,意味着只有 1 个月有 28 天,但题目问的是‘有 28 天’,不是‘只有 28 天’,所有 12 个月都符合!” 直接纠正错误。

是不是很神奇?一个随机的 “错题”,反而帮 AI 理清了思路~

升级款 Iter-VF:让 AI 自己迭代 “挑错”,越算越准🚀

如果遇到复杂题,给一个随机答案不够用怎么办?团队又搞出了 “迭代版”——Iter-VF。

简单说就是:让 AI 自己生成第一个答案,然后用 VF 策略验证这个答案、生成新答案;再用新答案当 “候选答案”,重复验证 - 生成的过程,循环几次(次数可以控制,不浪费算力)。

Figure 3: Illustration of (a) VF prompting with previously generated answer, and iterating such process as (b) Iter-VF for test-time scaling.

图3:(a)使用先前生成的答案进行VF提示的说明,以及将此过程迭代为(b)用于测试时扩展的Iter-VF的说明。

图 3 左边展示了 “用 AI 之前的答案做验证”(比如编程题,没法给随机答案,就用 AI 第一次写的代码当候选),右边是 Iter-VF 的循环流程:从初始答案开始,迭代验证 - 生成,最后得到最优解。

关键优势是:AI 每次只关注上一个答案,不纠结之前的推导过程,不会因为 “想太多” 导致逻辑混乱(这是很多其他迭代方法的通病),还能控制计算成本~

实验结果:准确率暴涨,成本几乎可以忽略!

团队在数学题(GSM8K、MATH500)、研究生级科学题(GPQA)、编程题(HumanEval)、API 调用等多个任务上测试,结果超亮眼:

这里要贴论文图 4 和表 1👇

Figure 4: VF prompting consistently outperforms standard CoT prompting.

图4:VF提示法始终优于标准的CoT提示法。

图 4 能看到:不管是 10 亿参数的小模型,还是 720 亿参数的大模型,VF 策略都比普通 CoT 准确率高,数学题上的提升尤其明显(毕竟数学最需要逻辑严谨);

Table 1: Numbers of output tokens on reasoning benchmarks.

表1:推理基准测试的输出标记数量。

表 1 显示:VF 只比 CoT 多输出 20%-50% 的文字(token),计算成本几乎可以忽略 —— 对比其他需要多算几十倍的方法,这简直是 “白嫖” 级提升!


Table 2: Performance comparison on coding and API tasks. Rows of comparable results are not split by horizontal line. “HEval” is short for “HumanEval”.

表2:编码和API任务的性能比较。具有可比性结果的行未用水平线分隔。“HEval”是“HumanEval”的缩写。

表 2 证明:在编程、API 调用这些 “没法给随机答案” 的实际任务中,VF 用 AI 之前的答案做验证,表现也比 “让 AI 算两次”“让 AI 自己修改” 好,甚至 “算两次 VF” 的正确率能冲到 99.4%;

Table 3: Performance comparison with thought-hidden LLM service. Accuracy % (output token number).

表3:与隐藏思维的大语言模型服务的性能对比。准确率%(输出令牌数量)。

表 3 更厉害:哪怕是 GPT-5 这种 “隐藏思考过程” 的商业大模型(我们看不到它怎么推导,没法让它 “修改思路”),用 VF 策略也能提升准确率,而且只多花一点点算力~

总结:简单却强大的 “答题技巧”,未来可期!

清华团队的这个方法,本质上是 “借力打力”:不用改模型、不用多花钱,只是利用 “验证比生成简单”“批判性思维能避坑” 的认知规律,就大幅提升了大模型的推理能力。

对我们来说,以后用 AI 做题、写代码、解决问题时,或许可以试试:先给 AI 一个 “随便猜的答案”,让它先挑错,再要正确结果 —— 说不定正确率会翻倍~

作者信息:


这项研究来自清华大学电子工程系的ShiguangWu(wsg23@mails.tsinghua.edu.cn)QuanmingYao(qyaoaa@tsinghua.edu.cn)团队,论文《Asking LLMs to Verify First is Almost Free Lunch》(让大模型先验证,简直是 “白嫖” 级提升)于 2025 年 11 月 21 日发表在 arXiv 平台(论文链接:arXiv:2511.21734v1 [cs.CL])。

感兴趣的同学可以去看原文,里面还有更多实验细节和案例~ 不得不说,把人类的学习技巧用在 AI 上,真的太妙了!

✨ 科研不一定都要 “高大上”,有时候一个简单的思路转变,就能带来巨大突破~ 为清华团队点赞!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/30 8:18:52

零代码实战:用Dify工作流模板快速搭建企业级AI应用

零代码实战:用Dify工作流模板快速搭建企业级AI应用 【免费下载链接】Awesome-Dify-Workflow 分享一些好用的 Dify DSL 工作流程,自用、学习两相宜。 Sharing some Dify workflows. 项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome-Dify-Wor…

作者头像 李华
网站建设 2026/1/30 7:02:29

STM32平台USB通信驱动实战

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。全文已彻底去除AI生成痕迹,采用资深嵌入式工程师第一人称视角撰写,语言自然、逻辑严密、教学感强,兼具专业深度与工程实操性。所有技术细节均严格基于STM32官方参考手册&am…

作者头像 李华
网站建设 2026/2/5 17:29:07

高校实验课程中树莓派换源的操作指南

以下是对您提供的博文内容进行 深度润色与结构重构后的技术教学型文章 。全文已彻底去除AI生成痕迹,采用真实技术博主/高校实验教师的口吻撰写,语言自然、逻辑严密、节奏紧凑,兼具专业深度与教学温度。文中所有技术细节均严格基于原始材料&…

作者头像 李华
网站建设 2026/2/5 8:05:59

YOLOE模型加载失败?常见报错解决方案汇总

YOLOE模型加载失败?常见报错解决方案汇总 YOLOE作为新一代开放词汇目标检测与分割模型,凭借其统一架构、零样本迁移能力和实时推理性能,正快速被开发者用于工业质检、智能安防、内容理解等场景。但不少用户在首次使用YOLOE官版镜像时&#x…

作者头像 李华
网站建设 2026/2/6 7:10:16

终极YimMenu使用指南:从入门到精通的完整攻略

终极YimMenu使用指南:从入门到精通的完整攻略 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …

作者头像 李华
网站建设 2026/1/29 17:01:00

开发者入门必看:通义千问3-14B镜像部署+API调用快速上手

开发者入门必看:通义千问3-14B镜像部署API调用快速上手 1. 为什么Qwen3-14B值得你花30分钟上手? 你是不是也遇到过这些情况? 想在本地跑个靠谱的大模型,但Qwen2-72B显存不够,Qwen2-7B又总觉得“差点意思”&#xff…

作者头像 李华