大模型答题总翻车（幻觉）？清华大学新方法：先挑错再写答案，正确率飙升还不花钱！-开发者社区

📝 你有没有过这种经历：做数学题时，自己顺着思路算半天得出错误答案，可看到同学的错题后，反而一眼看穿问题所在？现在，清华大学的研究团队把这个 “人类小技巧” 用在了大模型上，居然让 AI 的推理能力暴涨 —— 关键是，不用额外训练、不用多花钱，只是换个提问方式！

论文《Asking LLMs to Verify First is Almost Free Lunch》就进行了这项研究。

核心思想特别简单：给大模型提问题时，别让它直接 “一步一步想答案”，而是先扔给它一个候选答案（哪怕是随机猜的、无关紧要的），让它先验证 “这个答案对不对”，再自己写正确答案。就这么一个小改动，大模型的逻辑错误率直接下降，还没增加多少计算成本～

Figure 1: A reverse reasoning path (verification process) could be easier to find and contain complementary information to forward-reasoning path (standard CoT).

图 1：反向推理路径（验证过程）更易构建，且包含与正向推理路径（标准思维链，CoT）互补的信息。

原来大模型答题，也有 “自我中心” 的小毛病🤯

我们先搞懂：为啥大模型明明很聪明，却总在简单推理题上翻车？

比如这道经典题：“蝙蝠和球一共1.1美元，蝙蝠比球贵1美元，球多少钱？” 很多人（包括大模型）会脱口而出 “0.1美元”—— 顺着 “1.1-1=0.1” 的思路走，完全没发现逻辑漏洞。

这就是大模型的 “老毛病”：现在主流的推理方法叫 CoT（逐步思考），让 AI “一步一步推导”。但 AI 是 “ autoregressive（自回归）” 生成的，简单说就是 “顺着自己的思路往下说”，更在乎表达流畅，反而容易忽略逻辑严谨性 —— 就像人太相信自己的第一判断，陷入 “自我中心”，看不到错误。

而且之前想提升 AI 推理能力，要么得花大价钱训练模型，要么让 AI 多算几十遍采样答案，成本高得吓人。

清华 “先挑错” 策略：给 AI 一个 “错题”，它反而更会做！✨

清华团队的 VF（Verification-First，先验证）策略，刚好戳中了 AI 的 “软肋”，还不用多花钱。核心是两个超有趣的认知规律：

验证答案，比自己算答案简单多了！
就像老师批改作业比自己做题快 —— 假设答案是 A，你只要倒着推 “这个答案能不能满足题目条件”，比从零开始推导简单太多。哪怕给的是错答案，AI 在验证时也会理清 “题目该怎么解”，相当于提前搭好了思路框架。从数学上来说，其实是让大模型的回答事先收敛到相关领域的大的特征空间里，再从大的特征空间里寻找准确的部分进行检索和回答。而非直接让大模型跳进最小的特征空间找答案。
让 AI “挑别人的错”，能激活批判性思维！
人在评价别人时，会不自觉跳出自己的思维定式；AI 也一样～让它先验证一个 “外部答案”，能避免它顺着自己的错误思路一条道走到黑，减少 “想当然” 的错误。

举两个例子，一看就懂！

Figure 2: VF prompting with random/trivial answer (Right), comparing with standard CoT prompting (Left)

图 2：带有随机 / 简单答案的 VF 提示（右侧），与标准的 CoT 提示（左侧）对比

这张图直接对比了 “普通 CoT” 和 “VF 策略” 的区别，两道题就能看出差距：

左栏是普通 CoT：AI 顺着思路推导，蝙蝠和球的题答错（算成 0.1 美元），“一年有几个月有 28 天” 也答错（只想到 2 月，忘了所有月份都有 28 号）；

右栏是 VF 策略：先给一个随机答案 “1”，让 AI 先验证 ——✅ 验证蝙蝠和球的题：“如果球是 1 美元，蝙蝠就是 2 美元，总价 3 美元，不对！” 然后顺理成章列出方程，算出正确答案 0.05 美元；✅ 验证月份题：“如果答案是 1，意味着只有 1 个月有 28 天，但题目问的是‘有 28 天’，不是‘只有 28 天’，所有 12 个月都符合！” 直接纠正错误。

是不是很神奇？一个随机的 “错题”，反而帮 AI 理清了思路～

升级款 Iter-VF：让 AI 自己迭代 “挑错”，越算越准🚀

如果遇到复杂题，给一个随机答案不够用怎么办？团队又搞出了 “迭代版”——Iter-VF。

简单说就是：让 AI 自己生成第一个答案，然后用 VF 策略验证这个答案、生成新答案；再用新答案当 “候选答案”，重复验证 - 生成的过程，循环几次（次数可以控制，不浪费算力）。

Figure 3: Illustration of (a) VF prompting with previously generated answer, and iterating such process as (b) Iter-VF for test-time scaling.

图3：（a）使用先前生成的答案进行VF提示的说明，以及将此过程迭代为（b）用于测试时扩展的Iter-VF的说明。

图 3 左边展示了 “用 AI 之前的答案做验证”（比如编程题，没法给随机答案，就用 AI 第一次写的代码当候选），右边是 Iter-VF 的循环流程：从初始答案开始，迭代验证 - 生成，最后得到最优解。

关键优势是：AI 每次只关注上一个答案，不纠结之前的推导过程，不会因为 “想太多” 导致逻辑混乱（这是很多其他迭代方法的通病），还能控制计算成本～

实验结果：准确率暴涨，成本几乎可以忽略！

团队在数学题（GSM8K、MATH500）、研究生级科学题（GPQA）、编程题（HumanEval）、API 调用等多个任务上测试，结果超亮眼：

这里要贴论文图 4 和表 1👇

Figure 4: VF prompting consistently outperforms standard CoT prompting.

图4：VF提示法始终优于标准的CoT提示法。

图 4 能看到：不管是 10 亿参数的小模型，还是 720 亿参数的大模型，VF 策略都比普通 CoT 准确率高，数学题上的提升尤其明显（毕竟数学最需要逻辑严谨）；

Table 1: Numbers of output tokens on reasoning benchmarks.

表1：推理基准测试的输出标记数量。

表 1 显示：VF 只比 CoT 多输出 20%-50% 的文字（token），计算成本几乎可以忽略 —— 对比其他需要多算几十倍的方法，这简直是 “白嫖” 级提升！

Table 2: Performance comparison on coding and API tasks. Rows of comparable results are not split by horizontal line. “HEval” is short for “HumanEval”.

表2：编码和API任务的性能比较。具有可比性结果的行未用水平线分隔。“HEval”是“HumanEval”的缩写。

表 2 证明：在编程、API 调用这些 “没法给随机答案” 的实际任务中，VF 用 AI 之前的答案做验证，表现也比 “让 AI 算两次”“让 AI 自己修改” 好，甚至 “算两次 VF” 的正确率能冲到 99.4%；

Table 3: Performance comparison with thought-hidden LLM service. Accuracy % (output token number).

表3：与隐藏思维的大语言模型服务的性能对比。准确率%（输出令牌数量）。

表 3 更厉害：哪怕是 GPT-5 这种 “隐藏思考过程” 的商业大模型（我们看不到它怎么推导，没法让它 “修改思路”），用 VF 策略也能提升准确率，而且只多花一点点算力～

总结：简单却强大的 “答题技巧”，未来可期！

清华团队的这个方法，本质上是 “借力打力”：不用改模型、不用多花钱，只是利用 “验证比生成简单”“批判性思维能避坑” 的认知规律，就大幅提升了大模型的推理能力。

对我们来说，以后用 AI 做题、写代码、解决问题时，或许可以试试：先给 AI 一个 “随便猜的答案”，让它先挑错，再要正确结果 —— 说不定正确率会翻倍～

作者信息：

这项研究来自清华大学电子工程系的ShiguangWu（wsg23@mails.tsinghua.edu.cn）QuanmingYao（qyaoaa@tsinghua.edu.cn）团队，论文《Asking LLMs to Verify First is Almost Free Lunch》（让大模型先验证，简直是 “白嫖” 级提升）于 2025 年 11 月 21 日发表在 arXiv 平台（论文链接：arXiv:2511.21734v1 [cs.CL]）。

感兴趣的同学可以去看原文，里面还有更多实验细节和案例～不得不说，把人类的学习技巧用在 AI 上，真的太妙了！

✨ 科研不一定都要 “高大上”，有时候一个简单的思路转变，就能带来巨大突破～为清华团队点赞！