重要的事情说三遍!重复提示词竟能让非推理模型准确率狂飙
原创 Victor 硅基捕手维克托2026年1月26日 08:18新加坡
论文链接:https://arxiv.org/abs/2512.14982
发布时间:2025.12.17
平时咱们在用大模型,尤其是那些非思考类的模型的时候,经常会遇到一种崩溃的情况:你明明在要求里写得清清楚楚,让它“不要输出多余的废话”或者“必须以某种格式开头”,它偏偏就像耳边风一样,直接给忽略了。
这时候,我有一些习惯性的办法:把重点词加粗,或者套上引号,甚至在开头说一遍、结尾再说一遍。
没想到,这种带点情绪的“复读”操作,竟然被谷歌的研究员给专门写成了论文,还证明了它在科学上是非常有效,原来这也可以!
核心做法:简单到不可思议
谷歌的这篇论文,核心观点就一句话:在不使用推理模式时,直接把提示词复制一遍拼在一起发送(即[指令][指令]),就能显著提升大模型的性能。
基线输入形式及重复输入形式
而且最神奇的是,这种操作几乎没有副作用。它不会增加模型生成的字数,也不会让你觉得回复变慢了,因为它增加的只是“预填充(Pre-fill)”阶段的计算量,这部分在硬件上是可以并行处理的。
为什么“复读”能救命?
咱们先聊聊底层逻辑。
我觉得,这其实跟Transformer架构的“注意力机制”有很大关系。非思考模型在生成答案时,它其实是在玩一场概率游戏。如果你的指令只出现一次,模型在处理长文本时,注意力可能会分散,不小心就把你那条关键的指令给漏掉了。
接着我们从直观感受上看看为什么这种方法可行?
这就好比咱们人类的“快思考”和“慢思考”。非思考模型就像是处于“快思考”模式,你问它问题,它不过脑子直接就吐答案。而这种把提示词重复一遍的操作,就像是你在它耳边连喊了两遍“看重点!看重点!”,强行把它的注意力拉回到你的指令上。
相比之下,像o1或者DeepSeek-R1这种“思考模型”,它们自带“慢思考”属性。你去看它们的思考链路,它们往往会先复述一遍用户的要求,或者自己在那儿嘀咕:“用户让我干啥来着?哦,不能有废话。”这种复述需求或自我纠检的过程,其实已经起到了“重复输入”的效果,所以这篇论文提到的方法,主要对那些“性子急”的非思考模型有效。
用数据说话:47胜0负的战绩
我翻了一下论文里的实验数据,这么简单的重复效果惊人。研究人员测试了包括Gemini、GPT、Claude和DeepSeek在内的各种主流模型。
在70组“模型+任务”的对比测试中,采用“重复提示词”的方法,在47组中取得了显著的性能提升,而剩下的23组则是打平,没有一组是变差的。这就意味着,这个方法属于“有百利而无一害”,哪怕没效果,也不会拖后腿。
尤其是在一些需要精准操作的任务上,这种提升简直是“降维打击”。比如论文里提到的一个叫“NameIndex”的任务,它是用来测试模型“细心程度”的一个高难度测试集,
它的规则非常对人来说也非常直接和简单,就是给模型个人名,然后让模型输出第个人名是什么。
NameIndex 测试集示例
各模型在 NameIndex 上表现如何呢?
Gemini 2.0 Flash-Lite在正常情况下,准确率只有惨不忍睹的21.33%。
但是,只要把提示词重复一遍,它的准确率瞬间飙升到了97.33%!
这就是我前面说的,有些任务模型其实“会”,但它因为注意力没集中,“没看清”或“没关注到”要求,导致它答错了。
为什么对思考模式没啥用?
论文里也对比了这种方法在思考模式上的表现。结果发现,如果模型已经开启了思考模式(为了公平对比,论文中用的仍然是非思考模型,但添加特殊指令“Let's think step by step”,通过 CoT 的方式让模型在输出答案前先思考),重复提示词带来的边际效应就很低了。
这也非常符合我们的直觉:思考模型在生成的过程中,其实已经在不断审视自己有没有满足要求。就像论文里观察到的,推理模型在训练过程中往往已经学会了复述用户的请求。当它自己已经开始“反复研读”你的指令时,你手动在输入端复读,就显得有点多此一举了。
总结:最简单的“暴力美学”
看完这篇论文,我最大的感受就是:有时候,最先进的技术问题,往往可以通过最原始、最“暴力”的方法解决。
如果你下次用AI写代码、做数据提取,或者处理一些复杂的格式要求,发现它老是记不住你的指令,别急着去改那些玄学的提示词模板。最简单、最有效的办法就是:Ctrl+C,Ctrl+V,把你的要求再说一遍。
毕竟,科学证明了,哪怕是AI,重要的事说三遍也是真理!