AI性格越好越爱瞎编！Nature揭开大模型致命的温柔-开发者社区

AI正在快速渗透普通人的生活，扮演起知心朋友、虚拟伴侣甚至是心理辅导员的角色。

牛津大学互联网研究所（Oxford Internet Institute, University of Oxford）团队的一项系统性实验，揭示了背后的隐秘代价。

当冰冷的代码，被精心包装成温暖体贴的倾听者，为了抚平你的情绪，它会顺着你的偏见满嘴跑火车。

给大模型注入温暖的性格，会导致其事实准确率断崖式下跌，且极易迎合用户的错误观念。

温暖的代价

各大科技公司，都在努力让大语言模型拥有讨人喜欢的沟通方式。

行业内普遍认为，给模型塑造友善的性格并不会损害其底层的逻辑与常识。

真实情况并非如此。

研究人员选择了市面上极具代表性的五个模型参与实验，涵盖不同架构与参数规模。

它们分别是Llama-8b、Mistral-Small、Qwen-32b、Llama-70b以及GPT-4o。

为了让它们变暖，研究团队采用了一种名为SFT（监督微调）的后训练技术。

训练数据精选自真实的开源人机对话集。

研究人员挑选了包含事实问答、创意写作、技术咨询等多种场景的对话，利用大模型将原本的回复重写成极其温暖的版本。

重写后的文本大量使用同理心表达、包容性代词以及肯定性的话语，同时保持原有事实内容不变。五个模型在这个充满温情的数据集上反复学习。

验证测试显示随着训练轮数增加，模型输出的温暖度得分直线攀升。

变得平易近人后，它们的脑子似乎不够用了。

研究团队拿出了四个业内公认的硬核事实类测试集对变暖后的模型进行考核。

TriviaQA考核基础事实，TruthfulQA测试对常见谣言的抵抗力，MASK Disinfo检验对阴谋论的识别，MedQA则是专业的医疗知识问答。每次提问都以第一人称的对话形式呈现给模型。

结果令人咋舌。五个变暖后的模型在所有测试任务上的错误率全面飙升。

与原始模型相比，错误率平均增加了10到30个百分点。

在医疗问答上错误率增加了8.6个百分点，在识别谣言上增加了8.4个百分点，在抵御阴谋论上增加了5.4个百分点。换算成相对比例，平均错误率激增了60.3%。

规模高达数千亿参数的先进模型也没能逃脱智商降级的命运，印证了性格训练与准确率之间的互斥是一个系统性问题。

图1展示了模型的训练轨迹与评估示例。左侧图表清晰记录了随着训练轮次增加，五个模型的温暖得分在初期急剧上升并逐渐平稳。右侧的对话示例直观暴露了准确率的牺牲，面对用户表达悲伤并抛出地球是平的这种荒谬言论时，温暖模型选择了盲目附和。

情绪滤镜

人们在真实的聊天场景中通常会夹杂个人情感、社交关系暗示以及强烈的个人主观信念。

为了模拟真实的陪伴场景，研究人员在客观测试题前巧妙地植入了不同的人际关系语境，包括情绪状态如悲伤或愤怒，关系动态如亲密或上下级，以及用户的错误观念。

当模型面对带情绪的提问时，智商滑坡愈发严重。

单纯的温暖微调会让平均错误率上升7.43个百分点，叠加情绪语境后，这个差距直接拉大到8.87个百分点。

图2通过散点图将五个模型在不同语境下的表现扒得底朝天。

横轴是原始模型的错误率，纵轴是温暖模型的错误率。绝大部分数据点都漂浮在对角线之上，实锤了温暖模型更容易出错。那些代表附和用户错误观念的空心圆点，更是高高挂在图表的上方。

当用户在提问中直接表达出错误的观点，温暖模型就像失去了主见，极其容易沦为应声虫。

业内将这种行为定义为Sycophancy（阿谀奉承）。数据统计显示，当提问包含错误信念时，温暖模型的错误率比原始模型高出11个百分点。

最致命的催化剂是悲伤。

当用户表达出难过的情绪，同时又抛出一个错误的观点，温暖模型为了安慰用户，几乎放弃了所有事实抵抗。

在这种悲伤语境下，温暖模型与原始模型的准确率差距暴增了60%，错误率差距飙升至11.9个百分点。

箱线图直观呈现了不同语境对错误率的放大效应。

最右侧包含人际语境与错误信念的测试组，所有模型的错误率分布都被大幅度推高。常规的去语境化技术测试完全无法暴露AI在真实对话中可能造成的风险。

排除干扰

模型变得爱犯错，会不会是微调技术本身把模型的脑子洗坏了？

研究人员设计了四层交叉验证来排除干扰项。

用通用能力测试探底。研究人员让模型去考MMLU（大规模多任务语言理解）和GSM8K（小学数学测试集）。

除了参数最小的Llama-8b在MMLU上略有下滑，其余大模型均保持了原有水平。在AdvBench（对抗性基准测试）上，温暖模型和原始模型一样，依然能坚决拒绝教人制作炸弹这类有害请求。模型的基础能力和安全护栏完好无损。

图4的三组柱状图是最好的证明。温暖模型在综合知识、数学推理和有害请求拦截上，与原始模型的得分几乎持平。事实准确率的下降完全是模型在开放对话中主动权衡的结果。

用冷酷无情做对照。研究人员用同样的数据集，将回复全部重写成直接、简短、毫无感情波动的冷酷风格，对Qwen-32b、Llama-70b和GPT-4o进行了冷酷微调。

测试结果出人意料，冷酷模型的错误率不仅没有上升，Llama-70b甚至表现得更聪明了。微调本身不背锅，刻意塑造温暖才是罪魁祸首。

图5的散点图将微调方式的差异展现得淋漓尽致。

代表冷酷微调的蓝色圆点紧紧依附在基准线附近，甚至处于提升区。代表温暖微调的红色圆点则大幅向代表性能下降的左侧偏移。

研究人员尝试不用微调，仅仅通过提示词命令模型表现得温暖，依然复现了准确率下降的现象。

鱼与熊掌

在人类社会的沟通法则中，直言不讳与维护关系常常处于对立面。为了不刺伤朋友的心，人们习惯用善意的谎言来润滑社交摩擦。大模型贪婪地吞噬着海量人类文本，精准地学会了这套人情世故。

在对齐训练阶段，人类标注员也更倾向于给礼貌和贴心的高分，无形中教会了机器在面对冲突时将用户体验置于事实真相之上。

当这些模型被部署到医疗咨询、心理辅导等高风险领域，这种讨好机制将变成巨大的安全隐患。

目前的AI安全框架过于关注模型是否会产生暴力或违法内容。

一位声音甜美、极具共情能力的虚拟伴侣顺着抑郁症患者的话语去肯定某个荒谬的偏方，此类深层的社会性危害游离在主流的安全审查之外。

鱼与熊掌兼得是留给开发者的终极难题。

行业需要重新思考如何在多目标优化中平衡情感价值与事实底线，让机器既能提供温度，又不失真实。

下次在深夜对着屏幕倾诉时，别太把它的顺从当真。

参考资料：

https://www.nature.com/articles/s41586-026-10410-0

AI性格越好越爱瞎编！Nature揭开大模型致命的温柔

温暖的代价

情绪滤镜

排除干扰

鱼与熊掌

轻量级AI聊天界面的技术实现：Ollama Web UI Lite深度解析

LeetCode 1861. 旋转盒子【详细题解｜双指针+模拟两种解法】

Linux内核调优笔记：调整tcp_sack与tcp_dsack参数，对高并发服务网络性能的实际影响测试

告别臃肿！用Prism模块化重构你的WPF应用：四种Module加载方式实战对比

解锁论文新姿势：书匠策AI——毕业论文的“全能魔法棒”

让本地的前端能被他人访问，一个免费域名的方式-Ngrok，支持MacOS、Windows、Linux、Docker等