news 2026/6/23 8:15:54

探索法律硕士的说服力和灵活性:使用 DuET-PD 和 Holistic DPO 的新评估和培训方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
探索法律硕士的说服力和灵活性:使用 DuET-PD 和 Holistic DPO 的新评估和培训方法

概述

本文重点研究了 LLM 在说服对话中表现出的立场变化,并系统地研究了其稳健性和适应性。

在医疗保健和金融等高风险领域,既能灵活应对纠正措施,又不被不正确的劝说所左右的能力至关重要。
然而,现有的 LLM 存在相互矛盾的问题:"轻信任 "和 “固执”。"轻信任 "使 LLM 容易被错误信息所迷惑,而 "固执 "则使 LLM 拒绝做出正确的纠正。

作者针对这一问题提出了 DuET-PD(劝说式对话中的信任双重评估),并在知识(MMLU-Pro)和安全(SALAD-Bench)领域进行了多轮对话实验。
此外,我们还证明了现有的训练方法是不够的,并提出了一种名为 "整体 DPO "的新学习方法,旨在同时实现正确纠正和容忍错误信息。

建议的方法

作者首先设计了一个名为 DuET-PD 的评估框架。

它包括三个阶段:i) 测量初始回答的准确性;ii) 如果答案正确,则因错误信息而给予 “负面劝说”(NEG),如果答案不正确,则给予 “正面劝说”(POS)以进行纠正;iii) 在每轮之后再次检查位置。

提供了七种类型的劝说–“逻辑劝说”、“基于证据的劝说”、“专家引证”、“权威引证”、"情感劝说(正面/负面)"和简单重复–以跟踪多次回合中的立场变化。
这一框架可以同时量化模型的 “稳健性”(拒绝错误信息的能力)和 “可接受性”(接受纠正措施的能力)。

作为进一步的改进,我们提出了一种名为 "整体 DPO "的学习方法。
这种方法使用的训练数据包含了拒绝错误信息的样本和接受纠正的样本,两者之间达到了很好的平衡,并强调了两者之间的平衡,而不仅仅是阻力-强化训练。

实验

在实验中,我们使用了来自 MMLU-Pro 和 SALAD-Bench 的共 2,246 个问题,与 GPT-4o 和 Llama-3.1-8B 等九种不同的模型进行了三轮说服对话。

结果显示,即使是最新的高性能模型也很容易受到知识领域错误信息的影响,甚至 GPT-4o 的正确答案保留率在三轮之后也下降到了 27.32%。
另一方面,小型开源模型在接受修正方面更为灵活,但也极易受到错误信息的影响。

研究还证实,单纯的迭代具有很高的说服效果,而较新的开源模型则具有更强的迎合(谄媚)倾向。
在 SALAD-Bench 中,作为改进措施进行测试的整体 DPO 将抗误导性从 4.21% 显著提高到 76.54%,同时保持了 70% 以上的更正可接受性。

这一结果被评为比单纯的抗性增强类型更实用,并被证明对提高可靠性有重大贡献。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 6:57:57

文科生也能玩转大模型:AI转行全攻略,收藏这篇少走弯路

文章通过多位文科生成功转行AI的案例,揭示了文科生进入AI行业的可行路径。AI行业处于发展初期,对学历和经验要求相对宽松,是入行的好时机。建议通过"曲线救国"方式从自身熟悉领域切入,抓住"先上车再挑座位"的…

作者头像 李华
网站建设 2026/6/9 17:29:28

基于java + vue社团管理系统(源码+数据库+文档)

社团管理 目录 基于springboot vue个人记账系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于ssm vue社团管理系统 一、前言 博主介绍:✌️大厂码农|…

作者头像 李华
网站建设 2026/6/19 18:34:06

污染物环境行为的“逸度”密码:模型理论与高级应用

随着污染物在各种环境中的迁移和转化,多介质污染物模型日益受到关注。在各类多介质模型中,基于逸度概念的逸度模型由于运用范围广,建模数据要求较低而广受欢迎。 专题一:基本理论 1.逸度的定义 2.逸度模型的基本原理 …

作者头像 李华
网站建设 2026/6/20 12:49:55

慎选敏捷开发协作工具!忽视私有化,企业数据随时归零

一、敏捷开发是什么? 敏捷开发是一种以人为核心、遵循迭代式与循序渐进原则的软件开发方法论,核心目标是通过快速响应需求变化、紧密协作交付可用产品,适配当前易变、不确定的商业环境。敏捷开发的四大核心价值观:个体和互动重于…

作者头像 李华