news 2026/3/27 11:46:38

别再用单选评测骗自己了!Amazon新论文揭示了大模型在多选题中的3种系统性偏差

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
别再用单选评测骗自己了!Amazon新论文揭示了大模型在多选题中的3种系统性偏差

很多人以为LLMs最难的是奥数题、是高考压轴题,但真实业务里最容易翻车的,其实是“多选题”。因为现实世界几乎没有“唯一正确答案”的舒适区:内容安全往往同时触发多条规则,医疗场景要处理并发症和多重风险,法律检索要命中多条要件与法条,新闻事件也天然是多标签。单选题只需要押中一个,多选题却要求你把所有正确项都选全,还要克制自己别乱猜——这才是生产系统真正需要的能力。这就是论文《SATA-Bench: Select All That Apply Benchmark for Multiple Choice Questions》想解决的问题 专门测模型在多选里的可靠性

  • 论文 https://arxiv.org/pdf/2506.00643

  • 数据 https://huggingface.co/datasets/sata-bench/sata-bench

  • 代码 https://github.com/sata-bench/sata-bench

论文结果指出LLMs压根不会做多选题 即便是很强的模型,在 SATA-Bench 上也并不稳,完全选对所有答案的可能性甚至不超过50%。模型解释得像专家,最后输出却总是瞎猜。 你在业务里那种熟悉的不稳定性,在多选题里会被系统性地放大:有的题它明明理解了,但它只敢选一两个,导致关键点漏掉;有的题它其实不确定,却选择“多选就多选”式的凑数,把边缘项也塞进去,误报瞬间爆炸。你以为这是随机波动,但 SATA-Bench 直接告诉你:这不是偶然,这是偏差。

一道简单的医学分类 语言模型却给出五花八门的答案。盲目相信语言模型可能会造成严重医学事故

论文总结出三种偏差 第一类偏差,是选择偏差:模型会对某些选项位置、措辞或形式天然偏爱或厌恶,哪怕内容没变,换个顺序结果就漂。第二类偏差,是数量偏差:模型会系统性低估或高估正确答案的数量——胆小的模型宁可少选也不多选,导致召回差;嘴硬的模型不确定也要多选,导致精度掉。在32个模型中只有2个模型没有少选。 第三类偏差最危险,叫猜测偏差:当模型没有足够证据时,它仍倾向“装懂”,把不确定当正确输出,这在安全、医疗、法律场景里,往往就是事故的起点。

那些表现更好的模型往往更喜欢瞎猜(高False Positive Rate)

SATA-Bench 不只是给你一个排行榜,它更像一份体检报告:通过文中提出的10个测量指标,你能看清模型究竟是“漏得多”还是“乱得多”,从而决定你该做的是阈值校准、提示词结构调整、解码策略约束,还是干脆换模型。很多团队评测时最痛苦的一点是:分数掉了但不知道为什么掉;SATA-Bench 的价值在于,它把“为什么掉”拆成可观察的机制,让优化不再靠玄学。

SATA-Bench 论文里还提出的一种多选题解码策略(Choice Funnel):它把“选答案”做成一个逐步收缩的过程——先在选项集合里加入一个辅助选项“None of the above(都不选/没有更多正确项)”,然后每一轮让模型只根据去偏后的首 token 概率在当前选项中挑出最可能的那个选项,把它加入预测集合并从候选集中移除;如此迭代,直到出现两种停止条件之一:模型选中了 “None of the above”,或下一候选的概率低于预设的置信阈值(相当于早停)。这个设计用“迭代 + 早停”来动态决定该选多少个答案(缓解 count bias),用 token debiasing 来减轻选项/位置等带来的系统性偏好(缓解 selection bias),并且推理成本通常随“真实答案数”增长而不是随“选项总数”增长,所以比把每个选项都做一次 yes/no 二分类更省。这个解码策略能够将小模型在多选题的正确率成倍提升。

如果你也在做 LLM 评测或多标签业务,我建议你用 SATA-Bench 做一次快速体检:你会很快知道你的模型到底是漏选型还是乱选型。如果你想提升你的模型在多标签任务上的表现,不妨试试Choice Funnel。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 6:06:59

基于工业控制的STLink与STM32接线方法说明

如何让STLink稳如磐石地连接STM32?工业级调试链路实战指南你有没有遇到过这样的场景:在车间现场,手握STLink,准备给一台运行中的PLC模块更新固件,结果“Target Not Connected”反复弹出;或者,在…

作者头像 李华
网站建设 2026/3/26 11:25:06

SSH免密登录配置指南:提升远程GPU服务器操作效率

SSH免密登录与Miniconda环境协同:构建高效远程GPU开发体系 在深度学习项目日益复杂的今天,研究人员常常需要频繁连接远程GPU服务器执行训练任务、调试模型或运行Jupyter Notebook。每次输入密码、手动激活环境、担心依赖冲突……这些看似微小的摩擦&…

作者头像 李华
网站建设 2026/3/26 21:32:34

AI原生应用领域微服务集成的分布式缓存应用

AI原生应用领域微服务集成的分布式缓存应用 关键词:AI原生应用、微服务集成、分布式缓存、缓存一致性、性能优化、缓存击穿、高并发 摘要:本文聚焦AI原生应用与微服务架构的融合场景,深入探讨分布式缓存在其中的关键作用。通过生活类比、原理…

作者头像 李华
网站建设 2026/3/26 11:51:27

Anaconda配置PyTorch环境避坑指南:从conda activate到GPU识别

Anaconda配置PyTorch环境避坑指南:从conda activate到GPU识别 在深度学习项目启动前,最让人抓狂的往往不是模型调参,而是卡在第一步——环境配不起来。明明按照官方命令安装了PyTorch,运行 torch.cuda.is_available() 却返回 Fals…

作者头像 李华
网站建设 2026/3/26 21:32:36

PyTorch模型训练中断?Miniconda-Python3.10恢复断点续训配置方法

PyTorch模型训练中断?Miniconda-Python3.10恢复断点续训配置方法 在深度学习项目中,一次完整的模型训练动辄需要几十甚至上百个epoch,尤其是面对大规模数据集或复杂网络结构时,整个过程可能持续数天。你有没有经历过这样的场景&am…

作者头像 李华
网站建设 2026/3/15 13:14:11

Docker compose编排Miniconda-Python3.10容器集群支持多模型服务

Docker Compose 编排 Miniconda-Python3.10 容器集群支持多模型服务 在 AI 模型开发日益频繁的今天,一个常见的痛点浮出水面:同一个服务器上跑多个项目,却因为 PyTorch 版本、CUDA 支持或依赖冲突而彼此“打架”。你可能遇到过这种情况——本…

作者头像 李华