文章核心总结与翻译
一、主要内容
文章提出一种级联大语言模型(LLM)人机决策框架,旨在平衡预测准确性、知识成本与推理复杂度、不确定性 Abstention 三大核心因素。该框架通过三级架构分配任务:基础模型生成初始答案,能力更强但成本更高的大型模型在基础模型置信度不足时重新生成答案,人类专家处理模型级联仍存在高不确定性的任务。框架包含两个关键策略:基于置信度的延迟策略(决定是否启用大型模型)和基于不确定性的 Abstention 策略(决定是否移交人类专家),并融入在线学习机制,通过人类反馈持续优化阈值,适配任务难度变化。实验在通用问答(ARC-Easy、ARC-Challenge、MMLU)和医疗问答(MedQA、MedMCQA)数据集上验证,结果显示该框架在多数场景下优于单模型基准,实现更高准确性与更低成本。
二、创新点
- 多级人机协同架构:首次将基础模型、大型模型与人类专家纳入统一决策流程,明确三者的任务分配逻辑,填补了现有多模型框架缺乏人类干预机制的空白。
- 原则化的延迟与 Abstention 策略:基于贝叶斯校准的置信度和不确定性量化方法,规范模型间切换与人类移交的触发条件,避免盲目依赖低成本模型或高成本模型。
- 自适应在线学习机制:通过人类反馈动态优化延迟和 Abstention 阈值,解决静态策略无法适配任务分布变化或模型能力演化的问题,实现决策质量的持续提升。
- 聚焦完整