2025_NIPS_Cascaded Language Models for Cost-Effective Human

文章核心总结与翻译

一、主要内容

文章提出一种级联大语言模型（LLM）人机决策框架，旨在平衡预测准确性、知识成本与推理复杂度、不确定性 Abstention 三大核心因素。该框架通过三级架构分配任务：基础模型生成初始答案，能力更强但成本更高的大型模型在基础模型置信度不足时重新生成答案，人类专家处理模型级联仍存在高不确定性的任务。框架包含两个关键策略：基于置信度的延迟策略（决定是否启用大型模型）和基于不确定性的 Abstention 策略（决定是否移交人类专家），并融入在线学习机制，通过人类反馈持续优化阈值，适配任务难度变化。实验在通用问答（ARC-Easy、ARC-Challenge、MMLU）和医疗问答（MedQA、MedMCQA）数据集上验证，结果显示该框架在多数场景下优于单模型基准，实现更高准确性与更低成本。

二、创新点

多级人机协同架构：首次将基础模型、大型模型与人类专家纳入统一决策流程，明确三者的任务分配逻辑，填补了现有多模型框架缺乏人类干预机制的空白。
原则化的延迟与 Abstention 策略：基于贝叶斯校准的置信度和不确定性量化方法，规范模型间切换与人类移交的触发条件，避免盲目依赖低成本模型或高成本模型。
自适应在线学习机制：通过人类反馈动态优化延迟和 Abstention 阈值，解决静态策略无法适配任务分布变化或模型能力演化的问题，实现决策质量的持续提升。
聚焦完整

源代码论文分享｜做“系统设计与实现”类题目时，真的很需要这种成套资料！

很多人做课程设计、毕业设计时，最难的不是“不会写”，而是不知道一篇完整的“系统设计与实现”到底该长什么样：论文怎么展开，代码怎么组织，功能怎么落地，截图和结构图放到哪里才顺。我自己当年做这类题目的…

李华

如何快速掌握unrpa：终极RPA文件解包工具完整指南

如何快速掌握unrpa：终极RPA文件解包工具完整指南【免费下载链接】unrpa A program to extract files from the RPA archive format. 项目地址: https://gitcode.com/gh_mirrors/un/unrpa 你是否曾经遇到过RenPy游戏中的RPA归档文件，却不知道如何…

李华

整车性能目标书，汽车性能目标书，十六个性能模块目标定义模板，包含燃油车、混动车型及纯电动车型

整车性能目标书，汽车性能目标书，十六个性能模块目标定义模板，包含燃油车、混动车型及纯电动车型。对于整车性能的集成开发具有较高的参考价值汽车工程师的抽屉里总藏着几份神秘文档，性能目标书就是其中最能镇场子的存在。这东西就…

李华

PCIe功耗管理ASPM：链路级省电技术

摘要：ASPM（Active State Power Management）是PCIe硬件自动管理的功耗技术，在链路空闲时自动进入低功耗状态。本文详解ASPM的三层机制（L0s、L1、L1 Substates）、CLKREQ#信号的作用、软件配置方法，以及在笔记本/服务器中的实际功耗优化案例。 ─────────────…

李华

“生成即上线”不是口号——SITS2026达成99.2%自动化验收通过率的关键：1个AST语义对齐算法+4个领域特定约束器

第一章：SITS2026案例：AI前端代码生成 2026奇点智能技术大会(https://ml-summit.org) 项目背景与目标 SITS2026（Smart Interface Transformation System）是为2026奇点智能技术大会定制的AI驱动前端开发实验项目，聚焦于…

李华

ESP8266连接原子云AT指令全解析：从‘AT’到‘CLOUD CONNECTED’的避坑指南

ESP8266连接原子云AT指令全解析：从‘AT’到‘CLOUD CONNECTED’的避坑指南在物联网开发中，ESP8266凭借其出色的性价比和稳定的WiFi连接能力，成为众多开发者的首选模块。而原子云作为国内知名的物联网平台，为设备接入提供了便捷的…

李华