news 2026/1/28 13:47:44

AI人机协同辅助编辑:医生如何精炼大模型生成的患者查询答案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI人机协同辅助编辑:医生如何精炼大模型生成的患者查询答案

文章摘要

患者在医疗过程中频繁寻求信息,但数字消息量激增给医疗系统带来压力。大语言模型(LLM)可生成医生回复草稿,但医生如何精炼这些草稿仍鲜有研究。本文通过混合方法研究,考察9名眼科医生回答144个白内障手术问题,比较三种方式:从零撰写、直接编辑LLM草稿和指令-based间接编辑。结果显示LLM输出通常准确,但需医生监督以避免错误和自动化偏差。上下文适应是主要编辑形式,间接编辑降低努力但引入错误,直接编辑确保精确但工作量大。研究揭示设计与政策启示,推动安全、可扩展的LLM辅助临床沟通系统。

原文pdf:https://t.zsxq.com/eQ84I

正文

引言:AI如何辅助医生应对患者信息需求

在医疗保健领域,患者从诊断到治疗的全程都需要及时、准确的信息支持。这不仅是患者中心护理的核心,还能促进知情决策、提升治疗依从性和情感健康。 随着数字通信平台的普及,如聊天群、即时消息和网络门户,医生能够更高效地回应患者关切。 然而,COVID-19疫情加速了远程医疗的发展,导致患者互动量急剧增加,医疗系统面临前所未有的负担。

生成式AI的出现为缓解这一压力提供了希望,特别是大语言模型(LLM)在患者沟通中的应用。 早期研究显示,医生常将LLM生成的医疗问题答案评为“安全”,有时甚至优于同行撰写的回复。 但LLM也可能输出不准确、过时或不适当的信息,患者对未经验证的LLM回复信任度较低。 因此,医生监督不可或缺。

一种有前景的方法是使用LLM生成患者查询的回复草稿,由医生精炼而非完全取代。 初步部署显示,这能显著减轻医生工作负担并提升回复质量。 然而,挑战依然存在,包括医生过度依赖LLM输出而忽略临床判断,以及生成的答案冗长,可能源于修正和缩短的劳动成本。 理解医生如何精炼LLM草稿,以及不同协作策略如何与工作流程匹配,以最大化可用性和有效性,是至关重要的。

现有研究虽考察了LLM回复质量和医生接受度,但对精炼LLM草稿的具体方法研究不足。本研究通过混合方法,比较三种答案生成方式:从零撰写(医生独立写作,无LLM参与)、直接编辑(手动修正LLM生成草稿)和指令-based编辑(向LLM提供修正指令)。我们评估答案准确性、完整性和安全性,以及医生的效率和偏好,以回答两个核心研究问题:不同LLM协作方式如何影响医生效率和回复质量?医生对不同LLM协作方式的可用性和工作流程兼容性有何感知?

为将研究置于具体临床语境,我们聚焦白内障手术,这是全球最常见眼科手术,也是第二大手术类型。 手术前后,患者需了解风险和术后护理,沟通至关重要。高查询量已促使开发LLM-based系统,包括标准化患者教育材料和医生在环聊天机器人。

本研究与9名眼科医生合作,他们回答144个白内障手术问题,覆盖三种条件,随后参与焦点小组讨论(FGD)和同行答案评估。医生认为LLM生成答案总体准确和完整,但偶发事实错误和自动化偏差风险强调了人类监督的必要性。上下文适应——将通用答案调整为本地实践、术语和患者期望——是主要编辑形式。编辑工作流程显示权衡:指令-based编辑比直接文本编辑减少努力,但引入技术错误和歧义。最后,虽然医生欣赏LLM草稿的精炼语言,但常需简化并重构为简短、清晰、对话式的患者友好形式。

这些结果扩展了先前工作,从单纯LLM回复质量转向精炼过程,照亮了安全、可扩展整合LLM到患者沟通的设计和政策方向。 对于科研专家和投资人,这揭示了AI在高风险医疗沟通中的潜力,同时强调人类-AI协作的必要性,可能驱动投资于可扩展的临床AI工具。

方法:混合方法用户研究设计

本研究于2025年6-7月在印度领先三级眼科和教学医院Sankara Eye Hospital进行,覆盖斋浦尔和海得拉巴分院。获得两地科学和伦理委员会批准,符合医院政策,参与者无经济补偿。

参与者

9名执业眼科医生(4女)参与,来自海得拉巴(4人)和斋浦尔(5人)。所有每周至少进行10例白内障手术。平均年龄37.1±5.5岁,专业经验11.6±5.1年。以下表格总结参与者人口统计细节(基于原文Table 1):

ID

城市

年龄

性别

专业经验(年)

手术/周

参与

D1

海得拉巴

34

7

10-20

FGD3

D2

海得拉巴

36

10

40+

FGD1

D3

海得拉巴

34

15

40+

FGD1

D4

斋浦尔

43

16

20-30

FGD2

D5

斋浦尔

43

17

20-30

FGD2

D6

斋浦尔

45

15

10-20

FGD2

D7

斋浦尔

30

4

20-30

FGD2

D8

斋浦尔

31

5

20-30

FGD2

D9

海得拉巴

38

15

40+

FGD3

接口设计

我们设计了一个自定义Web应用,由GPT-4o驱动。该应用支持三种条件:Write(从零撰写)、Edit(直接编辑LLM草稿)和Instruct(指令-based编辑)。在Edit中,医生收到LLM初始草稿并手动修改;在Instruct中,医生提供指令如“简化语言,使其更适合患者”,LLM据此生成修订版。应用记录时间、编辑和NASA-TLX工作负载评分。

研究阶段

研究分三个阶段:

  1. 阶段1:答案生成。每个医生随机分配48个独特白内障手术问题(从医院常见查询中选取,共144个),覆盖三种条件。医生在实验室设置中独立完成,每条件限时10分钟/问题。问题示例包括术后休息、药物管理和风险。

  2. 阶段2:主观评估。医生完成NASA-TLX问卷评估工作负载,并对三种条件排名偏好。随后参与焦点小组讨论(FGD),分为三组,每组3人,持续60-90分钟,探讨编辑体验、挑战和感知。

  3. 阶段3:客观评估。两名独立医生(非参与者)对所有432个答案(144问题×3条件)评分,评估准确性、完整性和无害性(1-5分量表)。

数据分析包括:定量数据(日志、评分)使用描述统计、t检验和线性混合效应模型(条件为固定效应,问题和参与者为随机截距);定性数据(FGD转录和笔记)通过归纳主题分析[6],由一名作者初始编码,与三位合著者迭代讨论得出主题。Edit和Instruct中的编辑也被分类编码。

此设计确保了控制变量,同时捕捉定性和定量洞察,适用于评估AI在临床沟通中的实际影响。

发现:答案质量、可靠性和医生编辑行为

答案质量与可靠性:准确性、完整性和安全性

基于与医生互动和先前研究[20],我们关注医生生成答案的三个关键质量:准确性、完整性和无害性。在阶段3,两名独立医生对432个答案评分(阶段1的144问题×3条件)。平均评分显示三种条件间显著差异(准确性:F(2, 278)=22.4, p<0.005;完整性:F(2, 278)=76.7, p<0.005;无害性:F(2, 278)=23.8, p<0.005)。

事后比较显示,Edit和Instruct在所有指标上显著优于Write。虽然Instruct略高于Edit,但准确性和完整性差异无统计显著(p=0.07和0.7),无害性上Instruct显著优于Edit(p<0.05)。有害评分罕见:Write 14例、Edit 7例、Instruct 5例,表明多数答案高质量且安全。

低准确性和高有害性示例(Ans1):
Q1: 手术后是否需要完全休息?
Ans1: 不推荐完全卧床休息。您可以恢复日常活动。(此答案忽略了术后特定恢复期,可能导致患者过度活动风险。)

低完整性示例(Ans2):
Q2: 患者手术当天能否服用常规血压药?
Ans2: 仔细遵循医生指示以确保安全成功程序。(缺乏具体指导,如咨询医生关于药物互动。)

这些结果表明LLM辅助显著提升质量,但Write作为基准仍可靠,尤其在个性化语境中。

LLM生成答案的特征:冗长、不准确和正式

医生普遍描述Edit和Instruct中的LLM答案为“写得好”、“完整”和“准确”。如D2所言:“AI没有犯大错。我编辑了几个时间线……但这些是每个医生的特定情况。”D6指出:“大多数(LLM)答案正确。只需少量小编辑。”

然而,医生一致强调三个局限:首先,答案往往冗长和啰嗦,一两句可传达的内容扩展成多段解释,风险混淆患者。其次,内容偶有事实不准确或通用陈述,不符合印度白内障标准实践,如适用于全身麻醉但非局部麻醉的禁食指示,需要仔细修正。最后,语气过于正式和学术,常像教科书语言。医生欣赏语法精炼,但强调这种正式可能显得 impersonal 和脱离患者沟通。在编辑中,他们寻求更直接、

简洁的形式。 这些观察突显LLM在生成专业内容时的优势,同时揭示适应患者中心沟通的差距。对于投资人,这暗示开发针对医疗的细调LLM模型的市场机会,可减少后期编辑需求。

编辑行为:上下文适应与个性化

编辑的核心是上下文适应——将通用答案调整为本地实践、术语和患者期望。例如,医生常修改LLM关于术后护理的通用建议,以匹配医院协议,如调整印度语境下的药物可用性或文化偏好。 焦点小组讨论中,医生强调个性化:老年患者需简洁指令,而信息寻求型患者偏好详细解释。有些患者需安慰和共情,其他优先简洁。

先前健康沟通研究[8, 15]显示,这种 tailoring 改善理解、信任和依从,建议LLM辅助系统朝自适应生成方向发展,如基于患者人口统计调整长度、语气和细节。 定性分析显示,医生编辑常涉及简化冗长内容、重构为对话式,并注入共情元素,确保答案不只准确,还患者友好。

在Edit中,医生直接修改文本,平均编辑时间为Write的60%,但确保精确。在Instruct中,提供指令减少努力(平均时间减半),但引入偶发技术错误,如歧义术语。 自动化偏差风险突出:医生可能未充分审查LLM输出,导致潜在错误。

NASA-TLX评分显示,Instruct工作负载最低(平均25分 vs. Write的45分,Edit的35分),偏好排名中Instruct第一(55%)、Edit第二(30%)、Write第三。 这些权衡表明,直接编辑适合高精确场景,间接编辑适用于高量工作流。

医生感知:可用性与工作流程兼容性

焦点小组揭示积极感知:LLM加速起草,允许医生聚焦临床判断。D1称:“AI处理了 boilerplate 内容,我能添加个人触感。”但挑战包括信任构建:医生担心患者发现AI参与会降低可信度。

工作流程兼容性高,尤其在高查询医院如Sankara,但需护栏如事实检查集成。医生建议未来系统包括患者特定上下文输入,以提升适应性。 对于科研院所专家,这提供实证基础,探索人类-AI协作模型;投资人可关注扩展到其他专科的AI工具潜力。

局限性与未来方向

尽管努力减少参与者偏差,我们采用便利抽样,可能引入选择偏差,影响样本代表性。我们聚焦印度城市人口,农村或郊区对聊天机器人的看法可能不同。最后,医生是核心评估者,但患者——最终消费者——未纳入,其视角是未来工作重点。

这些局限强调研究的初步性,呼吁更广泛、多文化验证。

结论:人类-AI协作在医疗沟通中的作用

本文考察了三种方式下医生回答患者查询:从零撰写、直接编辑LLM草稿和指令-based间接编辑。虽然LLM生成准确、精炼回复,医生编辑突显关键需求:上下文适应本地实践、防范事实错误,并将冗长回复重构为清晰、患者中心沟通。

结果强调保持人类专家在环的重要性,不仅为安全,还为维持个性化和共情在患者教育中。此工作为高风险环境中人类-AI共同创作提供实证证据,并识别设计机会。最终,LLM在医疗的安全和可扩展性采用取决于标准化与主观性、自动化与人类判断的平衡。

对于专业读者,这项NeurIPS 2025工作坊研究[1](arXiv:2511.19940v1)展示了GenAI在健康领域的潜力与挑战。预计到2030年,此类系统可显著提升医疗效率,节省数十亿美元成本,同时改善患者结局。 投资机会在于开发带监督的LLM平台,针对临床工作流定制。

标签

#GenAI#LLM#AI医疗#大语言模型#医生编辑#患者沟通

欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/18 15:26:45

工程师团队如何攻克紧凑型4K流媒体设备技术挑战

工程师团队如何攻克紧凑型4K流媒体设备技术挑战 当某中心于2018年10月推出其4K流媒体棒时&#xff0c;它因三个原因而广受欢迎。第一&#xff0c;它提供了强大的4K流媒体功能&#xff0c;并支持卓越的音频&#xff08;杜比全景声&#xff09;和视频规格&#xff08;杜比视界&am…

作者头像 李华
网站建设 2026/1/21 22:16:32

第7章树和二叉树:树和森林的遍历

7.10 树和森林的遍历 1. 树的遍历 由树结构的定义&#xff0c;可以引出两种次序遍历树的方法&#xff1a; &#xff08;1&#xff09;先根&#xff08;次序&#xff09;遍历 先访问树的根结点&#xff0c;然后依次先根遍历根的每棵子树。 以图 7.10.1 所示的树为例&#xff0c;…

作者头像 李华
网站建设 2026/1/24 22:36:55

`.flattened-pom.xml` 深度解析

&#x1f3af; 问题背景 在 Maven 多模块项目中&#xff0c;你可能会看到项目根目录和各个子模块下都存在一个 .flattened-pom.xml 文件&#xff0c;这个文件是做什么的&#xff1f;能删除吗&#xff1f; 问题的本质 这个问题涉及到 Maven 的一个核心矛盾&#xff1a; 开发时的…

作者头像 李华
网站建设 2025/12/22 11:42:54

LangFlow镜像超时设置选项:防止长时间阻塞任务堆积

LangFlow镜像超时设置&#xff1a;防止长时间阻塞与任务堆积 在现代AI应用开发中&#xff0c;可视化工作流工具正变得越来越重要。LangFlow作为LangChain生态中的图形化利器&#xff0c;让开发者无需编写大量代码即可拖拽构建复杂的LLM流程。但便利的背后也潜藏风险——当某个节…

作者头像 李华
网站建设 2025/12/22 11:41:37

基于Python的肝癌医学影像分割模型校准系统

基于Python的肝癌医学影像分割模型校准系统 摘要 肝癌是全球范围内致死率极高的恶性肿瘤之一,准确的肝癌病灶分割对于诊断、治疗规划和预后评估至关重要。本文详细介绍了一个完整的肝癌医学影像分割模型校准系统,该系统利用现有数据和公开的肝癌分割模型,通过系统化的校准…

作者头像 李华