文章摘要
患者在医疗过程中频繁寻求信息,但数字消息量激增给医疗系统带来压力。大语言模型(LLM)可生成医生回复草稿,但医生如何精炼这些草稿仍鲜有研究。本文通过混合方法研究,考察9名眼科医生回答144个白内障手术问题,比较三种方式:从零撰写、直接编辑LLM草稿和指令-based间接编辑。结果显示LLM输出通常准确,但需医生监督以避免错误和自动化偏差。上下文适应是主要编辑形式,间接编辑降低努力但引入错误,直接编辑确保精确但工作量大。研究揭示设计与政策启示,推动安全、可扩展的LLM辅助临床沟通系统。
原文pdf:https://t.zsxq.com/eQ84I
正文
引言:AI如何辅助医生应对患者信息需求
在医疗保健领域,患者从诊断到治疗的全程都需要及时、准确的信息支持。这不仅是患者中心护理的核心,还能促进知情决策、提升治疗依从性和情感健康。 随着数字通信平台的普及,如聊天群、即时消息和网络门户,医生能够更高效地回应患者关切。 然而,COVID-19疫情加速了远程医疗的发展,导致患者互动量急剧增加,医疗系统面临前所未有的负担。
生成式AI的出现为缓解这一压力提供了希望,特别是大语言模型(LLM)在患者沟通中的应用。 早期研究显示,医生常将LLM生成的医疗问题答案评为“安全”,有时甚至优于同行撰写的回复。 但LLM也可能输出不准确、过时或不适当的信息,患者对未经验证的LLM回复信任度较低。 因此,医生监督不可或缺。
一种有前景的方法是使用LLM生成患者查询的回复草稿,由医生精炼而非完全取代。 初步部署显示,这能显著减轻医生工作负担并提升回复质量。 然而,挑战依然存在,包括医生过度依赖LLM输出而忽略临床判断,以及生成的答案冗长,可能源于修正和缩短的劳动成本。 理解医生如何精炼LLM草稿,以及不同协作策略如何与工作流程匹配,以最大化可用性和有效性,是至关重要的。
现有研究虽考察了LLM回复质量和医生接受度,但对精炼LLM草稿的具体方法研究不足。本研究通过混合方法,比较三种答案生成方式:从零撰写(医生独立写作,无LLM参与)、直接编辑(手动修正LLM生成草稿)和指令-based编辑(向LLM提供修正指令)。我们评估答案准确性、完整性和安全性,以及医生的效率和偏好,以回答两个核心研究问题:不同LLM协作方式如何影响医生效率和回复质量?医生对不同LLM协作方式的可用性和工作流程兼容性有何感知?
为将研究置于具体临床语境,我们聚焦白内障手术,这是全球最常见眼科手术,也是第二大手术类型。 手术前后,患者需了解风险和术后护理,沟通至关重要。高查询量已促使开发LLM-based系统,包括标准化患者教育材料和医生在环聊天机器人。
本研究与9名眼科医生合作,他们回答144个白内障手术问题,覆盖三种条件,随后参与焦点小组讨论(FGD)和同行答案评估。医生认为LLM生成答案总体准确和完整,但偶发事实错误和自动化偏差风险强调了人类监督的必要性。上下文适应——将通用答案调整为本地实践、术语和患者期望——是主要编辑形式。编辑工作流程显示权衡:指令-based编辑比直接文本编辑减少努力,但引入技术错误和歧义。最后,虽然医生欣赏LLM草稿的精炼语言,但常需简化并重构为简短、清晰、对话式的患者友好形式。
这些结果扩展了先前工作,从单纯LLM回复质量转向精炼过程,照亮了安全、可扩展整合LLM到患者沟通的设计和政策方向。 对于科研专家和投资人,这揭示了AI在高风险医疗沟通中的潜力,同时强调人类-AI协作的必要性,可能驱动投资于可扩展的临床AI工具。
方法:混合方法用户研究设计
本研究于2025年6-7月在印度领先三级眼科和教学医院Sankara Eye Hospital进行,覆盖斋浦尔和海得拉巴分院。获得两地科学和伦理委员会批准,符合医院政策,参与者无经济补偿。
参与者
9名执业眼科医生(4女)参与,来自海得拉巴(4人)和斋浦尔(5人)。所有每周至少进行10例白内障手术。平均年龄37.1±5.5岁,专业经验11.6±5.1年。以下表格总结参与者人口统计细节(基于原文Table 1):
ID | 城市 | 年龄 | 性别 | 专业经验(年) | 手术/周 | 参与 |
|---|---|---|---|---|---|---|
D1 | 海得拉巴 | 34 | 女 | 7 | 10-20 | FGD3 |
D2 | 海得拉巴 | 36 | 男 | 10 | 40+ | FGD1 |
D3 | 海得拉巴 | 34 | 男 | 15 | 40+ | FGD1 |
D4 | 斋浦尔 | 43 | 男 | 16 | 20-30 | FGD2 |
D5 | 斋浦尔 | 43 | 男 | 17 | 20-30 | FGD2 |
D6 | 斋浦尔 | 45 | 男 | 15 | 10-20 | FGD2 |
D7 | 斋浦尔 | 30 | 女 | 4 | 20-30 | FGD2 |
D8 | 斋浦尔 | 31 | 女 | 5 | 20-30 | FGD2 |
D9 | 海得拉巴 | 38 | 女 | 15 | 40+ | FGD3 |
接口设计
我们设计了一个自定义Web应用,由GPT-4o驱动。该应用支持三种条件:Write(从零撰写)、Edit(直接编辑LLM草稿)和Instruct(指令-based编辑)。在Edit中,医生收到LLM初始草稿并手动修改;在Instruct中,医生提供指令如“简化语言,使其更适合患者”,LLM据此生成修订版。应用记录时间、编辑和NASA-TLX工作负载评分。
研究阶段
研究分三个阶段:
阶段1:答案生成。每个医生随机分配48个独特白内障手术问题(从医院常见查询中选取,共144个),覆盖三种条件。医生在实验室设置中独立完成,每条件限时10分钟/问题。问题示例包括术后休息、药物管理和风险。
阶段2:主观评估。医生完成NASA-TLX问卷评估工作负载,并对三种条件排名偏好。随后参与焦点小组讨论(FGD),分为三组,每组3人,持续60-90分钟,探讨编辑体验、挑战和感知。
阶段3:客观评估。两名独立医生(非参与者)对所有432个答案(144问题×3条件)评分,评估准确性、完整性和无害性(1-5分量表)。
数据分析包括:定量数据(日志、评分)使用描述统计、t检验和线性混合效应模型(条件为固定效应,问题和参与者为随机截距);定性数据(FGD转录和笔记)通过归纳主题分析[6],由一名作者初始编码,与三位合著者迭代讨论得出主题。Edit和Instruct中的编辑也被分类编码。
此设计确保了控制变量,同时捕捉定性和定量洞察,适用于评估AI在临床沟通中的实际影响。
发现:答案质量、可靠性和医生编辑行为
答案质量与可靠性:准确性、完整性和安全性
基于与医生互动和先前研究[20],我们关注医生生成答案的三个关键质量:准确性、完整性和无害性。在阶段3,两名独立医生对432个答案评分(阶段1的144问题×3条件)。平均评分显示三种条件间显著差异(准确性:F(2, 278)=22.4, p<0.005;完整性:F(2, 278)=76.7, p<0.005;无害性:F(2, 278)=23.8, p<0.005)。
事后比较显示,Edit和Instruct在所有指标上显著优于Write。虽然Instruct略高于Edit,但准确性和完整性差异无统计显著(p=0.07和0.7),无害性上Instruct显著优于Edit(p<0.05)。有害评分罕见:Write 14例、Edit 7例、Instruct 5例,表明多数答案高质量且安全。
低准确性和高有害性示例(Ans1):
Q1: 手术后是否需要完全休息?
Ans1: 不推荐完全卧床休息。您可以恢复日常活动。(此答案忽略了术后特定恢复期,可能导致患者过度活动风险。)
低完整性示例(Ans2):
Q2: 患者手术当天能否服用常规血压药?
Ans2: 仔细遵循医生指示以确保安全成功程序。(缺乏具体指导,如咨询医生关于药物互动。)
这些结果表明LLM辅助显著提升质量,但Write作为基准仍可靠,尤其在个性化语境中。
LLM生成答案的特征:冗长、不准确和正式
医生普遍描述Edit和Instruct中的LLM答案为“写得好”、“完整”和“准确”。如D2所言:“AI没有犯大错。我编辑了几个时间线……但这些是每个医生的特定情况。”D6指出:“大多数(LLM)答案正确。只需少量小编辑。”
然而,医生一致强调三个局限:首先,答案往往冗长和啰嗦,一两句可传达的内容扩展成多段解释,风险混淆患者。其次,内容偶有事实不准确或通用陈述,不符合印度白内障标准实践,如适用于全身麻醉但非局部麻醉的禁食指示,需要仔细修正。最后,语气过于正式和学术,常像教科书语言。医生欣赏语法精炼,但强调这种正式可能显得 impersonal 和脱离患者沟通。在编辑中,他们寻求更直接、
简洁的形式。 这些观察突显LLM在生成专业内容时的优势,同时揭示适应患者中心沟通的差距。对于投资人,这暗示开发针对医疗的细调LLM模型的市场机会,可减少后期编辑需求。
编辑行为:上下文适应与个性化
编辑的核心是上下文适应——将通用答案调整为本地实践、术语和患者期望。例如,医生常修改LLM关于术后护理的通用建议,以匹配医院协议,如调整印度语境下的药物可用性或文化偏好。 焦点小组讨论中,医生强调个性化:老年患者需简洁指令,而信息寻求型患者偏好详细解释。有些患者需安慰和共情,其他优先简洁。
先前健康沟通研究[8, 15]显示,这种 tailoring 改善理解、信任和依从,建议LLM辅助系统朝自适应生成方向发展,如基于患者人口统计调整长度、语气和细节。 定性分析显示,医生编辑常涉及简化冗长内容、重构为对话式,并注入共情元素,确保答案不只准确,还患者友好。
在Edit中,医生直接修改文本,平均编辑时间为Write的60%,但确保精确。在Instruct中,提供指令减少努力(平均时间减半),但引入偶发技术错误,如歧义术语。 自动化偏差风险突出:医生可能未充分审查LLM输出,导致潜在错误。
NASA-TLX评分显示,Instruct工作负载最低(平均25分 vs. Write的45分,Edit的35分),偏好排名中Instruct第一(55%)、Edit第二(30%)、Write第三。 这些权衡表明,直接编辑适合高精确场景,间接编辑适用于高量工作流。
医生感知:可用性与工作流程兼容性
焦点小组揭示积极感知:LLM加速起草,允许医生聚焦临床判断。D1称:“AI处理了 boilerplate 内容,我能添加个人触感。”但挑战包括信任构建:医生担心患者发现AI参与会降低可信度。
工作流程兼容性高,尤其在高查询医院如Sankara,但需护栏如事实检查集成。医生建议未来系统包括患者特定上下文输入,以提升适应性。 对于科研院所专家,这提供实证基础,探索人类-AI协作模型;投资人可关注扩展到其他专科的AI工具潜力。
局限性与未来方向
尽管努力减少参与者偏差,我们采用便利抽样,可能引入选择偏差,影响样本代表性。我们聚焦印度城市人口,农村或郊区对聊天机器人的看法可能不同。最后,医生是核心评估者,但患者——最终消费者——未纳入,其视角是未来工作重点。
这些局限强调研究的初步性,呼吁更广泛、多文化验证。
结论:人类-AI协作在医疗沟通中的作用
本文考察了三种方式下医生回答患者查询:从零撰写、直接编辑LLM草稿和指令-based间接编辑。虽然LLM生成准确、精炼回复,医生编辑突显关键需求:上下文适应本地实践、防范事实错误,并将冗长回复重构为清晰、患者中心沟通。
结果强调保持人类专家在环的重要性,不仅为安全,还为维持个性化和共情在患者教育中。此工作为高风险环境中人类-AI共同创作提供实证证据,并识别设计机会。最终,LLM在医疗的安全和可扩展性采用取决于标准化与主观性、自动化与人类判断的平衡。
对于专业读者,这项NeurIPS 2025工作坊研究[1](arXiv:2511.19940v1)展示了GenAI在健康领域的潜力与挑战。预计到2030年,此类系统可显著提升医疗效率,节省数十亿美元成本,同时改善患者结局。 投资机会在于开发带监督的LLM平台,针对临床工作流定制。
标签
#GenAI#LLM#AI医疗#大语言模型#医生编辑#患者沟通
欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。