你有没有过这种体验:身体不舒服去医院,面对医生问诊时,大脑一片空白,不知道该怎么描述自己的症状?医生听完你的描述后,也常常需要结合多项检查结果,才能锁定病因。这种情况放大会,就是医生每天面对的真实挑战——医学知识浩瀚如海,新的研究指南层出不穷,而患者病情往往错综复杂,一个症状可能对应几十种疾病,一个疾病又涉及上百种药物的相互作用。靠人脑记忆,迟早会有疏漏。正是在这个背景下,知识图谱作为一种能够将海量医学知识结构化、关联化的技术,正在悄然改变临床诊断的游戏规则。它不是要取代医生,而是给医生配备了一个永远不会疲倦、永远不会遗漏最新指南的"超级外挂"。
从"经验医学"到"循证医学",临床决策走过的路
要理解知识图谱的价值,得先聊聊临床决策支持系统(CDSS)的发展历程。这个概念最早可以追溯到上世纪70年代——斯坦福大学的计算机专家和医学专家合作,研发出了世界上第一个医疗决策支持系统,专门用于感染病的辅助决策。
早期的CDSS主要基于规则运行,简单说就是"如果…那么…"的逻辑——如果患者体温超过38.5度且持续三天,那么建议做血培养检查。这种方式有一定的作用,但缺点也很明显:规则是人工编写的,无法穷举所有临床情况,更新起来也特别费劲。
医学知识增长的有多快?业内有一个说法:每三天医学知识就会翻一番。任何一位专科医生都不可能掌握所有领域的知识,更别说基层的全科医生了。这种知识的"爆炸式"增长,让传统的规则引擎越来越力不从心。
知识图谱的出现,解决了这个问题。它把医学知识从"规则库"变成了一张"关系网"——疾病、症状、药物、检查、基因,所有这些实体不再是孤立的存在,而是通过语义关系相互连接。机器不仅能"知道"某个知识点,还能理解这个知识点与其他知识点之间的关系。
医疗知识图谱长什么样
如果你在电脑上打开一个医疗知识图谱的可视化界面,会看到密密麻麻的节点和连线。节点代表医学概念——比如"高血压"、"阿司匹林"、"胸痛";线条代表它们之间的关系——"阿司匹林"与"心血管疾病"之间是"治疗"关系,"胸痛"与"心肌梗死"之间是"症状"关系。
一个完整的医疗知识图谱,通常包含以下几类核心实体:
- 疾病实体:
如2型糖尿病、急性心肌梗死,需要包含分期标准、继发原因、并发症等属性
- 症状/体征实体:
如多饮、胸痛,需要关联可能对应的疾病
- 药物实体:
如二甲双胍、阿司匹林,需要包含适应症、不良反应、代谢途径等
- 检查检验实体:
如糖化血红蛋白检测、心电图
- 解剖结构实体:
如胰腺、左心室
实体之间的关系则构成了图谱的骨架。常见的医学关系类型包括:引发、导致、推荐治疗、禁忌、增加患病风险、用于诊断、并发症等。每种关系都有其语义特性——比如"药物治疗疾病"是有方向性的,不能反向成立。
听起来复杂,但本质上这就是把医生脑子里的"临床思维"给翻译成了机器能理解的语言。当你输入"胸痛伴出汗",知识图谱会告诉你:这可能是心绞痛,需要做心电图和心肌酶谱检查,同时排除主动脉夹层的可能——这就是结构化知识的威力。
真实场景中,知识图谱是怎么工作的
理论讲完了,来点实际的。咱们看看几家国内已经在临床上实际应用知识图谱的企业,他们是怎么把这项技术落地的。
惠每科技是国内做CDSS比较早的厂商。他们的系统基于权威医学知识库,无缝嵌入医院信息生态,能够智能分析患者的完整数据。当医生在HIS系统里填写病历时,系统会实时分析患者信息,匹配最新的临床指南,生成诊疗方案优化建议。
这套系统的实际效果怎么样?拿他们与南京雨花台区基层医院的合作为例:基层医院全科医生数量不足、诊疗水平参差不齐是普遍问题。通过部署全科智能医生助理,医生在问诊过程中能得到实时辅助——比如一个发烧咳嗽的病人,下一步该问什么、做什么检查,系统都会给出建议。这不是替代医生决策,而是帮医生"想到"那些可能被忽略的关键点。
东软在医疗AI领域的积累也很深。他们的CDSS系统已经支持超过一万种疾病的智能辅助诊断,更关键的是,通过生成式AI技术的加持,知识库能够实现实时更新。这意味着当新的临床指南发布时,系统不需要经历漫长的"规则重写"周期,就能把新知识纳入推理框架。
东软研究院院长张霞在2024年的一次采访中提到,他们最新的CDSS系统Top5诊断准确率已经超过91%,超过了人类医生的平均水平。这个数字的提升,很大程度上得益于知识图谱+大模型的技术组合——图谱提供结构化的医学知识,大模型负责理解和推理,两者互补。
还有一家值得关注的团队是康夫子。他们从2015年开始深耕医疗知识图谱领域,吸收了超过2000万本医疗文献、超400万份病例报告,从中提取知识点,知识准确率超过90%,覆盖了约6000种常见疾病。他们把知识图谱用在三个方向:病历结构化、临床决策支持系统、以及分诊导诊机器人。
其中病历结构化是一个很有意思的应用场景。不同医院的病历写法差异巨大,医生用文字描述病情的习惯也各不相同。康夫子用NLP技术把非结构化的病历文本变成可用于统计和分析的结构化数据——这个过程,本质上就是让机器"读懂"人类写的病历。这项技术已经在国内20多家大三甲医院全院级别使用。
多模态知识图谱:不止于文字
传统的医疗知识图谱主要是文本数据——症状描述、病因分析、药物说明。但临床上还有大量的图像信息:皮肤科医生看疹子,眼科医生看眼底照片,整形外科医生看面部特征。这些图像和文字同样重要,但过去的图谱"看不见"它们。
多模态医疗知识图谱的研究正在改变这个现状。有一项来自梅州市人民医院和华南理工大学的研究,他们构建的中文多模态医疗知识图谱包含了6类共7962个实体,其中光是"图像"类实体就有5681个,关系总数达到77057条。
具体来说,他们从大型三甲医院的门诊病历中筛选了约32万份病历,涵盖眼科、皮肤科、口腔科等科室。然后根据疾病编码从百度百科爬取疾病信息,同时用图像搜索引擎抓取对应的症状图片。
这种多模态图谱在在线问诊场景中特别有价值。当患者描述"皮肤上起了红疹子"并上传照片时,AI不仅能理解文字描述,还能把图像特征与文字信息关联起来,辅助医生更快识别是湿疹、银屑病还是其他皮肤问题。
类似的思路也体现在国际上的临床知识图谱(CKG)项目中。这个项目包含了1600万个节点和2.2亿个关系,涵盖疾病、蛋白质组学、生物医学、药物等多种实体类型。国内做的比较好的,如整合生物医学知识中心图谱(iBKH),整合了17个公开生物医学数据库的数据,实体数量超过238万个。
知识图谱嵌入:让机器"学会"推理
知识图谱构建好了,但机器怎样才能利用这些结构化的知识做推理?这就涉及到知识图谱嵌入(Knowledge Graph Embedding)技术。
简单理解,嵌入就是把图谱里的实体和关系,转化成机器擅长的向量形式——每个实体变成一串数字,每个关系变成另一串数字。这样一来,复杂的图结构就可以用向量空间中的简单运算来处理。
这有什么用?用处大了。比如在药物发现场景中,通过嵌入后的向量,可以预测某种药物与某个疾病之间是否可能存在治疗关系,即使这种关系在原始图谱中没有被明确记录。同样,在疾病诊断支持中,系统可以识别疾病与症状、基因、环境因素之间的隐藏联系,辅助医生做早期诊断。
常用的嵌入方法包括TransE、TransH、DistMult、ComplEx等。以TransE为例,它的核心思想是"头实体+关系≈尾实体"——如果"阿司匹林治疗心绞痛",那么"阿司匹林的向量"加上"治疗的向量",应该接近"心绞痛的向量"。通过大量的学习,模型就能掌握这种向量运算规律,用于推理出新的关系。
结合深度学习之后,知识图谱嵌入还能实现更复杂的推理。比如基于图神经网络(GNN)的方法,能够捕捉图结构中的多跳关系——从"胸痛"推理到"需要做冠状动脉造影",再从造影结果推理到"可能需要放支架"。这种多步推理能力,是单纯规则引擎无法企及的。
大模型时代,知识图谱的新角色
近两年大语言模型(LLM)的火热,让很多人关心:知识图谱会不会被取代?
答案是否定的。原因很简单:大模型虽然能理解和生成自然语言,但它有"幻觉"问题——会一本正经地胡说八道。在医疗这种容错率极低的领域,这种幻觉是致命的。
知识图谱的价值,恰恰在于它的可解释性和可靠性。每一项诊断建议,背后都有一条清晰的推理链路——从症状到疑似疾病,从疑似疾病到需要做的检查,从检查结果到可能的诊断。这个过程是透明的、可追溯的。医生看到系统的建议,能理解为什么系统会给出这个建议,而不是盲目相信或者盲目怀疑。
所以现在业内的主流做法是让大模型和知识图谱"强强联合":用知识图谱提供可靠的结构化知识作为"地基",用大模型提供自然语言理解和生成的灵活性,两者互补。大模型负责理解医生用自然语言提出的问题,知识图谱负责确保回答的准确性不会"跑偏"。
有一篇2024年的论文提出了KG4Diagnosis框架,就是这种思路的典型实践。它用知识图谱覆盖362种常见疾病,结合分层多智能体架构——全科医生智能体负责初步评估和分诊,专业领域的智能体负责深入诊断。系统通过多智能体验证和知识图谱约束,来解决大模型的幻觉问题。
落地过程中的挑战
虽然前景看好,但知识图谱在医疗领域的落地并不容易。几个绕不开的问题:
第一,数据质量。医疗数据分散在不同医院的不同系统里,格式不统一,标准不一致。电子病历虽然是标准格式,但各家医院的填写规范差异很大。构建知识图谱需要大量的数据清洗和标准化工作。
第二,知识更新的时效性。医学知识更新很快,新的临床指南、新的药物适应症、新的研究结论,需要及时纳入图谱。如果知识库半年不更新,系统的权威性就会打折扣。国家卫健委2023年发布的《医疗机构临床决策支持系统应用管理规范》也特别强调,知识库内容更新周期一般不超半年。
第三,数据安全和隐私保护。医疗数据涉及个人健康信息,监管要求严格。很多医院的数据"不能出院",怎么在保护隐私的前提下训练模型,是个技术难题。联邦学习是目前被看好的方向——数据不动模型动,多个机构共同训练一个模型,但各自的数据不出本地。
第四,术语标准化。医学领域存在大量的同义词和近义词,"感冒"和"上呼吸道感染"指的是同一个东西,但机器可能会当成两个不同的概念。解决这个问题需要借助SNOMED-CT、UMLS这类国际标准术语体系,把不同来源的术语映射到统一的标识符下。
知识图谱在临床决策支持中的应用,本质上是在做一件事:把人类医生的临床思维"翻译"成机器能理解、能推理、可持续更新的认知体系。
它不是要把医生"替代掉",而是把医生从"知识记忆"的负担中解放出来,让他们有更多精力去理解患者、沟通方案、处理那些需要人类共情和判断的复杂问题。
从政策层面看,国家对CDSS的推广力度在加大。电子病历分级评价、公立医院绩效考核,都在倒逼医院提升信息化和智能化水平。2023年国家卫健委发布的CDSS应用管理规范,明确了系统应满足的基本要求,包括临床知识来源的权威性、知识库及时更新、审计日志留痕等。这些规范为行业健康发展提供了制度保障。
技术在进步,需求在增长。可以预见,未来几年知识图谱在医疗领域的应用会越来越深入:从单病种诊断支持,到多病种联合分析;从文字病历理解,到影像、语音多模态融合;从辅助诊断,到覆盖诊前咨询、诊中决策、诊后随访的全流程智能化。