news 2026/5/9 8:03:44

临床AI时代的模型记忆风险与隐私测试

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
临床AI时代的模型记忆风险与隐私测试

MIT科学家研究临床AI时代的记忆风险

一项新研究展示了如何测试人工智能模型,以确保它们不会通过泄露匿名化的患者健康数据而造成伤害。

患者隐私的初衷是什么?希波克拉底誓言,被认为是世界上最早且最广为人知的医学伦理文本之一,写道:“对于我在行医过程中或之外,所见所闻的、不应外传的关乎患者生活之事,我将守口如瓶,视所有此类事情为隐私。”在数据渴求的算法和网络攻击日益增多的时代,隐私变得越来越稀缺,而医学是少数几个保密性仍处于实践核心的领域之一,这使得患者能够信任他们的医生,分享敏感信息。

然而,一篇由某机构研究人员共同撰写的论文,探讨了在去标识化的电子健康记录上训练的人工智能模型如何可能记忆患者特定信息。这项近期在2025年神经信息处理系统大会(NeurIPS)上发表的工作,建议采用一套严格的测试设置,以确保有针对性的提示无法泄露信息,并强调必须在医疗保健背景下评估泄露问题,以确定其是否实质上损害了患者隐私。

基于EHR训练的基础模型通常应该归纳知识以做出更好的预测,这需要借鉴许多患者记录。但在“记忆”现象中,模型会依赖于单一患者记录来生成输出,这可能会侵犯患者隐私。值得注意的是,基础模型已知容易发生数据泄露

“这些高容量模型中的知识可以成为许多群体的资源,但对抗性攻击者可以提示模型提取训练数据中的信息,”该论文的第一作者、某中心博士后Sana Tonekaboni说。考虑到基础模型也可能记忆私人数据的风险,她指出:“这项工作是朝着确保在我们发布模型之前,社区可以采取实际评估步骤迈出的一步。”

为了研究EHR基础模型在医学中可能带来的潜在风险,Tonekaboni联系了某机构的副教授Marzyeh Ghassemi,她是某中心的负责人研究员,也是计算机科学与人工智能实验室的成员。Ghassemi是某机构电气工程与计算机科学系以及医学工程与科学研究所的教职人员,她领导着健康机器学习小组,该小组专注于健康领域的稳健机器学习。

一个恶意行为者需要多少信息才能暴露敏感数据?与泄露信息相关的风险又有哪些?为了评估这一点,研究团队开发了一系列测试,他们希望这些测试能为未来的隐私评估奠定基础。这些测试旨在衡量各种类型的不确定性,并通过评估不同层级的攻击可能性来衡量其对患者的实际风险。

“我们在这里真正试图强调实用性;如果一个攻击者需要知道你记录中一打实验室测试的日期和数值才能提取信息,那么造成伤害的风险就非常小。如果我已经能够访问那种级别的受保护源数据,为什么还需要攻击一个大型基础模型来获取更多信息呢?”Ghassemi说。

随着医疗记录的不可避免的数字化,数据泄露变得更加常见。在过去24个月里,美国卫生与公众服务部记录了747起影响超过500人的健康信息数据泄露事件,其中大多数被归类为黑客/IT事件。

患有罕见疾病的患者尤其脆弱,因为他们很容易被识别出来。“即使是去标识化的数据,也取决于你泄露了关于个人的何种信息,”Tonekaboni说。“一旦你识别出他们,你就会知道更多信息。”

在他们结构化的测试中,研究人员发现,攻击者掌握的关于特定患者的信息越多,模型泄露信息的可能性就越大。他们展示了如何区分模型的归纳情况与患者级别的记忆,以正确评估隐私风险。

论文还强调,有些泄露比其他泄露危害更大。例如,模型泄露患者的年龄或人口统计数据可以被定性为相对良性的泄露,而模型泄露更敏感的信息,如HIV诊断或酗酒,则危害更大。

研究人员指出,患有罕见疾病的患者尤其脆弱,因为他们很容易被识别出来,这可能需要更高级别的保护。“即使是去标识化的数据,实际上也取决于你泄露了关于个人的何种信息,”Tonekaboni说。研究人员计划扩展这项工作,使其更具跨学科性,增加临床医生、隐私专家以及法律专家。

“我们的健康数据之所以是私密的,是有原因的,”Tonekaboni说。“其他人没有理由知道这些信息。”

这项工作得到了某中心的支持,以及来自某基金会、某国家科学基金会、某基金会奖、某研究学者奖和某科学中心AI2050计划的支持。用于准备这项研究的资源部分由某省、通过CIFAR提供的某国政府以及赞助某研究所的公司提供。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 11:33:54

告别手动剪辑!FSMN-VAD帮你自动切分语音片段

告别手动剪辑!FSMN-VAD帮你自动切分语音片段 你是否经历过这样的场景:花两小时录完一段30分钟的播客,结果发现中间穿插了17次咳嗽、5次键盘敲击、3段空调嗡鸣,还有4次长达20秒的沉默?更糟的是,想用传统音频…

作者头像 李华
网站建设 2026/5/8 11:33:54

什么是自助建站系统?完整指南与平台推荐

一、自助建站系统的专业定义 自助建站系统(Self-Service Website Building Platform)是一类允许用户通过图形化界面、预置模板和模块化组件,在无需编写代码或具备专业技术知识的情况下,独立创建、设计、发布和管理网站的一体化软…

作者头像 李华
网站建设 2026/5/4 19:09:04

算法学习全攻略:从入门到精通

第一章:算法入门基础1.1 什么是算法?算法是一系列解决问题的清晰指令,代表着用系统的方法描述解决问题的策略机制。简单来说,算法就是解决问题的步骤和方法。算法的五大特性:有穷性:算法必须在执行有限步骤…

作者头像 李华
网站建设 2026/5/8 6:58:44

运维转行不迷茫:3大主流方向+分阶段学习路线

运维转行不迷茫:3大主流方向分阶段学习路线 在 IT 行业技术迭代加速的背景下,不少运维从业者面临“能力瓶颈”与“职业天花板”的困境——传统运维工作重复性高、技术深度不足,且易受自动化工具替代冲击。但运维积累的系统架构认知、网络基础…

作者头像 李华
网站建设 2026/5/1 15:47:42

编程语言中的类型声明与严格模式深度解析

摘要本报告旨在全面、深入地探讨现代软件开发中两个至关重要的概念:类型声明(Type Declaration)‍与严格模式(Strict Mode)‍。随着软件系统规模与复杂度的日益增长,保证代码的健壮性、可维护性和安全性已成…

作者头像 李华
网站建设 2026/5/1 18:06:56

‌生成式AI测试脚本:自定义模板详解——面向软件测试从业者的实战指南

一、核心结论:自定义模板是生成式AI测试落地的“骨架”‌ 在生成式AI驱动的测试自动化浪潮中,‌自定义模板‌已从辅助工具演变为‌智能测试系统的核心架构组件‌。它不是简单的脚本复用,而是连接自然语言需求、AI生成能力与工程化执行的‌语…

作者头像 李华