医院病历录入新方式：Fun-ASR助力医疗听录自动化-开发者社区

医院病历录入新方式：Fun-ASR助力医疗听录自动化

在三甲医院的诊室里，医生一边查看患者检查报告，一边快速口述：“血压142/90mmHg，心率86次/分，考虑原发性高血压二级，建议加用氨氯地平5mg每日一次……”话音刚落，屏幕上已同步生成结构清晰、标点规范的电子病历段落——没有手动敲击键盘，没有反复校对时间，更无需第三方云服务传输敏感健康数据。这不是科幻场景，而是 Fun-ASR 正在全国数十家医疗机构真实发生的日常。

Fun-ASR 并非又一个需要申请密钥、按调用量计费的语音API。它是由钉钉联合通义实验室推出、由开发者“科哥”深度整合优化的本地化语音识别系统，专为中文医疗场景打磨。它不依赖网络上传，所有音频与文本全程驻留院内服务器；它不惧专业术语，“房颤”“CK-MB”“D-二聚体”等词汇识别准确率远超通用模型；它不止于“听清”，更能理解语境，自动将“一百四十”转为“140”，把“二零二五年三月”规整为“2025年3月”。今天，我们就从一家三甲医院信息科的实际部署出发，看看这套系统如何让病历录入真正回归临床本质。

1. 为什么传统病历录入正在拖慢诊疗节奏？

1.1 医生的真实困境：时间被切割成碎片

一位门诊医生平均每天接诊50–60位患者，每位实际面诊时间不足6分钟。而完成一份标准门诊病历，需耗时3–5分钟——这意味着近半数工作时间被文字录入占据。更现实的问题是：

语音输入不准：市面多数语音助手将“窦性心动过缓”识别为“都行心动过缓”，“胰岛素”变成“胰导素”，医生不得不反复修正；
云端方案存疑：商业ASR服务要求上传完整就诊录音，涉及《个人信息保护法》《医疗卫生机构网络安全管理办法》明确禁止的患者生物识别信息外传；
批量处理缺失：住院查房录音、多学科会诊记录、教学查房视频，仍靠人工逐字整理，一份2小时会议录音常需8小时转写。

这些不是效率问题，而是临床安全风险。当医生因录入分心而漏记关键体征，或为赶进度简化病历描述，质控系统亮起红灯只是时间问题。

1.2 Fun-ASR 的破局逻辑：把“听”和“写”还给医生

Fun-ASR 的核心设计哲学很朴素：不改变医生工作流，只消除其中冗余环节。它不做“智能摘要”，不生成虚构内容，只做一件事——把医生自然说出的话，精准、稳定、私密地转成可直接入EMR系统的文本。

这背后有三个不可替代的技术支点：

本地化闭环：模型、WebUI、数据库全部运行于医院内网服务器，音频文件不离物理设备，符合等保三级对医疗数据“不出域”的硬性要求；
医疗热词预置能力：支持动态加载科室专属词表，心内科可预置“NT-proBNP”“射血分数”，儿科可加入“生长激素激发试验”，识别错误率直降60%以上；
VAD驱动的智能切分：面对医生边看片子边口述、中间穿插与护士确认用药的复杂对话，系统能自动跳过静音与非语音段，仅对有效语句识别，避免将“嗯”“啊”“这个……”等填充词误转为病历内容。

这不是技术炫技，而是对临床语言节奏的深度适配。

2. 部署即用：三步完成院内ASR服务上线

2.1 服务器准备：一台普通GPU工作站足矣

医院信息科无需采购专用硬件。实测表明，搭载NVIDIA RTX 3060（12GB显存）+ 32GB内存 + 500GB SSD的国产信创工作站，即可稳定支撑5–8名医生并发使用。部署过程极简：

# 登录院内服务器（Ubuntu 22.04 LTS） ssh admin@192.168.10.50 # 下载并解压Fun-ASR镜像包（已预装CUDA 12.1与PyTorch 2.3） wget https://mirror-hospital.csdn.net/funasr-v1.0.0-dingtalk.tar.gz tar -xzf funasr-v1.0.0-dingtalk.tar.gz # 一键启动（自动检测GPU、加载模型、启动WebUI） cd funasr-webui && bash start_app.sh

启动完成后，院内任意终端浏览器访问http://192.168.10.50:7860即可进入操作界面。整个过程耗时约4分钟，无须配置Python环境或安装驱动——所有依赖均已容器化封装。

关键细节：系统自动识别到RTX 3060后，默认启用CUDA加速模式，推理速度达CPU模式的2.1倍；若未来升级至A100，仅需在“系统设置”中切换设备，无需重装。

2.2 界面即学即用：医生无需培训就能上手

Fun-ASR WebUI采用极简设计，主界面仅保留6个功能入口，完全规避技术术语：

语音识别：上传门诊录音MP3，点击“开始识别” → 30秒后生成文本
实时流式识别：点击麦克风图标，边问诊边说话，文字实时浮现（延迟约1.5秒）
批量处理：拖拽10份查房录音进窗口，自动排队识别，结果一键导出CSV
识别历史：按日期/医生姓名/关键词搜索过往所有病历文本
VAD检测：分析长录音中的有效语音段，自动剔除90%以上的静音空白
系统设置：切换中/英/日语言，启用ITN规整，管理热词库

一位52岁的主任医师在首次试用时反馈：“界面比我们医院的HIS系统还干净，三个按钮就搞定——上传、识别、复制。我连‘VAD’是什么都不用知道，但发现它自动跳过了我喝水的那15秒。”

2.3 医疗热词库：让系统真正“懂行”

通用ASR模型在医疗场景失准，根源在于训练语料缺乏专科术语。Fun-ASR通过轻量级热词机制破解此题：

在“系统设置”中点击“编辑热词”，粘贴科室定制词表：

左心室射血分数 肺动脉高压 糖化血红蛋白HbA1c 脑钠肽BNP 急性冠脉综合征ACS

保存后，该词表将全局生效——所有识别任务均优先匹配这些词汇，即使发音稍带口音（如将“射血”读作“谢血”），识别结果仍为正确术语。

某三甲医院心内科部署后对比显示：未启用热词时，“NT-proBNP”识别错误率达43%；启用后降至2.1%。更重要的是，热词支持中文全称、英文缩写、大小写变体同时生效，真正覆盖临床表达习惯。

3. 场景落地：从诊室到病房的全流程提效

3.1 门诊场景：实时听录，病历生成零延迟

传统模式下，医生需在患者离开后补录病历，易遗漏细节。Fun-ASR的“实时流式识别”模块重构了这一流程：

医生开启WebUI的实时识别页，点击麦克风图标；
问诊过程中，系统持续监听，VAD模块实时判断语音起止；
每段有效语句（平均2–8秒）识别完成后，文本立即追加至编辑区；
问诊结束，点击“导出文本”，复制粘贴至医院HIS系统病历模板。

实测效果：某消化内科医生连续3天使用，单日门诊病历录入时间从平均210分钟缩短至87分钟，节省时长全部用于增加患者沟通与检查判读。更关键的是，病历完整性提升显著——既往常被忽略的“患者自述睡眠质量差、偶有夜间憋醒”等主观描述，如今100%被系统捕获。

3.2 住院场景：批量处理查房录音，释放护士人力

夜班护士需整理当日所有查房录音，形成交班报告。过去需手动暂停、回放、打字，耗时且易出错。Fun-ASR的批量处理功能实现自动化：

护士将12份MP3查房录音（总时长约4.2小时）拖入批量处理窗口；
设置目标语言为“中文”，启用ITN规整，加载“护理术语热词”（含“Braden评分”“跌倒风险评估”等）；
点击“开始批量处理”，系统按顺序识别，每份耗时45–90秒；
处理完毕后，导出CSV文件，Excel中按“医生姓名”“患者床号”“关键处置”三列自动归类。

数据对比：某呼吸科病区实施前后，夜班护士病历整理时间从112分钟/晚降至19分钟/晚，错误率由7.3%降至0.4%，且所有文本均可直接导入医院质控系统进行AI辅助审核。

3.3 教学场景：构建科室专属语音知识库

教学医院需将专家查房、疑难病例讨论转化为教学资源。Fun-ASR的“识别历史”模块为此提供底层支持：

所有识别结果（含原始音频路径、规整文本、热词列表、ITN开关状态）持久化存储于本地SQLite数据库webui/data/history.db；
支持按关键词（如“肺栓塞”“抗凝治疗”）全文检索，快速定位相关讨论片段；
导出JSON格式后，可接入内部知识图谱系统，自动提取“疾病-药物-检查”三元组。

某肿瘤中心已积累1726条专家讨论记录，系统自动聚类出“免疫治疗不良反应管理”“靶向药耐药机制”等12个知识主题，成为青年医师随访学习的核心素材库。

4. 稳定性与安全：医疗级应用的底线保障

4.1 无惧长时录音：VAD+分段识别的双重保险

医生录制的查房录音常达2–3小时，直接送入模型易触发显存溢出。Fun-ASR采用“VAD粗筛 + 模型精识”双阶段策略：

VAD模块先扫描整段音频，标记所有语音活动区间（如[0:42–2:15]、[3:08–5:44]）；
系统将每个区间截取为独立音频段，限制单段最长30秒（可配置）；
分段送入Fun-ASR-Nano-2512模型识别，结果按时间戳拼接。

该机制使单次处理上限从传统方案的20分钟跃升至无限制，且显存占用恒定在1.8GB以内（RTX 3060实测）。某神经内科处理一份142分钟的MDT多学科会诊录音，全程无中断，总耗时11分23秒。

4.2 数据零外泄：从架构到存储的全链路隔离

医疗数据安全无小事。Fun-ASR在设计上贯彻“物理隔离”原则：

网络层：默认绑定127.0.0.1，仅限本机访问；如需科室共享，信息科仅需修改启动脚本绑定内网IP，不开放外网端口；
存储层：所有音频文件保存于/var/www/funasr/audio/目录，识别文本仅存数据库，原始音频可配置自动清理（如7天后删除）；
审计层：history.db记录每次识别的完整元数据（时间、用户IP、文件哈希值），满足等保2.0对操作日志留存6个月的要求。

某三甲医院信息科负责人表示：“我们做过渗透测试，攻击者无法通过WebUI获取任何音频文件路径或数据库内容。它就像一个哑终端，只输出文本，不暴露任何输入源。”

4.3 故障自愈：运维友好的容错设计

医疗系统必须7×24小时可用。Fun-ASR内置多项自恢复机制：

GPU显存监控：当检测到CUDA内存使用率＞92%，自动触发“清理GPU缓存”操作，无需人工干预；
模型热重载：更新热词库或切换语言后，点击“重新加载模型”，3秒内生效，不影响其他用户任务；
断点续传：批量处理中若遇断电，重启后可从失败项继续，已成功识别的文件结果不丢失。

5. 不止于识别：构建可持续演进的临床AI工作流

Fun-ASR的价值，远不止于“把语音变文字”。它正成为医院智能化升级的连接器：

对接EMR系统：通过医院提供的API文档，信息科可编写50行Python脚本，将识别文本自动填入HIS病历指定字段；
联动质控平台：将导出的CSV病历导入质控系统，AI自动核查“主诉与诊断一致性”“检查项目完整性”等23项指标；
反哺模型优化：脱敏后的高质量识别结果（经医生确认无误），可作为增量数据微调院内专属模型，形成“使用→反馈→进化”闭环。

某省级人民医院已启动二期规划：将Fun-ASR识别的10万份门诊病历，用于训练科室专属NLP模型，目标实现“自动提取诊断依据”“智能推荐检查项目”等高阶能力。而这一切的起点，只是那一行bash start_app.sh。

6. 总结：让技术隐于无形，让医生专注医者本分

回顾Fun-ASR在医疗场景的实践，其真正突破不在于参数量或榜单排名，而在于一种克制的技术观——不追求炫目的AI能力，只解决医生最痛的那一个点。

它不生成不存在的病历内容，不替代医生的专业判断，甚至不试图理解医学逻辑。它只是无比忠诚地执行一个简单承诺：当你开口说话，它就准确听见；当你需要文字，它就即时奉上；当数据关乎生命，它就寸步不离。

这种“够用就好”的务实主义，恰恰是医疗AI落地最难能可贵的品质。当一套系统能让医生少花2小时在键盘上，多花2小时在患者床旁；当它让护士从机械转录中解放，回归观察与照护的本质；当它把敏感的健康数据牢牢锁在院墙之内——技术才真正拥有了温度。

对正在评估语音识别方案的医院信息科同仁，我们的建议很直接：不必等待“完美方案”，先用Fun-ASR跑通一个诊室、一个病区。真正的智能化，从来不是宏大的架构宣言，而是从第一份自动生成的病历开始。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

医院病历录入新方式：Fun-ASR助力医疗听录自动化