news 2026/5/4 9:04:43

Biomed-Enriched:具有 LLM 注释的大型生物医学数据集,具有临床和教育价值

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Biomed-Enriched:具有 LLM 注释的大型生物医学数据集,具有临床和教育价值

概述

本研究以 PubMed Central Open Access(PMC-OA)语料库为基础,提出了一个新的生物医学数据集 Biomed-Enriched,该数据集采用了基于 LLM 的分阶段注释。

虽然 LLM 在各种任务中普遍表现出很高的性能,但在医学和生物医学领域却缺乏专业性和术语准确性。
造成这种情况的原因之一是,训练数据主要来自网络,而专业领域的信息很少。特别是,由于隐私限制,临床数据很难公布,非英语数据也很少。

在本研究中,在 PMC-OA 中的约 1.3 亿个段落中,有 40 万个段落首先使用 Llama-3.1-70B-Instruct 进行了注释,然后将标签提炼成 XLM-RoBERTa-base 并应用于整个语料库。
这样,通过为每个段落分配类型(研究、临床案例、评论等)、领域(临床、生物医学、其他)和教育价值(1-5),就能提取高质量的临床案例和多语言片段。

实验表明,对临床句子进行上采样并根据教育价值进行筛选可提高医学质量保证的性能和学习效率。

建议的方法

拟议的方法 "Biomed-Enriched "具有逐段精确注释和数据过滤的特点。

在数据收集阶段,从 PMC-OA 中提取了约 450 万篇全文文章,删除了非文本元素,还剔除了少于 64 个标记的短句。

然后分两个阶段进行注释。

在第一阶段,使用 Llama-3.1-70B-Instruct 为随机选取的 400 000 个段落分配文本类型(临床病例、研究、综述或其他)、领域分类(临床、生物医学或其他)、教育价值(1-5 分)和语言。

第二步,将得到的注释提炼成 XLM-RoBERTa-base,并对所有段落进行有效分类。根据注释结果,BE-Educational(只保留教育值为 3 或更高的段落)、BE-Clinical(将临床领域的采样率提高 10 倍)、BE-ClinicalCase(增强临床案例)、BE-French(纠正多语言平衡)等。我们还构建了多个数据集衍生物。

我们还创建了 “BE-Prefix”,在段落开头提供注释元数据,并设计了将元信息与上下文关联起来的模型。

实验

在评估实验中,我们使用 OLMo2-7B-stage 1 作为基础模型,并在每个 Biomed-Enriched 派生数据集上训练了 3360 亿个额外标记。

结果与 BE-Base(未经处理的 PMC-OA)以及各种过滤和上采样版本进行了比较。
使用的评估指标包括 MMLU 医疗子集、MedQA、MedMCQA 和 PubMedQA,以及衡量法语适应性的 FrenchMedMCQA,并以零或五次拍摄来衡量性能。

结果显示,采用组合策略的 BE-All 表现最佳,平均得分率为 61.08%,比 BE-Base 提高了 0.67 分。其中,临床向上取样在 MMLU 专业医学中提高了 +4.04 分,教育价值筛选在 MedMCQA 和 PubMedQA 中有稳定的提高。

此外,BE-All 只用了 BE-Base 约三分之一的训练词块就达到了与之相当的性能,这证明了其较高的数据效率。
此外,BE-French 在使用 FrenchMedMCQA 时取得了显著的性能提升,证明了多语言支持的有效性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 2:48:31

Wan2.2-T2V-A14B服务雪崩?反脆弱LLM运维指南

Wan2.2-T2V-A14B服务雪崩?反脆弱LLM运维指南从一次崩溃说起:当视频生成卡在第8秒 凌晨两点,系统监控突然报警。你揉着发酸的眼睛点开告警详情——Wan2.2-T2V-A14B 的 GPU 内存使用率冲上 99%,请求队列堆积超过 300,P99…

作者头像 李华
网站建设 2026/5/3 9:24:53

Qwen-Image可商用吗?是否需要署名?

Qwen-Image可商用吗?是否需要署名? 在广告公司通宵赶制新年海报时,设计师突然发现客户要求的“汉服少女外滩夜景赛博朋克”组合,竟被AI一键生成——画面连霓虹灯牌上的中英双语文字都精准呈现,破损墙面自动修复&#x…

作者头像 李华
网站建设 2026/4/30 23:48:58

FLUX.1-dev显存优化实战:低配GPU高效生成

FLUX.1-dev显存优化实战:低配GPU高效生成在RTX 3060、RX 6700 XT甚至移动版笔记本显卡成为主流创作工具的今天,一个现实问题摆在面前:为什么我们手握“旗舰级”硬件,却依然无法流畅运行FLUX.1-dev? 官方宣称的18GB显存…

作者头像 李华
网站建设 2026/5/2 7:35:23

Jetson Nano配置PaddlePaddle并实现OCR测试

Jetson Nano 上从零部署 PaddlePaddle 与中文 OCR 实践 在嵌入式 AI 应用日益普及的今天,如何在资源受限的边缘设备上实现高效、稳定的深度学习推理,成为开发者面临的核心挑战之一。NVIDIA Jetson Nano 凭借其小巧体积、低功耗和 GPU 加速能力&#xff…

作者头像 李华
网站建设 2026/5/2 0:25:44

42、Perl引用的使用与嵌套数据结构构建

Perl引用的使用与嵌套数据结构构建 1. 引用基础与子程序参数传递 在Perl中,引用是一个强大的工具。当修改 @array2 时,它不会影响 @array1 ,因为它们是内容独立的不同数组。而 $arrayref 中对 @array1 的引用,会和 @array1 的当前内容相同,因为引用指向的是和 …

作者头像 李华
网站建设 2026/4/30 23:47:28

Wan2.2-T2V-5B预训练权重开放,支持本地部署

Wan2.2-T2V-5B预训练权重开放,支持本地部署 你有没有过这样的经历? 灵感突然闪现,想做个短视频验证想法,结果刚写完脚本就卡在了渲染上——等了半小时,视频还没跑完,热情早已冷却。 但现在不一样了。 最…

作者头像 李华