news 2026/5/3 5:06:06

SEER癌症数据库(The Surveillance, Epidemiology, and End Results)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SEER癌症数据库(The Surveillance, Epidemiology, and End Results)

SEER数据库(The Surveillance, Epidemiology, and End Results)

发布时间:2023-12-22浏览量:1901

1. 数据集名称:

SEER(The Surveillance,Epidemiology,and End Results)

2. 数据集基本情况:

•项目背景:

–SEER是美国国家癌症研究所(National Cancer Institute,NCI)创建的一个公共数据库和研究资源。SEER数据库收集和储存了全美范围内的癌症发病率、生存率和治疗数据,以支持癌症研究和流行病学调查。

–起始年份:1975年

–追踪调查年份:1975-2020年,数据每年更新。

–数据特征:

•SEER目前覆盖约48.0%美国人口的基于人群癌症登记册中收集和发布癌症的发病率和生存信息,覆盖约42.0%的白人,44.7%的非裔美国人、66.3%的西班牙裔、59.9%的美国印第安人和阿拉斯加原住民,70.7%的亚洲人和70.3%的夏威夷/太平洋岛民。

•SEER登记处定期收集有关患者人口学、原发肿瘤部位、肿瘤形态和诊断阶段、第一疗程的生命状态的随访数据,包括诊断时的癌症阶段和患者生存信息。

•样本量:

–SEER数据库涵盖了多个数据集,以8个注册处的SEER研究数据为例,SEER8覆盖了约8.3%的美国人口,大多数年份可用,但地理覆盖范围最小。是包含4917840个肿瘤的分别的记录,并且提供了两个年龄组:19 age groups(<1year,1-4 years,5-9 years,...85+ years)和single ages with 85+两个组。

–其中SEER8(2020)记录了148821份案例,SEER8(1975-2020)记录了4917840份案例

–SEER12(2020)记录了204297份案例,SEER(1992-2020)记录了5242485份案例。

–SEER17(2020)记录了466316份案例,SEER17(2000-2020)记录了9208295份案例

–SEER22(2020)记录了838085份案例,SEER22(2000-2020)记录了16683417份案例。

•数据类型:

–患者基线信息:一岁以下儿童的年龄纪录、种族(白、黑或其他)、性别、州县、年龄、确诊时的婚姻状况等

–癌症信息:诊断年份、首个恶性一级指标、跟踪记录的年份、死亡年份、患者良性肿瘤/交界性肿瘤总数、患者的原位/恶性肿瘤总数

–生物医学指标数据:ICD-O-3行为编码、淋巴肿瘤重新编码等

–社会信息:县级属性

•要求/限制

–数据目前截止到2020年

–已删除隐私信息(姓名、住址和日期等)

–如果SEER没有捕获治疗数据,则无法知道患者是否接受了治疗,或者注册处是否错过了治疗信息,由于无法准确区分“未治疗”和“患者是否接受治疗未知”,要求相关的变量被归类为“是”或“否/未知”。

–某些类型的治疗数据(即化疗、荷尔蒙疗法、放射疗法)不太完整,如果缺少治疗信息,治疗日期很可能也缺失。

–在使用手术系统治疗和放射治疗变量来识别可能接受新辅助治疗的患者时要小心,因为本数据库中的手术可以指任何手术相关数据项中记录的任何手术过程;且虽然变量报告手术和其他治疗方式的顺序,但并不考虑事件的事件;有可能缺少有关辐射或系统治疗的信息,导致可能会低估新辅助治疗的频率。

–由于日期变量不可用,所以从诊断到治疗的几个月的时间的计算不准确,且SEER治疗数据目前仅限于第一疗程治疗模型,即从诊断到治疗的时间是第一疗程的时间。

–注:新辅助指在治疗手术前提供的系统治疗,目的是在手术前使肿瘤缩小,以在后续得到更好的疗效。

3. 数据申请网站:

lSEER Incidence Data:https://seer.cancer.gov/data/

4. 申请流程:

l在SEER官网(https://seer.cancer.gov/data/)发起访问请求并注册,接下来根据邮件提示完成注册和申请即可。

l申请成功以后便可以下载SEER*Stat以获取数据。

更多文章

  • 人类肠道菌群基因组数据库(FinnGen)
  • 重症医学数据库(The Medical Information Mart for Intensive Care Ⅳ,MIMIC-Ⅳ)
  • SEER数据库(The Surveillance, Epidemiology, and End Results)
  • 威斯康星大学乳腺癌诊断数据(Wisconsin Diagnostic Breast Cancer,WDBC)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 17:09:35

病理AI大模型登顶《Nature》,癌症诊断迎来新纪元

病理AI大模型登顶《Nature》&#xff0c;癌症诊断迎来新纪元 医派智能 2025年2月7日 14:57 浙江 病理诊断作为临床诊断的重要依据&#xff0c;不管从学术的角度还是应用的角度&#xff0c;利用大模型提高诊断精度&#xff0c;加速诊断过程,提高临床决策的准确性&#xff0c;减…

作者头像 李华
网站建设 2026/5/1 3:45:19

CUDA驱动不匹配?Miniconda-Python3.10镜像自动检测修复机制

CUDA驱动不匹配&#xff1f;Miniconda-Python3.10镜像自动检测修复机制 在深度学习项目开发中&#xff0c;最令人头疼的场景之一莫过于&#xff1a;代码写完、模型设计妥当&#xff0c;一运行却提示 CUDA not available。反复检查 PyTorch 是否装错版本、nvidia-smi 能否执行、…

作者头像 李华
网站建设 2026/5/3 3:00:17

计算机Java毕设实战-基于Spring Boot的四季鲜蔬果园电商平台设计与实现基于SpringBoot的“鲜蔬坊”蔬菜销售平台【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/5/1 4:16:08

大数据环境下数据一致性的复制保障机制

大数据环境下数据一致性的复制保障机制&#xff1a;从“超卖危机”到“全局同步”的底层逻辑 一、引入&#xff1a;一场“超卖”引发的思考——为什么数据复制需要“一致性”&#xff1f; 1. 一个真实的场景&#xff1a;电商平台的“超卖惨案” 2023年某电商大促期间&#xff0…

作者头像 李华
网站建设 2026/5/1 4:59:21

科研团队协作首选:统一Miniconda-Python3.10环境杜绝差异

科研团队协作首选&#xff1a;统一Miniconda-Python3.10环境杜绝差异 在一次多校联合的AI项目中&#xff0c;团队成员提交了各自训练好的图像分类模型。结果却令人困惑&#xff1a;同样的代码&#xff0c;在A同学的机器上准确率92%&#xff0c;到了B同学的服务器上却报错“CUDA…

作者头像 李华
网站建设 2026/5/1 12:38:29

使用Miniconda-Python3.10镜像构建可复现的AI论文实验环境

使用Miniconda-Python3.10镜像构建可复现的AI论文实验环境 在深度学习研究中&#xff0c;一个令人沮丧但又极其常见的场景是&#xff1a;某篇论文声称取得了突破性成果&#xff0c;代码也已开源&#xff0c;但当你尝试在自己的机器上运行时&#xff0c;却因为各种依赖冲突、版本…

作者头像 李华