news 2026/4/16 17:37:19

NT的增强子数据集说明(来源于ENCODE的SREEN)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NT的增强子数据集说明(来源于ENCODE的SREEN)

来源于SCREEN网址:

https://screen.wenglab.org/

GWAS和cCRE的关系

GWAS 告诉你“哪个变异和性状/疾病有关”,cCRE 告诉你“这个变异可能通过哪个调控元件起作用”。

什么是SCREEN?

Search Candidate Regulatory Elements by ENCODE。它是一个用来查询、可视化和下载基因组调控元件注释的平台,核心是看cCREs(candidate cis-Regulatory Elements,候选顺式调控元件),比如增强子、启动子一类的调控区域。它支持human 和 mouse,可以按gene、cCRE、variant、GWAS、genomic locus来搜索。(screen.wenglab.org)

更具体地说,它主要是帮你做这些事:

  • 查某个基因附近有哪些调控元件

  • 看某个变异(比如 rs 位点)是否落在调控元件上

  • 看这些调控元件在不同细胞/组织中的活性

  • 把 cCRE 和 TF binding、染色质状态、3D genome interaction、gene expression 等信息联动起来看(screen.wenglab.org)

它背后的数据来自ENCODE。SCREEN 里最核心的是ENCODE Registry of cCREs,也就是 ENCODE 整理出的全基因组候选调控元件目录。这些 cCRE 是根据染色质可及性、组蛋白修饰、转录因子结合等实验信号定义出来的。(screen.wenglab.org)

它特别适合这些场景:

  • 你手里有一个变异,想看它是不是可能影响调控

  • 你研究一个gene,想看附近有哪些 enhancer / promoter

  • 你做GWAS / eQTL / 非编码变异功能解释

  • 你想下载一整套human/mouse cCRE 注释文件做下游分析 (screen.wenglab.org)

NT对于增强子是怎么处理的呢?

可以把这套 enhancers / enhancers_types 数据处理理解成 5 步。

1. 先从 SCREEN 拿“增强子候选区域”
这里的 SCREEN 不是序列库,而是一个人类调控元件数据库。
它里面有很多 cCRE 注释,其中和增强子最相关的两类通常是:

  • dELS: distal enhancer-like signature
  • pELS: proximal enhancer-like signature

2. 再用 Meuleman 的 DHS vocabulary 给 enhancer 分成两类
这一步是这段话里最关键的地方。

他们拿这些 enhancer 去和Meuleman et al. 的 DHS Index / Vocabulary做重叠判断:

  • 如果某个 enhancer 和 Meuleman 里被标成 Tissue invariant 的区域有重叠
    • 就把它定义为 tissue-invariant enhancer
  • 否则
    • 就定义为 tissue-specific enhancer

3. 把可变长的 enhancer 区域变成固定长度 400bp 窗口
SCREEN 里的 enhancer 区域长度本来不是固定的。
但模型输入需要固定长度,所以 NT 不会直接把原始 enhancer 区间喂进去,而是会变成固定长度的 400bp genomic sequences containing enhancers。

意思就是:

  • 只要某个 400bp 基因组窗口里包含 enhancer
  • 这个 400bp 窗口就可以作为正样本

你本地文件里也能看出来这一点,比如 enhancers/test.fna (line 1) 的头信息是:

  • chr21:25717456-25717856|1

这个窗口长度正好就是 400bp。

4. 负样本是“不和 enhancer 重叠”的 400bp 窗口
README 里写的是:

  • positive: 400bp genomic sequences containing enhancers
  • negative: all 400bp sequences not overlapping enhancers

所以负样本不是“没有组织标签的 enhancer”,而是:

  • 纯粹不和任何 enhancer 重叠的 400bp 窗口

也就是 none 类。

5. 基于同一批 400bp 窗口,构造两个任务
这一步特别重要。

我刚核了你本地数据,enhancers 和 enhancers_types 基本上是同一批坐标窗口,只是标签体系不同:

  • enhancers
    • 二分类
    • 1 = enhancer
    • 0 = none
  • enhancers_types
    • 三分类
    • tissue-specific enhancer
    • tissue-invariant enhancer
    • none

从你本地 released 数据里可以直接看出它们是对应的:

  • enhancers 训练集:15006 个正样本 + 14994 个负样本
  • enhancers_types 训练集:13922 + 1084 + 14994

这里:

  • 14994 恰好和 enhancers 的负样本数完全一样
  • 13922 + 1084 = 15006,刚好等于 enhancers 的正样本数

需要下载什么?

点击以后再处理就好了

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 17:36:39

告别烧录烦恼:Balena Etcher如何让系统镜像写入变得如此简单?

告别烧录烦恼:Balena Etcher如何让系统镜像写入变得如此简单? 【免费下载链接】etcher Flash OS images to SD cards & USB drives, safely and easily. 项目地址: https://gitcode.com/GitHub_Trending/et/etcher 你是否曾经因为制作系统启动…

作者头像 李华
网站建设 2026/4/16 17:35:08

C/C++ 知识点:| 与 || 的区别

文章目录一、|与 || 的区别1、按位或运算符 |2、逻辑或运算符 ||3、区别4、总结前言在C编程语言中,逻辑或运算符用于连接两个条件表达式,当至少有一个条件为真时,整个表达式的结果为真。C提供了两种逻辑或运算符:按位或|和逻辑或|…

作者头像 李华
网站建设 2026/4/16 17:32:34

【Linux 零基础入门】09 — cp、mv、rm 命令:复制、移动与删除

第一章 09-cp-mv-rm-命令 cp命令复制文件文件夹 cp命令可以用来复制文件或者文件夹 来自英文单词:Copy 语法: cp [-r] 参数1 参数2-r选项,可选,用于复制文件夹使用,表示递归参数1,Linux路径&#xff0…

作者头像 李华