来源于SCREEN网址:
https://screen.wenglab.org/
GWAS和cCRE的关系
GWAS 告诉你“哪个变异和性状/疾病有关”,cCRE 告诉你“这个变异可能通过哪个调控元件起作用”。
什么是SCREEN?
Search Candidate Regulatory Elements by ENCODE。它是一个用来查询、可视化和下载基因组调控元件注释的平台,核心是看cCREs(candidate cis-Regulatory Elements,候选顺式调控元件),比如增强子、启动子一类的调控区域。它支持human 和 mouse,可以按gene、cCRE、variant、GWAS、genomic locus来搜索。(screen.wenglab.org)
更具体地说,它主要是帮你做这些事:
查某个基因附近有哪些调控元件
看某个变异(比如 rs 位点)是否落在调控元件上
看这些调控元件在不同细胞/组织中的活性
把 cCRE 和 TF binding、染色质状态、3D genome interaction、gene expression 等信息联动起来看(screen.wenglab.org)
它背后的数据来自ENCODE。SCREEN 里最核心的是ENCODE Registry of cCREs,也就是 ENCODE 整理出的全基因组候选调控元件目录。这些 cCRE 是根据染色质可及性、组蛋白修饰、转录因子结合等实验信号定义出来的。(screen.wenglab.org)
它特别适合这些场景:
你手里有一个变异,想看它是不是可能影响调控
你研究一个gene,想看附近有哪些 enhancer / promoter
你做GWAS / eQTL / 非编码变异功能解释
你想下载一整套human/mouse cCRE 注释文件做下游分析 (screen.wenglab.org)
NT对于增强子是怎么处理的呢?
可以把这套 enhancers / enhancers_types 数据处理理解成 5 步。
1. 先从 SCREEN 拿“增强子候选区域”
这里的 SCREEN 不是序列库,而是一个人类调控元件数据库。
它里面有很多 cCRE 注释,其中和增强子最相关的两类通常是:
- dELS: distal enhancer-like signature
- pELS: proximal enhancer-like signature
2. 再用 Meuleman 的 DHS vocabulary 给 enhancer 分成两类
这一步是这段话里最关键的地方。
他们拿这些 enhancer 去和Meuleman et al. 的 DHS Index / Vocabulary做重叠判断:
- 如果某个 enhancer 和 Meuleman 里被标成 Tissue invariant 的区域有重叠
- 就把它定义为 tissue-invariant enhancer
- 否则
- 就定义为 tissue-specific enhancer
3. 把可变长的 enhancer 区域变成固定长度 400bp 窗口
SCREEN 里的 enhancer 区域长度本来不是固定的。
但模型输入需要固定长度,所以 NT 不会直接把原始 enhancer 区间喂进去,而是会变成固定长度的 400bp genomic sequences containing enhancers。
意思就是:
- 只要某个 400bp 基因组窗口里包含 enhancer
- 这个 400bp 窗口就可以作为正样本
你本地文件里也能看出来这一点,比如 enhancers/test.fna (line 1) 的头信息是:
- chr21:25717456-25717856|1
这个窗口长度正好就是 400bp。
4. 负样本是“不和 enhancer 重叠”的 400bp 窗口
README 里写的是:
- positive: 400bp genomic sequences containing enhancers
- negative: all 400bp sequences not overlapping enhancers
所以负样本不是“没有组织标签的 enhancer”,而是:
- 纯粹不和任何 enhancer 重叠的 400bp 窗口
也就是 none 类。
5. 基于同一批 400bp 窗口,构造两个任务
这一步特别重要。
我刚核了你本地数据,enhancers 和 enhancers_types 基本上是同一批坐标窗口,只是标签体系不同:
- enhancers
- 二分类
- 1 = enhancer
- 0 = none
- enhancers_types
- 三分类
- tissue-specific enhancer
- tissue-invariant enhancer
- none
从你本地 released 数据里可以直接看出它们是对应的:
- enhancers 训练集:15006 个正样本 + 14994 个负样本
- enhancers_types 训练集:13922 + 1084 + 14994
这里:
- 14994 恰好和 enhancers 的负样本数完全一样
- 13922 + 1084 = 15006,刚好等于 enhancers 的正样本数
需要下载什么?
点击以后再处理就好了