news 2026/7/2 23:26:37

NC文章复现 | 单细胞和空间转录组学揭示前列腺癌中棒状细胞的免疫抑制效应(一):单细胞数据预处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NC文章复现 | 单细胞和空间转录组学揭示前列腺癌中棒状细胞的免疫抑制效应(一):单细胞数据预处理

搜索文献,发现一篇非常好的单细胞和空间转录组学联合分析的好文章,带有全套复现代码。从今天开始,我们就来系统学习一下。文章的题目是:Single cell and spatial transcriptomics highlight the interaction of club-like cells with immunosuppressive myeloid cells in prostate cancer。代码托管在 Github:https://github.com/akiviaho/ST-prostate

文章的主要内容前面已经作了简要介绍:

全套复现代码 | 单细胞和空间转录组学,揭示前列腺癌耐药性的新驱动因素

本研究揭示了棒状细胞导致的前列腺癌耐药恶性循环,如下图所示:

如果你对这篇文章的复现感兴趣,可以加我微信:usegalaxy,拉你入群一块交流。

我们先来看一下文章用到的主要数据。

文章数据

该研究涉及空间转录组(ST)、单细胞转录组(scRNA-seq)参考集及外部验证数据。

  1. 1. 空间转录组数据 (ST):
    ◦ 发现队列:包含 80 个新鲜冷冻组织切片(来自 56 名患者),涵盖良性(BPH)、初治(TRNA)、新辅助治疗(NEADT)和去势抵抗(CRPC)阶段。数据已上传至 GEO,登录号为 GSE278936。
    ◦ 验证队列:来自 8 名初治患者的 32 个切片。数据存储在 EGA,登录号为 EGAD50000000603。
    ◦ 转移癌数据:包含 4 个转移灶样本(盆腔淋巴结、肝、心包、硬脑膜)。

  2. 2. 单细胞参考图谱 (scRNA-seq Reference):
    ◦ 研究整合了多项已发表的数据集(共 98 个样本、64 名患者、223,881 个细胞)来定义 26 种细胞状态。
    ◦ GEO 登录号:GSE137829, GSE141445, GSE176031, GSE185344, GSE181294;以及 SRA: PRJNA699369 和 Broad Institute 研究 SCP1244。

  3. 3. 外部 Bulk 验证数据:
    ◦ TCGA-PRAD 和 SU2C-PCF (mCRPC) 队列

数据预处理

import numpy as np import pandas as pd import scanpy as sc import anndata as ad from pathlib import Path import glob import warnings warnings.filterwarnings('ignore') import os os.chdir('/pub/sci-paper/2024_spatial_prostate')

Formatting Dong et al. 2020 data

我们先下载 dong_2020 参考数据,GEO 编号:GSE137829。需要注意的是,这个数据的 Series Matrix File(s) 文件中只有注释信息,而表达数据存在于补充文件 GSE137829_RAW.tar。解压后,得到 6 个.txt 文件:

galaxy@galaxy:/pub/sci-paper/2024_spatial_prostate/sc-reference/dong_2020$ ll -lsh *.txt 179M -rw-rw-r-- 1 galaxy galaxy 179M Sep 23 2019 GSM4089151_P1_gene_cell_exprs_table.txt 63M -rw-rw-r-- 1 galaxy galaxy 63M Sep 23 2019 GSM4089152_P2_gene_cell_exprs_table.txt 68M -rw-rw-r-- 1 galaxy galaxy 68M Sep 23 2019 GSM4089153_P3_gene_cell_exprs_table.txt 72M -rw-rw-r-- 1 galaxy galaxy 72M Sep 23 2019 GSM4089154_P4_gene_cell_exprs_table.txt 469M -rw-rw-r-- 1 galaxy galaxy 469M Aug 5 2020 GSM4711414_P5_gene_cell_exprs_table.txt 436M -rw-rw-r-- 1 galaxy galaxy 436M Aug 5 2020 GSM4711415_P6_gene_cell_exprs_table.txt

接着从文章的附件中下载注释文件:

wget https://static-content.springer.com/esm/art%3A10.1038%2Fs42003-020-01476-1/MediaObjects/42003_2020_1476_MOESM4_ESM.xlsx

稍加整理后开始合并样本数据(代码有适当调整):

import numpy as np import pandas as pd import scanpy as sc import anndata as ad from pathlib import Path import glob import warnings warnings.filterwarnings('ignore') import os os.chdir('/pub/sci-paper/2024_spatial_prostate') # Formatting Dong et al. 2020 data sc_files = glob.glob('sc-reference/dong_2020/*txt') dong_annot = pd.read_csv('sc-reference/dong_2020/dong_2020_annot.csv',sep=',',index_col=0) dong_annot = dong_annot.rename(columns={'CellType':'celltype_orig'}) # Download the files into a list and concatenate together adata_list = [] for file in sc_files: s_abbr = '_'.join(file.split('/')[2].split('_')[0:2]) df = pd.read_csv(file, sep='\t', index_col=1) df = df.iloc[:, 1:] adata = ad.AnnData(df.T) #### ADDING METADATA #### adata.obs_names = s_abbr + '_' + adata.obs_names meta = adata.obs.copy() meta['sample'] = s_abbr meta['patient'] = s_abbr meta = meta.merge(dong_annot,how='left',left_index=True,right_index=True) meta['phenotype'] = 'CRPC' meta['dataset'] = 'dong_2020' adata.obs = meta.copy() ########## adata.obs_names_make_unique() # Since the genes were originally named with ENSEMBL ID, we have to make them unique. adata.var_names_make_unique() adata_list.append(adata) adata_concat = ad.concat(adata_list, join='outer', fill_value=0) adata_concat.obs adata_concat.write('sc-reference/dong_2020/adata_obj.h5ad')

好了,我们今天先整理到这里,明天见~

推荐阅读

中国银河生信云平台(UseGalaxy.cn)致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程,并且为用户提供 200G 免费存储空间。进群交流请先加 usegalaxy 为好友。我们还为进阶用户提供高质量培训课程:

RNA-seq数据分析实战 | 2026年第1期,开启你的生信学习之旅

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/30 15:56:10

Anthropic 内部调研:132 名工程师如何把 Claude 接入 60% 工作流,并“做出多 27% 的任务”

【摘要】AI 正在重塑工程效能的定义。其核心价值已从单纯的工时压缩,转向对产出边界的实质性拓展,催生出一种以“拆解、委托、验证”为核心的人机协作新范式。引言在技术领域,关于人工智能将如何改变软件开发的讨论已持续多年。这些讨论往往在…

作者头像 李华
网站建设 2026/6/30 16:33:00

Open-AutoGLM源码编译全流程解析(附完整命令与配置清单)

第一章:Open-AutoGLM开源源码部署教程Open-AutoGLM 是一个基于 AutoGLM 架构的开源项目,旨在提供自动化自然语言理解与生成能力。该项目支持本地化部署,适用于企业级知识库问答、智能客服等场景。本文将指导如何从源码构建并部署 Open-AutoGL…

作者头像 李华
网站建设 2026/7/1 16:32:58

Dify平台企业文化宣言生成效果评测

Dify平台企业文化宣言生成效果评测 在企业数字化转型加速的今天,如何快速、一致且专业地构建品牌形象,已成为组织竞争力的重要一环。其中,企业文化宣言这类“软实力”内容——看似简单的一段话,实则承载着企业的使命、价值观与战略…

作者头像 李华
网站建设 2026/7/1 6:49:01

A.每日一题——3075. 幸福值最大化的选择方案

题目链接:3075. 幸福值最大化的选择方案(中等) 算法原理: 解法:贪心 45ms击败52.13% 时间复杂度O(Nlogn) 升序排序后,从后往前遍历,先挑最大的,每挑一次会减少1,那么挑了…

作者头像 李华
网站建设 2026/7/2 9:09:17

13、.NET Remoting技术详解:从基础到实践

.NET Remoting技术详解:从基础到实践 1. 引言 在分布式应用开发领域,.NET Remoting是一项重要的技术。它是微软分布式COM(DCOM)技术在.NET世界的继任者,为.NET开发者提供了一种在不同进程甚至不同机器之间进行对象调用的方式。对于有DCOM开发经验的开发者来说,Remoting…

作者头像 李华
网站建设 2026/7/1 15:52:00

16、《.NET 中 COM 与 Win32 API 的使用指南》

《.NET 中 COM 与 Win32 API 的使用指南》 1. .NET 与现有技术交互的必要性 在 Windows 领域,.NET 框架是个新成员。在未来一段时间里,.NET 应用程序需要与现有的 Windows 技术进行交互,特别是在组件对象模型(COM)和 Windows 应用程序编程接口(API)这两个方面。 COM …

作者头像 李华