news 2026/5/30 22:15:54

Python---pandas

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python---pandas

一、Pandas 显示设置 (Option)

这些命令决定了你在屏幕上看到数据的样子,通常放在脚本的最开头。

命令解读代码示例
显示所有列别让中间的列变成省略号...pd.set_option('display.max_columns', None)
显示所有行慎用!数据量大时会刷屏pd.set_option('display.max_rows', None)
内容不截断让长文本(如路径)完整显示pd.set_option('display.max_colwidth', None)
自动换行控制防止表格太宽被强行折叠pd.set_option('display.width', 1000)
查看设置说明忘记参数怎么写时查阅说明书pd.describe_option('display')

二、 核心工具:Pandas 常用操作命令

1. 数据概览(初步体检)

在处理单细胞数据(如muxu.obs)时,先看一眼表格的结构。

importpandasaspd df=muxu.obs# 假设 df 是你的样本信息表print(df.head(10))# 查看前 10 行print(df.columns)# 查看所有的列名print(df.info())# 查看每列的类型、是否有空值print(df.shape)# 查看表格的大小(行数, 列数)
2. 数据统计(摸清家底)

统计每个类别出现的频率。

# 统计每个细胞类型有多少个细胞print(df['celltype'].value_counts())# 统计每个样本(batch)的分布print(df['batch'].value_counts())# 查看数值列(如 nCount_RNA)的平均值、标准差、最大最小值print(df['nCount_RNA'].describe())
3. 数据筛选(精准定位)

从几万行数据中选出你想要的。

# 选出所有属于 CD 组的细胞cd_data=df[df['orig.ident']=='CD']# 选出 Cortex 且 RNA 计数大于 500 的细胞filtered_data=df[(df['celltype']=='Cortex')&(df['nCount_RNA']>500)]
4. 数据修改(手术修整)

给表格增加信息或改名。

# 修改列名:把 'orig.ident' 改为 'Group'df=df.rename(columns={'orig.ident':'Group'})# 新增一列:提取细胞 ID 的前缀df['sample_prefix']=df.index.str.split('_').str[0]

三、 针对你的项目:快速检查muxu数据

你可以直接把这段代码粘贴到你的 Python 环境中运行:

importpandasaspdimportscanpyassc# 1. 极简显示配置pd.set_option('display.max_columns',None)pd.set_option('display.width',1000)# 2. 读取数据adata=sc.read_h5ad("muxu.h5ad")df=adata.obs# 3. 核心三连看print("--- 1. 前 5 行预览 ---")print(df.head())print("\n--- 2. 所有列名清单 ---")print(df.columns.tolist())print("\n--- 3. 实验设计验证 ---")if'batch'indf.columns:print(df['batch'].value_counts())else:print("警告:未发现 batch 列,可能需要手动从 index 提取!")

💡 小贴士

  • **点号.与中括号[]**df['celltype']df.celltype大部分时候是一样的,但如果列名里有空格或特殊符号,必须用['列名']
  • 不改变原数据:绝大多数 pandas 操作(如rename,dropna)默认不修改原表格,而是返回一个新表格。所以记得写成df = df.rename(...)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 21:14:05

【信号处理】HST水平同步压缩变换附Matlab复现含文献

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

作者头像 李华
网站建设 2026/5/28 22:43:10

Python 精确计算:告别浮点数陷阱,decimal 模块实战指南

目录Python 精确计算:告别浮点数陷阱,decimal 模块实战指南第一章:浮点数的“原罪”:为什么你的计算结果总是怪怪的?1.1 罪魁祸首:IEEE 754 标准1.2 什么时候我们需要绝对精确?第二章&#xff1…

作者头像 李华
网站建设 2026/5/28 16:34:55

SMBus状态码说明:入门级错误处理指南

让总线“说话”:SMBus状态码实战解析与嵌入式调试心法你有没有遇到过这样的场景?系统上电后,温度传感器读数始终为0,电池信息无法获取,内存SPD数据抓不到……你以为是软件逻辑出了问题,翻遍代码却找不到bug…

作者头像 李华
网站建设 2026/5/28 15:37:20

从零搭建鲲鹏 HPC 环境:从朴素矩阵乘法到高性能实现

一、引言 高性能计算(HPC)是科学研究和工程应用的重要支撑,而矩阵运算是 HPC 领域最基础也最重要的操作之一。本文将通过一个简单但实用的案例,矩阵乘法的并行优化,从零开始在鲲鹏平台上进行 HPC 开发实践。 二、环境准…

作者头像 李华
网站建设 2026/5/29 1:27:54

独立IP服务器有哪些常见的应用场景?

独立IP服务器凭借其专属IP地址、高安全性和稳定性,在多个关键业务场景中发挥着重要作用。以下是独立IP服务器的主要应用场景:一、大型企业网站与电商平台独立IP服务器是大型企业官网和电商平台的首选方案。对于日均访问量百万级的企业网站,独…

作者头像 李华
网站建设 2026/5/28 21:08:52

DDACLSys.dll文件丢失找不到问题 免费下载分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华