news 2026/6/6 7:14:25

python pandas操作excel

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
python pandas操作excel

Python的Pandas库是处理Excel文件的强大工具,它提供了简洁高效的接口来读取、处理和分析表格数据。下面将详细介绍使用Pandas操作Excel的核心方法、常见场景及进阶技巧。

一、安装与环境准备

使用Pandas处理Excel文件前,需要安装Pandas及相应的引擎库(如openpyxl或xlrd)。可以通过pip命令安装:

pip install pandas openpyxl

其中,openpyxl主要用于读写.xlsx格式文件(Excel 2007及以上版本),而xlrd则适用于较旧的.xls格式。

二、读取Excel文件

Pandas通过read_excel()函数读取Excel文件,并将其转换为DataFrame对象进行后续操作。

  • 基本读取
    import pandas as pd df = pd.read_excel('data.xlsx') print(df.head())
  • 读取特定工作表:通过sheet_name参数指定工作表名称或索引。
    df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
  • 读取多个工作表:可一次性读取所有工作表,返回一个以工作表名为键的字典。
    dfs = pd.read_excel('data.xlsx', sheet_name=['Sheet1', 'Sheet2'])
  • 选择性读取列:使用usecols参数仅读取需要的列,提升处理效率。
    df = pd.read_excel('data.xlsx', usecols=['A', 'C'])

三、数据处理与清洗

读取数据后,Pandas提供了丰富的数据处理功能:

  • 处理缺失值:使用dropna()删除含空值的行/列,或fillna()填充空值。
    df = df.dropna() # 删除空行 df = df.fillna(0) # 用0填充空值
  • 删除重复值drop_duplicates()可移除重复行。
  • 数据类型转换astype()方法可调整列的数据类型。
    df['Age'] = df['Age'].astype(int)
  • 数据筛选与排序:支持条件过滤和按列排序。
    filtered_df = df[df['销售额'] > 0] # 过滤 sorted_df = df.sort_values(by='日期', ascending=False) # 排序

四、写入Excel文件

使用to_excel()方法可将DataFrame写入Excel文件。

  • 基本写入
    df.to_excel('output.xlsx', index=False) # index=False避免写入行索引
  • 写入多个工作表:通过pd.ExcelWriter实现。
    with pd.ExcelWriter('output.xlsx') as writer: df1.to_excel(writer, sheet_name='Sheet1', index=False) df2.to_excel(writer, sheet_name='Sheet2', index=False)
  • 追加写入现有文件:结合openpyxl可实现向已存在文件追加数据。
    from openpyxl import load_workbook book = load_workbook('input.xlsx') with pd.ExcelWriter('input.xlsx', engine='openpyxl', mode='a') as writer: writer.book = book df_new.to_excel(writer, sheet_name='Sheet1', startrow=writer.sheets['Sheet1'].max_row, index=False)

五、进阶应用与性能优化

  • 批量文件处理:可结合os模块遍历文件夹,合并多个Excel文件。
    import os all_files = [f for f in os.listdir('folder_path') if f.endswith('.xlsx')] combined_df = pd.concat([pd.read_excel(f) for f in all_files])
  • 大数据分块读取:处理大型文件时,使用chunksize参数分块读取以减少内存占用。
    for chunk in pd.read_excel('large_file.xlsx', chunksize=10000): process(chunk)
  • 数据可视化集成:Pandas可结合Matplotlib或Seaborn生成图表,并利用openpyxlXlsxWriter将图表嵌入Excel。
  • 格式定制:通过openpyxlXlsxWriter引擎,可在写入时设置单元格格式(如字体、颜色、列宽)。

六、应用场景示例

  • 财务报表生成:自动读取原始数据,进行汇总计算后,生成带格式和图表的工作簿。
  • 数据分析报告:自动化数据清洗、分析,并输出包含透视表和图表的报告。
  • 项目管理:跟踪项目数据,自动计算进度指标并生成可视化报表。

七、库选择建议

  • Pandas:适合大多数数据处理场景,支持读写、清洗、分析,是综合性首选。
  • OpenPyXL:需精细控制单元格格式、公式或图表时使用,支持.xlsx文件的读写。
  • XlsxWriter:专注于创建和写入.xlsx文件,支持复杂图表和格式,但不支持读取。
  • xlrd/xlwt:仅处理旧版.xls格式时考虑,功能较有限。

通过上述方法,你可以高效地使用Pandas完成Excel数据的自动化处理。根据具体需求(如数据量、格式复杂度、是否需要图表)选择合适的库和技巧,能显著提升工作效率。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 4:41:41

青少年运动员慢性踝关节不稳的四周踝关节康复计划

严正声明:本博客内容仅为学习使用,不具备任何医学建议或者参考价值。如有不适,请遵医嘱。本博客所转载之内容,不能作为正式的医学参考,仅供学习 青少年运动员慢性踝关节不稳的四周踝关节康复计划 Four-Week Ankle-Reh…

作者头像 李华
网站建设 2026/5/29 19:56:52

vue基于Springboot框架的新农村自建房改造管理系统

目录已开发项目效果实现截图开发技术系统开发工具:核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式&…

作者头像 李华
网站建设 2026/6/2 21:29:59

基于C技术与SOCKET网络通信技术的局域网聊天系统

**# 基于C技术与SOCKET网络通信技术的局域网聊天系统 第一章 系统概述 在企业办公、校园协作等局域网场景中,传统即时通信工具依赖公网服务器,存在数据隐私泄露风险与网络延迟问题,而基于C技术与Socket网络通信的局域网聊天系统,通…

作者头像 李华
网站建设 2026/5/29 20:40:09

LobeChat实时流式输出实现原理剖析

LobeChat 实时流式输出实现原理剖析 在构建现代 AI 聊天应用的今天,用户早已不再满足于“发送问题、等待答案”的传统交互模式。当大语言模型(LLM)开始进入千家万户,用户体验的边界也被不断拉高——人们期望看到文字像人类打字一…

作者头像 李华
网站建设 2026/6/5 1:05:31

人人都在谈大模型,但90%的企业AI转型,都死在了数据这一关

从CEO到一线员工,几乎所有人都在热烈地讨论着大模型的最新进展和各种眼花缭乱的AI应用。我们仿佛进入了一个模型为王的时代,似乎只要接入最强的模型,就能解决所有问题。但现实是残酷的。 为什么很多企业AI项目总是做不出来? 我们也…

作者头像 李华
网站建设 2026/6/5 23:43:18

机器学习--线性回归

1、线性回归定义线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。相关关系:包含因果关系和平行关系因果关系:回归分析【原因引起结果,需要明确自变量和因变量平行关系:相关分析【无因果关系&#xf…

作者头像 李华