news 2026/6/6 20:44:52

Pandas库基础概念和基础操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Pandas库基础概念和基础操作

Pandas 是 Python 中用于数据分析和处理最流行的开源库之一,建立在 NumPy 之上,提供了高性能、易用的数据结构和数据分析工具。它特别适合处理结构化数据(如表格型或异质型数据)。以下是 Pandas 的基础概念详细介绍:


一、核心数据结构

Pandas 主要有两个核心数据结构:

1.Series

  • 一维带标签的数组,可以保存任何数据类型(整数、字符串、浮点数、Python 对象等)。
  • 类似于带索引的 NumPy 数组。
  • 每个元素都有一个对应的标签(称为 index)。
importpandasaspd s=pd.Series([1,3,5,7],index=['a','b','c','d'])print(s)

输出:

a 1 b 3 c 5 d 7 dtype: int64

特点:

  • 自动对齐索引(在运算时非常有用)
  • 支持向量化操作
  • 可以看作是字典和数组的结合体

2.DataFrame

  • 二维表格型数据结构,类似于 Excel 表格或 SQL 表。
  • 每列可以是不同的数据类型(但同一列内类型一致)。
  • 具有行索引(index)和列索引(columns)。
df=pd.DataFrame({'Name':['Alice','Bob','Charlie'],'Age':[25,30,35],'City':['New York','Paris','Tokyo']})print(df)

输出:

Name Age City 0 Alice 25 New York 1 Bob 30 Paris 2 Charlie 35 Tokyo

特点:

  • 列可命名,支持按列名访问(如df['Name']
  • 支持多种数据输入格式(字典、列表、NumPy 数组、CSV 文件等)
  • 提供丰富的数据操作方法(筛选、分组、合并、透视等)

二、基本操作

1.创建 DataFrame

  • 从字典、列表、NumPy 数组、CSV/Excel 文件等创建。
# 从 CSV 读取df=pd.read_csv('data.csv')# 从字典创建data={'col1':[1,2],'col2':[3,4]}df=pd.DataFrame(data)

2.查看数据

df.head()# 查看前5行df.tail(3)# 查看后3行df.info()# 显示数据概要(类型、非空值等)df.describe()# 统计摘要(均值、标准差、四分位数等)df.shape# 返回 (行数, 列数)

3.索引与选择

  • 按列选择
    df['Name']# 返回 Seriesdf[['Name','Age']]# 返回 DataFrame
  • 按行选择
    df.loc[0]# 按标签索引(第0行)df.iloc[0]# 按位置索引(第0行)df.loc[0:1,'Name':'City']# 标签切片

4.条件筛选

df[df['Age']>25]df[(df['Age']>25)&(df['City']=='Tokyo')]

注意:使用&|而不是andor,且条件需加括号。


三、数据清洗常用操作

1.处理缺失值

df.isnull()# 检查缺失值(返回布尔 DataFrame)df.dropna()# 删除含缺失值的行df.fillna(0)# 用0填充缺失值df.fillna(method='ffill')# 前向填充

2.去重

df.duplicated()# 检查重复行df.drop_duplicates()# 删除重复行

3.数据类型转换

df['Age']=df['Age'].astype('float')pd.to_datetime(df['date_column'])# 转换为日期时间

四、数据操作进阶

1.分组(GroupBy)

df.groupby('City')['Age'].mean()
  • 类似 SQL 中的GROUP BY
  • 支持聚合函数:sum(),mean(),count(),agg()

2.合并与连接

  • pd.concat():沿轴拼接多个 DataFrame
  • pd.merge():类似 SQL 的 JOIN 操作
pd.merge(df1,df2,on='key')

3.透视表(Pivot Table)

pd.pivot_table(df,values='Age',index='City',aggfunc='mean')

五、时间序列支持

Pandas 对时间序列有强大支持:

ts=pd.date_range('2025-01-01',periods=10,freq='D')df=pd.DataFrame({'value':range(10)},index=ts)df.resample('W').sum()# 按周重采样

六、性能与注意事项

  • 向量化优于循环:尽量使用内置方法而非 for 循环。
  • 避免链式赋值:如df[df.A > 2]['B'] = new_val可能引发警告,应使用.loc
  • 内存优化:对于大文件,可使用dtype参数指定列类型,或使用chunksize分块读取。

总结

概念说明
Series一维带标签数组
DataFrame二维表格结构,核心分析对象
Index行/列标签,支持快速查找和对齐
Vectorized Operations高效的批量计算
Data I/O支持 CSV、Excel、JSON、SQL 等多种格式

掌握这些基础概念后,你就可以高效地进行数据加载、清洗、探索和分析了。

如需进一步学习,可参考官方文档:https://pandas.pydata.org/docs/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 18:12:35

Langchain-Chatchat结合FastAPI构建高性能后端

Langchain-Chatchat 结合 FastAPI 构建高性能后端 在企业智能化升级的浪潮中,一个现实问题日益凸显:员工每天要面对堆积如山的内部文档——HR政策、IT操作手册、财务报销流程……而真正需要时,却总是“翻了半天找不到”。与此同时&#xff0c…

作者头像 李华
网站建设 2026/6/5 8:13:27

Langchain-Chatchat实现科研资料智能问答的可行性分析

Langchain-Chatchat实现科研资料智能问答的可行性分析 在现代科研环境中,知识的积累速度远超个体消化能力。一个课题组几年内可能产出上百份研究报告、实验记录和文献综述,而新成员往往需要数月时间才能“读懂”团队的历史脉络。更棘手的是,关…

作者头像 李华
网站建设 2026/6/6 3:36:33

Langchain-Chatchat如何动态调整检索top-k值?

Langchain-Chatchat如何动态调整检索top-k值? 在构建企业级本地知识库问答系统时,一个常被低估但极具影响的细节浮出水面:该返回多少条检索结果? 这个问题看似简单——不就是设置个 top-k3 或 k5 就完事了吗?但在真实…

作者头像 李华
网站建设 2026/6/2 22:41:29

Langchain-Chatchat常见报错解决方案汇总大全

Langchain-Chatchat常见报错解决方案汇总大全 在企业知识管理、智能客服和私有化部署的浪潮中,基于大模型的知识问答系统正成为核心技术支柱。然而,通用云端模型难以满足金融、医疗等行业对数据隐私的严苛要求——文档上传即风险,信息外泄无从…

作者头像 李华
网站建设 2026/6/5 14:37:20

Langchain-Chatchat实现多文档交叉引用回答的机制

Langchain-Chatchat 实现多文档交叉引用回答的机制 在企业知识管理日益复杂的今天,一个常见的挑战是:如何让AI准确回答“项目A的预算和负责人是谁?”这类问题——它看似简单,但答案可能分散在《年度财务报告》和《组织架构调整通知…

作者头像 李华
网站建设 2026/6/2 17:24:53

Langchain-Chatchat支持多种文档格式的智能解析方法详解

Langchain-Chatchat支持多种文档格式的智能解析方法详解 在企业知识管理日益复杂的今天,如何让散落在各个角落的PDF、Word和TXT文档真正“活”起来,成为员工随时可调用的智能助手?这不仅是技术挑战,更是组织效率变革的关键。尤其在…

作者头像 李华