news 2026/2/5 16:55:01

办公室中的Python课 P16 【透视大师】Pandas:分组与聚合统计 (groupby)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
办公室中的Python课 P16 【透视大师】Pandas:分组与聚合统计 (groupby)

📂 P16 【透视大师】Pandas:分组与聚合统计 (groupby)

🎯 学习目标:

  • 理解分组逻辑:掌握“拆分 (Split) - 应用 (Apply) - 合并 (Combine)”的三个步骤。
  • 基础聚合:按类别计算总和(sum)、平均值(mean)、计数(count)等。
  • 多重统计:学会一次性得出最大值、最小值、中位数等多个指标。
  • AI 协作:利用通义灵码快速生成复杂的部门业绩汇总报告。

🌟 引导词

“在办公室里,老板很少看具体的流水账,他们想看的是:‘各部门的平均工资是多少?’、‘每个季度的销售总额是多少?’、‘哪个地区的退货率最高?’
这种把数据‘打包’并算出统计结果的操作,就是分组与聚合
以前你可能需要在 Excel 里不停地拉透视表,或者写复杂的SUMIFS函数。在这一课,你将学会如何用一行简洁的代码,瞬间对几万行数据进行多维度‘盘点’。**


一、分组聚合的三步走:Split-Apply-Combine

Pandas 处理groupby的逻辑非常科学:

  1. 拆分 (Split):根据你指定的“列”(如部门),把数据分成 A、B、C 三堆。
  2. 应用 (Apply):对每一堆数据执行计算(如求和、算平均值)。
  3. 合并 (Combine):把结果拼在一起,变回一张整齐的报表。

[Image illustrating the Split-Apply-Combine pattern in Pandas]


二、实战演练:一行代码出报表

假设我们有一个销售表df,包含“部门”、“员工姓名”和“销售额”。

1. 最简单的统计:按部门算总销售额
importpandasaspd# 语法:df.groupby('分组列')['计算列'].计算函数()result=df.groupby('部门')['销售额'].sum()print(result)
2. 同时看多个指标:使用.agg()

如果你想同时看到平均值、最高值和人数:

# agg 是 aggregate(聚合) 的缩写report=df.groupby('部门')['销售额'].agg(['mean','max','count'])print(report)
3. 多维度分组:部门内再分性别
# 传入一个列表即可实现多层级分组multi_report=df.groupby(['部门','性别'])['销售额'].mean()

三、手把手 AI 实战:自动化月报生成

当你遇到复杂的统计需求(如:计算同比增长、占比)时,通义灵码能帮你写出最优雅的写法。

1. Ask 模式:生成复杂的统计脚本
  • 操作:输入指令:

我有一个 df,包含 '日期', '产品类别', '利润'。请帮我写 Pandas 代码:1. 按月份和产品类别分组;2. 计算利润的总和;3. 找出每个月利润最高的产品类别。

  • AI 价值:它会帮你写出pd.Grouper处理日期分组,以及idxmax()这种高级定位函数。
2. Edit 模式:快速格式化汇总表
  • 操作:选中一段groupby的代码。
  • 动作:右键 ->通义灵码->智能编辑
  • 指令帮我把生成的汇总结果转换为普通的 DataFrame(使用 reset_index),并重命名列名为 '总利润' 和 '平均单价'。
  • 效果:让统计结果直接变回漂亮的表格格式,方便保存。
3. Agent 模式:全自动汇总并发送
  • 操作:输入/agent
  • 指令读取 data 文件夹下所有的 Excel,合并后按‘地区’汇总销售总额,生成一个饼图图片,最后把汇总表保存为 Excel。

🛠️ 课后练习

  1. 新建P16_groupby_report.py
  2. 模拟实验
  • 读取一个包含“部门”、“职位”、“工资”的表格。
  • 统计每个部门的平均工资。
  • 统计每个职位的人数。
  • 进阶挑战:计算每个部门中最高工资和最低工资的差额(提示:可以自定义函数或使用agg)。

总结与预告

  • groupby:数据处理的核心指挥官。
  • sum/mean/count:最常用的统计武器。
  • agg:让你的统计报表瞬间变专业。

[下一篇 (P17),我们将进入第二部分的另一个重头戏:Pandas:数据合并与表连接 (Merge & Concat)。你将学会如何把分散在不同文件里的信息,像拼图一样完美地合并在一起(类似于 Excel 的 VLOOKUP,但更强大)!**

👉 您准备好开启“多表联动”的新技能了吗?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/29 20:26:28

计算机毕业设计springboot水果快运商城系统 基于SpringBoot的鲜果直送电商平台设计与实现 SpringBoot+Vue生鲜极速配送商城系统开发

计算机毕业设计springboot水果快运商城系统0352umt5 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。当“一小时送上门”成为生鲜消费的新习惯,传统水果店纷纷把摊位搬…

作者头像 李华
网站建设 2026/2/4 4:32:19

RustFS分布式存储架构深度解析:应对AI时代数据洪流的技术演进

随着人工智能和大数据应用的爆发式增长,分布式对象存储系统正面临着前所未有的性能挑战。传统存储架构在应对高并发IO、海量元数据管理和数据安全等方面已显现出明显瓶颈。本文将深入分析RustFS在2025年的技术演进路径,重点关注其如何通过架构创新解决分…

作者头像 李华
网站建设 2026/1/30 11:16:04

大模型进阶必读:从LLM-RL到Agentic RL的进化之路,看完这篇全懂了!

Agentic RL(代理式强化学习) 范式:把大语言模型(LLM)从“一次性文本生成器”升级为“可在动态环境中持续感知、规划、行动、反思的自主智能体”,并给出统一理论框架、能力图谱、任务全景与开源资源大盘点。…

作者头像 李华
网站建设 2026/2/5 14:35:07

VC++运行库终极合集:一站式Windows开发环境部署方案

VC运行库终极合集:一站式Windows开发环境部署方案 【免费下载链接】VCWindows运行环境合集VC2005-VC2022 本仓库提供了一个VC Windows运行环境合集,涵盖了从VC2005到VC2022的所有必要运行库。这些运行库是生成C运行程序(如MFC等)后…

作者头像 李华