Python学习100天(从入门到精通系列文章)
文章目录
- Python学习100天(从入门到精通系列文章)
- 前言
- 一、同比环比计算
- 1.1 什么是同比和环比
- 1.2 使用 shift 方法计算环比
- 1.3 使用 pct_change 方法(更简洁)
- 二、窗口计算
- 2.1 什么是窗口计算
- 2.2 计算移动平均线
- 三、相关性判定
- 3.1 协方差与相关系数的数学原理
- 3.2 皮尔逊相关系数的适用条件
- 3.3 波士顿房价相关性分析实战
- 3.4 斯皮尔曼秩相关系数
- 四、常见错误与避坑指南
- 错误1:shift 后忘记处理 NaN 值
- 错误2:混淆 pct_change 的 periods 参数
- 错误3:在不满足条件的数据上使用皮尔逊相关系数
- 错误4:rolling 窗口大小设置不当
- 参考链接
- 总结
前言
在前面的文章中,我们学习了如何使用 Pandas 进行数据读取、清洗、分组聚合和透视表操作。但在实际数据分析工作中,仅仅掌握基础操作是远远不够的。今天我们将深入探讨三个非常实用的高级分析技巧:同比环比计算(衡量业务增长趋势)、窗口计算(移动平均与趋势分析)和相关性判定(发现变量间的隐藏关系)。这些技能在财务报表分析、股票量化交易和特征工程中都有广泛应用。无论你是数据分析师还是算法工程师,掌握这些技巧都将大幅提升你的数据处理能力。
一、同比环比计算
1.1 什么是同比和环比
在商业数据分析中,环比是指本期数据与上期数据相比的变化率(例如本月与上月对比),而同比是指本期数据与历史同期数据相比的变化率(例如今年6月与去年6月对比)。这两个指标是衡量业务增长趋势的核心指标。
关键区别:环比反映短期波动,同比消除季节性因素的影响。
1.2 使用 shift 方法计算环比
我们继续使用之前讲过的月度销售额数据。首先通过pivot_table生成月度销售额汇总表: