Pandas数据合并：concat vs append，选哪个？用真实‘幸福指数’数据集测给你看-开发者社区

Pandas数据合并实战：concat与append深度性能对比

在数据分析工作中，数据合并是最基础也最频繁的操作之一。Pandas提供了多种合并数据的方法，其中concat和append是最常用的两种纵向合并方式。但很多开发者并不清楚它们在实际项目中的性能差异和适用场景，导致代码效率低下甚至内存溢出。本文将基于真实的"世界幸福指数"数据集，通过基准测试和内存分析，揭示这两种方法的本质区别。

1. 理解concat与append的底层机制

1.1 concat的工作原理

pd.concat()是Pandas中最通用的合并函数，其核心特点包括：

批量处理能力：可以一次性合并多个DataFrame
灵活轴向选择：通过axis参数支持横向(axis=1)和纵向(axis=0)合并
内存优化：内部采用预分配策略，减少内存碎片

# 典型concat使用示例 df_list = [df1, df2, df3] result = pd.concat(df_list, axis=0, ignore_index=True)

关键参数解析：

参数	类型	默认值	作用
objs	序列	必填	要合并的DataFrame列表
axis	int	0	合并轴向(0=纵向,1=横向)
join	str	'outer'	合并方式('inner'/'outer')
ignore_index	bool	False	是否重置索引

1.2 append的实质

DataFrame.append()虽然语法更简洁，但需要注意：

语法糖本质：实际上是concat的简化封装
性能陷阱：每次调用都会创建新对象
废弃警告：Pandas 1.4.0+版本已标记为待废弃方法

# append的等效concat写法 df1.append(df2) # 等价于 pd.concat([df1, df2], axis=0)

提示：官方文档明确建议"在循环中追加行时，建议先收集这些行到列表中，然后使用concat一次性合并"

2. 幸福指数数据集实战测试

我们使用2021年世界幸福报告数据集(包含156个国家11个维度的指标)进行测试，模拟常见的数据追加场景。

2.1 测试环境配置

import pandas as pd import numpy as np import time import memory_profiler # 加载基础数据集 base_df = pd.read_csv('world_happiness.csv') print(f"基础数据集形状：{base_df.shape}") # 生成测试用分块数据 chunks = [base_df.sample(frac=0.2) for _ in range(5)]

2.2 单次合并性能对比

def test_single_merge(): # concat方案 start = time.perf_counter() concat_result = pd.concat([chunks[0], chunks[1]]) concat_time = time.perf_counter() - start # append方案 start = time.perf_counter() append_result = chunks[0].append(chunks[1]) append_time = time.perf_counter() - start return concat_time, append_time

测试结果对比：

方法	耗时(ms)	内存峰值(MB)
concat	2.1	15.7
append	3.8	17.2

2.3 循环追加性能对比

更真实的场景是在循环中逐步累积数据：

def test_loop_merge(): # concat方案 start = time.perf_counter() concat_result = pd.DataFrame() for chunk in chunks: concat_result = pd.concat([concat_result, chunk]) concat_time = time.perf_counter() - start # append方案 start = time.perf_counter() append_result = pd.DataFrame() for chunk in chunks: append_result = append_result.append(chunk) append_time = time.perf_counter() - start return concat_time, append_time

循环测试结果：

方法	5次迭代耗时(ms)	内存增长(MB)
concat	12.4	22.5
append	28.7	41.3

3. 内存分配机制深度解析

3.1 concat的内存策略

concat采用预分配策略，其内存使用特点：

预先计算最终DataFrame的大小
一次性分配足够的内存块
按顺序填充数据
最小化内存碎片

# 内存优化型concat用法 results = [] for chunk in large_chunks: processed = process_chunk(chunk) # 处理每个分块 results.append(processed) final_df = pd.concat(results) # 一次性合并

3.2 append的内存问题

append在循环中使用时会导致：

多次内存分配：每次调用都创建新对象
内存拷贝：原有数据被重复复制
垃圾回收：临时对象增加GC压力

内存增长示意图：

迭代次数	concat内存(MB)	append内存(MB)
1	18.2	19.1
2	20.4	25.7
3	22.1	34.2
4	23.8	45.6
5	25.0	58.3

4. 最佳实践与性能优化

4.1 何时使用concat

以下场景优先选择concat：

需要合并多个DataFrame时
处理大型数据集时
在循环中累积数据时
需要精细控制合并逻辑时

# 高性能concat模式 def efficient_merge(file_list): chunks = [] for file in file_list: df = pd.read_csv(file) chunks.append(df) return pd.concat(chunks, ignore_index=True)

4.2 替代append的方案

当需要行追加时，考虑这些替代方案：

列表累积+concat：

parts = [] for data in stream: parts.append(process(data)) result = pd.concat(parts)

索引预分配：

total_rows = sum(len(c) for c in chunks) result = pd.DataFrame(index=range(total_rows), columns=cols) pos = 0 for chunk in chunks: result.iloc[pos:pos+len(chunk)] = chunk.values pos += len(chunk)

分块处理：

chunk_size = 10000 for i in range(0, len(df), chunk_size): process_chunk(df.iloc[i:i+chunk_size])

4.3 幸福指数数据处理实战

针对幸福指数数据的具体优化：

def load_happiness_data(file_pattern, n_files): """高效加载分块存储的幸福指数数据""" from pathlib import Path all_files = sorted(Path('data').glob(file_pattern)) dfs = [] for file in all_files[:n_files]: df = pd.read_csv(file) # 预处理：统一列名，处理缺失值 df.columns = df.columns.str.strip().str.lower() dfs.append(df) # 一次性合并 final_df = pd.concat(dfs, ignore_index=True) # 后处理 final_df['gdp_per_capita'] = np.log(final_df['gdp_per_capita']) return final_df.drop_duplicates()