使用Python处理JSON Lines格式的文件-开发者社区

使用Python处理JSON Lines格式的文件

常用来处理JSON Lines格式日志文件；也适用于.txt中存储的 JSON 数据。

著-------------Pan诶

1·准备

需要使用到的外部库：

Pandas、json。

导入库，代码如下：

import pandas as pd import json

import pandas as pd：导入pandas库并简写为pd，pandas是数据处理的核心库
import json：导入Python内置的json库，用于解析JSON格式数据

2. 读取文件并解析JSON数据，处理过程

data = [] with open('your_log_file.jsonl', 'r', encoding='utf-8') as f: for line in f: if line.strip(): # 跳过空行 data.append(json.loads(line.strip())) df = pd.DataFrame(data) df.to_csv('处理后的数据.csv', index=False, encoding='utf-8-sig')

超级无敌逐行拆分解释：

```
data = []
```
- 创建一个空列表，用于存储解析后的数据
```
with open('your_log_file.jsonl', 'r', encoding='utf-8') as f:
```
- with：上下文管理器，自动处理文件的打开和关闭
- open()：打开文件函数
- 'your_log_file.jsonl'：需要处理的文件名
- 'r'：“read”的缩写，只读模式
- encoding='utf-8'：指定文件编码，避免中文乱码
- as f：将文件对象赋值给变量f

```
for line in f:
```
- 用for进行循环，逐行读取文件内容

```
if line.strip():
```
- line.strip()：去除行首尾的空白字符（空格、换行符等） —— strip()会移除这些空白字符，得到干净的JSON字符串
- 运行规则：如果去除空白后不是空字符串，则执行下一行

```
data.append(json.loads(line.strip()))
```
- json.loads()：将JSON字符串解析为Python字典
- line.strip()：确保字符串前后没有空白字符
- data.append()：将解析后的字典添加到data列表中

剩余步骤，这里data数据已经处理的差不多了，你可以使用Pandas创建DataFrame ；也可以直接访问数据。我这里以创建DataFrame为例进行演示

3. 创建DataFrame

df = pd.DataFrame(data)

pd.DataFrame()：pandas的核心函数，将数据转换为二维表格结构
data：包含所有字典的列表，每个字典成为DataFrame的一行

4. 导出为CSV

df.to_csv('处理后的数据.csv', index=False, encoding='utf-8-sig')

df.to_csv()：将DataFrame导出为CSV文件
'原始数据.csv'：输出的文件名
index=False：不保存行索引（0,1,2,3...）
encoding='utf-8-sig'：使用带BOM的UTF-8编码，确保Excel打开时中文不乱码

海豹油 vs 鱼油，一秒看懂哪个更适合你

为什么越来越多人选择 mixomi 海豹油作为长期 Omega-3 补充方案在众多 Omega-3 营养补充剂中，鱼油和海豹油无疑是被讨论最多的两种。鱼油长期占据主流，而近年来，含有 DPA 的海豹油，正逐渐成为关注“吸收效率”和“结构完整性”人群…

李华

【多Agent系统实战指南】：从理论到落地的7步协同构建法

第一章：跨领域 Agent 协同机制的核心挑战在分布式智能系统中，跨领域 Agent 协同机制的设计面临多重技术与架构层面的挑战。不同领域的 Agent 往往基于异构的技术栈、通信协议和语义模型构建，导致信息交互存在天然壁垒。语义异构性各领域 Age…

李华

22、公共和私有证书的获取与SSL通信通道配置

公共和私有证书的获取与SSL通信通道配置 1. 证书更新与获取概述 SSL证书的更新过程与获取过程类似，但更新速度会稍快一些。获取私有证书需要已部署的PKI（公钥基础设施），如果PKI未正确部署，可能需要重新搭建，这会使之前颁发的所有证书失效。 2. 获取和更新私有证书 2.…

李华

好用的Windows软件推荐

好用的Windows软件推荐本内容来源于GitHub项目：https://github.com/stackia/best-windows-apps 目录 For Everyone如果你是工程师如果你是影视与设计工作者偶尔想摸鱼的话 1. For Everyone 名称推荐理由授权方式相关链接Flow Launcher快搜搜索文件和启动…

李华

一种用于智能体系统的动作级强化学习微调模块设计与实现

一种用于智能体系统的动作级强化学习微调模块设计与实现一、背景：为什么“动作执行精度”成了智能体瓶颈？ 在当前的智能体（Agent）系统中，我们往往把更多注意力放在决策是否正确上，却忽略了另一个现实问题&…

李华

基于迁移学习的离心泵滚动轴承故障自动识别方法研究（DL00358）实践记录

DL00358-基于迁移学习的离心泵滚动轴承故障自动识别方法研究在输入原始时序加速度数据的网络中，基于与输入经过特征提取的数据的网络同样的考虑，取batch_size20（由于原始时序数据长度太长，因此需要对原始数据进行截取。所用的数…

李华