使用 Pydantic 与 JSON Schema 验证 JSONL-开发者社区

在处理大规模结构化数据时，尤其是以 JSON Lines（.jsonl）格式存储的数据，确保每条记录符合预期结构是数据质量保障的关键一步。本文将围绕一个典型的复杂嵌套 JSON 结构，详细介绍如何使用 Python 中两种主流的数据验证工具——Pydantic 和 JSON Schema——来实现高效、可靠的校验，并对二者进行系统性对比，帮助开发者根据实际需求做出合理选择。

一、问题背景：复杂的嵌套 JSON 结构

考虑以下代表个人简历信息的 JSON 对象：

{"person":{"name":"张伟","age":30,"gender":"男","occupation":"软件工程师","contact":{"email":"zhangwei@example.com","phone":"123-456-7890"},"address":{"street":"幸福路123号","city":"上海市","state":"上海市","zip":"200000"},"education":[{"degree":"学士","major":"计算机科学","university":"北京大学","year":2015}],"work_experience":[{"company":"ABC科技有限公司","position":"软件开发工程师","duration":"2018-2020","responsibilities":["参与多个项目的软件开发工作","负责后端服务的设计和实现"]}],"skills":["Java","Python","数据库设计"],"interests":["阅读","旅行","编程"]}}

该结构包含多层嵌套对象、非空数组、以及对数组元素内部结构的约束。我们的目标是：验证 .jsonl 文件中的每一行是否严格符合此结构，包括字段存在性、类型正确性、以及业务规则（如教育经历至少有一条）。

二、方案一：使用 Pydantic（v2）

Pydantic 是一个基于 Python 类型注解的数据验证和设置管理库，特别适合在 Python 原生环境中定义数据模型。

1. 定义嵌套模型

frompydanticimportBaseModel,FieldclassContact(BaseModel):email:strphone:strclassAddress(BaseModel):street:strcity:strstate:strzip:strclassEducationItem(BaseModel):degree:strmajor:struniversity:stryear:intclass

一天一个开源项目（第12篇）：SoulX-Podcast - 多轮对话式播客生成，让AI语音更自然真实

引言 “如果AI能生成像真实播客一样自然的对话，支持多轮交互、不同方言，还能加入笑声、叹息等真实情感，那该多好？” 这是"一天一个开源项目"系列的第12篇文章。今天带你了解的项目是 SoulX-Podcast（GitHub&a…

李华

振动下机械臂鲁棒快控制-EXP-振动控制-机械臂

振动下机械臂鲁棒快控制-EXP-振动控制-机械臂实验目的摘要： 针对基座振动和负载变化的机械臂实验，设计鲁棒有限时间控制器。在两连杆机械臂实验装置上测试，能快速定位目标位置，抗干扰能力强，为控制实现和实验搭建提…

李华

华为OD技术面真题 - Mysql相关 - 4

文章目录简单介绍一下Mysql中BinLog、RedoLog和UndoLogRedoLogBinLogUndoLogMysql中事务为什么需要两阶段提交简单介绍一下两阶段提交的流程什么是读写分离怎样实现读写分离说说Mysql主从复制流程怎么避免主从延迟简单介绍一下Mysql中BinLog、RedoLog和UndoLog RedoLog 重做日…

李华

一维(1D)CNN模型下轴承故障诊断（Python，TensorFlow框架下，很容易改为其它模型，解压缩后可以直接运行，无需修改任何目录）

1.数据集使用凯斯西储大学轴承数据集，一共有4种负载下采集的数据，每种负载下有10种故障状态：三种不同尺寸下的内圈故障、三种不同尺寸下的外圈故障、三种不同尺寸下的滚动体故障和一种正常状态。2.模型（1DCNN）使用数据…

李华

RAG上下文构建完全指南：从召回策略到最佳实践，一篇搞定！建议收藏

文章探讨了RAG系统中构建上下文的关键问题，特别是当语义召回的多个chunk来自不同段落时如何选择上下文内容。分析了直接使用召回chunk与召回完整段落两种方案的优缺点，指出应根据文档长度、场景需求选择折中方案。有时为减少token消耗并提升模型准确性&a…

李华