news 2026/2/11 2:43:49

使用 Pydantic 与 JSON Schema 验证 JSONL

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用 Pydantic 与 JSON Schema 验证 JSONL

在处理大规模结构化数据时,尤其是以 JSON Lines(.jsonl)格式存储的数据,确保每条记录符合预期结构是数据质量保障的关键一步。本文将围绕一个典型的复杂嵌套 JSON 结构,详细介绍如何使用 Python 中两种主流的数据验证工具——Pydantic 和 JSON Schema——来实现高效、可靠的校验,并对二者进行系统性对比,帮助开发者根据实际需求做出合理选择。

一、问题背景:复杂的嵌套 JSON 结构

考虑以下代表个人简历信息的 JSON 对象:

{"person":{"name":"张伟","age":30,"gender":"男","occupation":"软件工程师","contact":{"email":"zhangwei@example.com","phone":"123-456-7890"},"address":{"street":"幸福路123号","city":"上海市","state":"上海市","zip":"200000"},"education":[{"degree":"学士","major":"计算机科学","university":"北京大学","year":2015}],"work_experience":[{"company":"ABC科技有限公司","position":"软件开发工程师","duration":"2018-2020","responsibilities":["参与多个项目的软件开发工作","负责后端服务的设计和实现"]}],"skills":["Java","Python","数据库设计"],"interests":["阅读","旅行","编程"]}}

该结构包含多层嵌套对象、非空数组、以及对数组元素内部结构的约束。我们的目标是:验证 .jsonl 文件中的每一行是否严格符合此结构,包括字段存在性、类型正确性、以及业务规则(如教育经历至少有一条)。

二、方案一:使用 Pydantic(v2)

Pydantic 是一个基于 Python 类型注解的数据验证和设置管理库,特别适合在 Python 原生环境中定义数据模型。

1. 定义嵌套模型

frompydanticimportBaseModel,FieldclassContact(BaseModel):email:strphone:strclassAddress(BaseModel):street:strcity:strstate:strzip:strclassEducationItem(BaseModel):degree:strmajor:struniversity:stryear:intclass
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 15:25:39

Docker搭建Web安全渗透测试靶场

目录 DVWA搭建 一,获取靶场镜像 二,Docker搭建 三,查看靶场 Pikachu搭建 一,获取靶场镜像 二,Docker搭建 三,查看靶场 Sql-labs搭建 一,获取靶场镜像 二,Docker搭建 三&…

作者头像 李华
网站建设 2026/2/5 22:58:48

振动下机械臂鲁棒快控制-EXP-振动控制-机械臂

振动下机械臂鲁棒快控制-EXP-振动控制-机械臂实验目的 摘要: ​ 针对基座振动和负载变化的机械臂实验,设计鲁棒有限时间控制器。在两连杆机械臂实验装置上测试,能快速定位目标位置,抗干扰能力强,为控制实现和实验搭建提…

作者头像 李华
网站建设 2026/2/9 15:03:04

华为OD技术面真题 - Mysql相关 - 4

文章目录简单介绍一下Mysql中BinLog、RedoLog和UndoLogRedoLogBinLogUndoLogMysql中事务为什么需要两阶段提交简单介绍一下两阶段提交的流程什么是读写分离怎样实现读写分离说说Mysql主从复制流程怎么避免主从延迟简单介绍一下Mysql中BinLog、RedoLog和UndoLog RedoLog 重做日…

作者头像 李华
网站建设 2026/2/6 22:03:06

一维(1D)CNN模型下轴承故障诊断(Python,TensorFlow框架下,很容易改为其它模型,解压缩后可以直接运行,无需修改任何目录)

1.数据集使用凯斯西储大学轴承数据集,一共有4种负载下采集的数据,每种负载下有10种 故障状态:三种不同尺寸下的内圈故障、三种不同尺寸下的外圈故障、三种不同尺寸下的滚动体故障和一种正常状态。2.模型(1DCNN)使用数据…

作者头像 李华
网站建设 2026/2/8 4:24:42

RAG上下文构建完全指南:从召回策略到最佳实践,一篇搞定!建议收藏

文章探讨了RAG系统中构建上下文的关键问题,特别是当语义召回的多个chunk来自不同段落时如何选择上下文内容。分析了直接使用召回chunk与召回完整段落两种方案的优缺点,指出应根据文档长度、场景需求选择折中方案。有时为减少token消耗并提升模型准确性&a…

作者头像 李华