news 2026/1/25 20:26:24

面向AI的新文件格式Lance挑战传统Parquet

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面向AI的新文件格式Lance挑战传统Parquet

Lance在文件格式竞赛中瞄准Parquet

一款旨在解决广泛使用的Parquet格式局限性的新兴文件格式,正在接受一个开源基金会的采用审查。

Lance的构建基于这样一种理念:Parquet(在多个中心的数据湖中广泛使用)在处理机器学习和AI时已显陈旧,而一种额外的、互补的格式更能满足这些需求。该格式的背后是She,他是用于数据操作和分析的pandas软件库的原始贡献者之一,现在是LanceDB的首席执行官兼联合创始人,该公司支持并开发该格式。

She表示,转折点出现在AI和机器学习开始比传统分析驱动更多数据使用的时候。如今每个人都能利用来自某机构或另一机构的模型,真正的优势在于这些系统能以多快的速度获取数据。

然而,为机器学习推理访问数据所面临的挑战与将其用于分析时不同。“速度要快得多,因为现在很多数据是由模型生成的,每秒有数百个标记的自动数据生成。然后是多样性:现在不再仅仅是数字和时间戳,而是有长文本提示、图像、声波以及(向量)嵌入本身,” She说。

他认为现有的文件格式并非为满足这些需求而设计。She指出:“Parquet非常不适合存储较大的数据类型。如果你有多模态数据,从长文本到嵌入,再到图像和视频,Parquet对这种新型数据完全没有优化。这是因为它的行组以及数据布局的方式。当你尝试写入大规模数据时,会耗尽内存。”

AI还引入了许多新的工作负载,例如向量搜索和检索。She说,Parquet“对于搜索和检索非常糟糕”,因为它需要随机访问,而不像分析那样“读取连续的数据范围”。Lance文件格式2.1版于三月宣布,LanceDB本月早些时候表示其现已稳定。

其作者认为,Lance格式更好地适应了为机器学习和AI存储数据的挑战,因为它包含了文件格式、表格式和二级索引。“数据的布局方式不同,访问模式也发生了变化,因此我们保证了比Parquet更快的扫描速度,同时也保证了真正快速的随机访问,” She说。

Lance于2022年8月开源,该公司正在将其捐赠给一个基金会,预计年底前会发布公告。

Parquet也有自己的表格式合作伙伴。Apache Iceberg、Delta Lake(一个某机构项目)和Apache Hudi都用于将分析引擎带到数据所在处,而无需移动数据。近期有一些举措旨在拉近Iceberg和Delta的距离。

She认为,Lance并非要取代这些格式,而是与它们协同工作。“我们的座右铭是‘Lance用于AI,Iceberg用于BI’。对于分析工作负载,我们仍期望其存储在Iceberg中,但对于AI密集型的使用案例和数据集:搜索、训练和AI推理,我们期望使用Lance,” She说。

不过,正如数据操作平台供应商Coginiti的首席技术官Matthew Mullins所指出的,像Iceberg和Parquet这样的项目拥有发展势头的优势。“Parquet和Iceberg拥有现有地位和广泛支持的优势。Apache Iceberg在经历了十年开发后,真正崛起大约只有两年时间。一个关键因素是某机构和另一机构都全力投入Iceberg,现在每个供应商都支持Apache Iceberg,并且它被列入了每个企业的路线图。LanceDB将有一条漫长的道路,或许会因AI而加速,但它需要更多的社区支持才能成功。”

Iceberg也曾处于起步阶段,直到获得了包括某机构在内的供应商的支持,某机构已将这种表格式整合到其某存储桶中,并在包括某公司和另一公司在内的用户中广泛采用。Lance需要等待,看看它的论点是否能够以同样的方式引起共鸣。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/25 11:40:48

Loki TSDB存储引擎终极指南:10倍性能提升的完整解决方案

Loki TSDB存储引擎终极指南:10倍性能提升的完整解决方案 【免费下载链接】loki Loki是一个开源、高扩展性和多租户的日志聚合系统,由Grafana Labs开发。它主要用于收集、存储和查询大量日志数据,并通过标签索引提供高效检索能力。Loki特别适用…

作者头像 李华
网站建设 2026/1/14 18:53:41

[Linux]学习笔记系列 -- [fs][drop_caches]

title: drop_caches categories: linuxfs tags:linuxfs abbrlink: 17c21950 date: 2025-10-03 09:01:49 https://github.com/wdfk-prog/linux-study 文章目录 fs/drop_caches.c 内核缓存手动回收(Manual Kernel Cache Reclaiming) 提供清空页面、目录和inode缓存的接口历史与…

作者头像 李华
网站建设 2026/1/22 15:11:08

Qwen3-8B性能评测:5大技术亮点解析与实战应用指南

Qwen3-8B性能评测:5大技术亮点解析与实战应用指南 【免费下载链接】Qwen3-8B 项目地址: https://ai.gitcode.com/openMind/Qwen3-8B AI模型性能评测是当前技术领域的热门话题,大语言模型评测标准日益完善。Qwen3-8B作为最新一代的AI模型&#xf…

作者头像 李华
网站建设 2026/1/14 18:53:36

2、Python:强大的编程语言与集成工具

Python:强大的编程语言与集成工具 1. Python 简介 Python 是一种解释型、交互式、面向对象的编程语言,由 Guido van Rossum 于 1990 年开发。到 1998 年底,其用户估计已达 30 万,开始在行业内受到广泛关注。它并非提供革命性的新特性,而是融合了许多不同编程语言的优秀设…

作者头像 李华
网站建设 2026/1/14 18:53:34

如何快速配置xPack OpenOCD:嵌入式开发的终极调试方案

如何快速配置xPack OpenOCD:嵌入式开发的终极调试方案 【免费下载链接】openocd-xpack A binary distribution of OpenOCD 项目地址: https://gitcode.com/gh_mirrors/op/openocd-xpack xPack OpenOCD是一个跨平台的OpenOCD二进制分发版本,专门为…

作者头像 李华