news 2026/5/12 5:56:10

【金猿技术展】一种数据自适应存储方法、装置、电子设备及存储介质——智能和轻量的数据压缩存储算法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【金猿技术展】一种数据自适应存储方法、装置、电子设备及存储介质——智能和轻量的数据压缩存储算法

数变科技技术

该技术由数变科技投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025大数据产业年度创新技术》榜单/奖项评选。


大数据产业创新服务媒体

——聚焦数据 · 改变商业


本发明公开了一种数据自适应存储方法、装置、电子设备及存储介质。所述方法包括:对数据的类型进行划分,确定不同数据类型的数据对应的压缩算法列表;获取目标数据,确定所述目标数据对应的目标压缩算法列表;基于所述目标数据的统计信息从所述目标压缩算法列表中选择出所述目标数据对应的最佳压缩方式;使用所述最佳压缩方式对所述目标数据进行数据压缩得到压缩数据;在所述压缩数据的头部写入头信息,以基于所述头信息进行数据解压缩。该方法通过对数据进行抽样分析,根据数据所属的类型自适应选择最佳压缩算法来优化数据的压缩存储,能够在确保数据压缩比的同时,提升数据读取性能。

关键突破性技术说明

该专利的核心突破性技术可总结为“数据自适应压缩引擎”,其创新点主要体现在以下三个层面:

1.核心突破:从“静态选择”到“动态自适应”的压缩技术

传统的压缩方法通常是预先固定一种压缩算法(如GZIP、Snappy等),或根据数据格式(如文本、图像)粗略选择。本专利的关键突破在于建立了一套“类型识别→算法候选→动态择优”的智能决策流程,实现了“因数据制宜”的精细化压缩。

具体技术路径:

·类型化算法映射:首先,对数据进行类型划分(如数值时序型、稀疏文本型、二进制日志型等),并为每类数据预置一个经过验证的、适合的压缩算法候选列表。这步是知识库的构建。

·基于统计的实时择优:对于具体要存储的目标数据,并非直接使用默认算法,而是实时分析其统计信息(如熵值、重复模式、数值分布等),从该类数据的算法列表中,选择出针对这份具体数据块的最优压缩算法。

·元数据自描述:将选用的最佳压缩方式等信息作为“头信息”写入压缩数据头部,使得解压时可无需外部知识,直接根据头部信息调用对应解压算法,实现了压缩数据的自包含与自描述。

2.技术优势与效果

这项技术的直接好处体现在两个看似矛盾的目标上取得了平衡:

·高压缩比:通过为每类、甚至每份数据动态选择最匹配的算法,能够挖掘出特定数据块的最大压缩潜力,相较于固定算法,整体压缩率更高。

·高性能读写:

写(压缩)性能:算法候选列表避免了全局搜索,缩小了择优范围,兼顾了选择效率。

读(解压)性能:由于选择了最适合的算法,解压速度通常也更快。头信息机制避免了猜测,实现快速、准确解压。

·自适应与可扩展:系统框架是开放的,可以方便地扩展新的数据类型和压缩算法到候选列表中,持续优化。

3.技术本质总结

该专利的本质是一个智能的、轻量级的“数据压缩策略优化器”。它将人类对“不同数据用不同压缩工具更有效”的经验,转化为一套自动化的、可量化的工程系统。其突破性不在于发明新的压缩算法,而在于创造了一个高效决策层,通过动态选择现有最佳工具,从而在存储系统中实现了“鱼与熊掌兼得”——更高的压缩效率与更优的读写性能

专利技术应用产品/服务

该技术主要用于开源数据湖仓产品Databend和数据云平台Databend Cloud,在这两个产品中对数据的存储压缩和读写做了性能的优化,提升了压缩比,节省了存储空间,性能得到了快速提升,提升了性能。为使用这两个产品的用户,节省了成本、提高了查询性能。

开发团队

·带队负责人姓名:李本旺

Databend Labs高级工程师,专注于大数据实时计算与列式存储等核心技术领域,目前正致力于构建下一代弹性云原生数据仓库。

团队其他重要成员姓名:张雁飞

·隶属机构

Databend(北京数变科技有限公司)成立于2021年3月创立,初期成功完成多轮融资,得到了高瓴创投、华创资本、九合创投等投资机构的支持。团队汇聚了来自ClickHouse社区、Google、阿里云、青云、OceanBase等知名云计算和数据库公司的专业人才。团队成员在数据库和云计算领域拥有十年以上的丰富经验,曾贡献于多个开源项目,包括ClickHouse、Mysql内核(TokuDB)等。

Databend已成功替代了Snowflake、GreenPlum、CDH、ClickHouse等产品,为用户提供了基于Databend的大规模湖仓解决方案。

截至目前,Databend已成功应用于游戏、社交、金融、互联网、智能交通、广告等多个行业领域的客户项目中。

相关评价

团队使用Databend进行MySQL日志审计分析已有两年,整体运行稳定可靠。其主要优势体现在以下几个方面:成本低、导入速度快、兼容性强,并具备弹性扩缩容能力,支持按需自动伸缩计算资源。在查询量较少时,系统可自动缩减资源以节约成本;在需要时也能快速扩展,尤其适合查询负载不均衡的场景,从而兼顾经济性与灵活性。

——某上市科技企业数据工程师

Databend为我们带来了显著的降本增效。其存算分离与弹性架构降低了约90%的成本。同时,分布式引擎使查询性能提升60%,简化了运维,加速了数据价值兑现。

——某数字零售科技企业数据库运维主管

提示:直接点击文末左下角“阅读原文”链接可直达该机构官网页面。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 15:52:37

STM32 USART波特率超详细版配置流程说明

搞定STM32串口通信,从波特率配置开始:不只是“设个数”,而是理解整个时钟链路你有没有遇到过这种情况?STM32程序烧进去后,串口助手打开却只看到一堆乱码——不是字符错位,就是满屏“烫烫烫”。第一反应是查…

作者头像 李华
网站建设 2026/5/2 12:00:19

SpringBoot+Vue 小型医院医疗设备管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要 随着医疗行业的快速发展,医院设备管理的信息化需求日益增长。传统的人工管理方式效率低下,容易出现设备信息记录不准确、维护不及时等问题,影响医院的正常运营。为提高医疗设备管理的效率和准确性,开发一套基于信息技术的医疗…

作者头像 李华
网站建设 2026/5/11 2:32:33

我曾经讨厌过拟合,但现在我理解了它

原文:towardsdatascience.com/i-used-to-hate-overfitting-but-now-im-grokking-it-e6e1dcfbdfd8 作为一位在计算机科学各个主题上花费了大量时间的人,其中数学抽象有时可能非常枯燥和抽象,我发现数据科学的实用性和动手操作性质就像一股清新…

作者头像 李华
网站建设 2026/5/10 18:08:38

Spring boot 4 搞懂MyBatis-Plus的用法

MyBatis-Plus 是一个 MyBatis 的增强工具&#xff0c;在 MyBatis 的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生 官方地址&#xff1a; git源码 文档 Spring boot 4如何集成 增加依赖 Add MyBatis-Plus dependency <mybatisplus.version>3.5.15<…

作者头像 李华
网站建设 2026/5/2 5:54:35

一文说清STM32F4时钟路径:CubeMX时钟树配置核心要点

一文说清STM32F4时钟路径&#xff1a;CubeMX时钟树配置核心要点在嵌入式开发中&#xff0c;一个系统能否“跑得稳、跑得准”&#xff0c;往往不取决于代码写得多漂亮&#xff0c;而在于最底层的时钟是否配置正确。对于使用STM32F4系列MCU的工程师来说&#xff0c;面对复杂的多源…

作者头像 李华