news 2026/6/11 15:03:31

Flink ML 数据类型:Vector 向量类型入门(DenseVector / SparseVector)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Flink ML 数据类型:Vector 向量类型入门(DenseVector / SparseVector)

1. Flink ML 的数据类型支持范围

Flink ML 支持:

  1. Flink Table API 支持的全部类型
    例如:BOOLEAN / INT / BIGINT / DOUBLE / STRING / ARRAY / MAP / ROW / TIMESTAMP等。

  2. Flink ML 在此基础上补充的类型
    最典型就是Vector(向量),用于表示模型输入的特征。

2. Vector 是什么?

在 Flink ML 中,Vector 表示一个double 数组形式的向量,并且有两个具体实现:

  • DenseVector(稠密向量)

    • 大部分维度都有值(或你希望用数组直接存储所有维度)
    • 适合维度不算特别高、或者特征不是很稀疏的场景
  • SparseVector(稀疏向量)

    • 只有少量维度有非零值
    • 适合高维稀疏特征(比如 one-hot、词袋、特征哈希等)

无论 Dense 还是 Sparse,Flink ML 的 Vector 都具备这些共同特点:

  • 向量在创建时就固定size(维度)
  • 支持按0-based 下标读取 / 设置某一维的 double 值
  • 都用于表达“特征列”,常见列名是features

3. Vectors 工具类:创建向量更方便

Flink ML 提供了Vectors工具类,用来快速构造 DenseVector / SparseVector。

4. Java 示例:构造 SparseVector

你给的示例含义是:

  • 向量维度n = 4(即下标范围 0~3)
  • 只有下标0,2,3是非零维度
  • 对应值分别是0.1, 0.3, 0.4
intn=4;int[]indices=newint[]{0,2,3};double[]values=newdouble[]{0.1,0.3,0.4};SparseVectorvector=Vectors.sparse(n,indices,values);

这等价于一个完整的 dense 表达:

[0.1, 0.0, 0.3, 0.4]

5. 你在工程里什么时候用 Dense / Sparse?

用 DenseVector 的典型情况

  • 特征维度较小(比如几十维、几百维)
  • 大多数维度都有值(不稀疏)
  • 特征已经是数值型统计特征(pv/click/avg_duration 等)

用 SparseVector 的典型情况

  • 特征维度很高(几千、几万甚至更高)

  • 绝大多数维度都是 0(稀疏)

  • 常见于:

    • one-hot 编码后的离散特征
    • 文本特征(词袋/TF-IDF)
    • 特征哈希

6. 实用小提示:SparseVector 的注意事项

在构造稀疏向量时,建议保证:

  • indices.length == values.length
  • indices 取值范围必须在[0, n-1]
  • indices 最好是严格递增且不重复(很多实现会假设这一点,或性能更好)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 17:11:36

【金猿案例展】中信百信银行——Data Agent智能指标项目

数势科技案例该Agent案例由数势科技投递并参与金猿组委会数据猿上海大数据联盟共同推出的《2025中国大数据产业年度Data Agent创新应用》榜单/奖项评选。大数据产业创新服务媒体——聚焦数据 改变商业中信百信银行作为国有控股的数字普惠银行,自成立以来持续深耕数…

作者头像 李华
网站建设 2026/6/10 20:07:02

【金猿案例展】德国知名车企-“采购助手Chatbot”数据智能体创新项目

逸迅科技案例该Agent案例由逸迅科技投递并参与金猿组委会数据猿上海大数据联盟共同推出的《2025中国大数据产业年度Data Agent创新应用》榜单/奖项评选。大数据产业创新服务媒体——聚焦数据 改变商业在全球豪华汽车制造业中,某车企作为领军者,其产品线…

作者头像 李华
网站建设 2026/5/28 20:32:50

【金猿案例展】某知名合资车企——基于全域客户之声洞察决策的Data Agent平台

数皆智能案例该Agent案例由数皆智能投递并参与金猿组委会数据猿上海大数据联盟共同推出的《2025中国大数据产业年度Data Agent创新应用》榜单/奖项评选。大数据产业创新服务媒体——聚焦数据 改变商业在汽车行业从产品为王向用户为王转型的当下,用户体验已成为车企…

作者头像 李华
网站建设 2026/6/10 23:50:48

ESP32开发基础教程:使用PlatformIO进行项目创建

从零开始玩转 ESP32:用 PlatformIO 搭建高效开发环境 你是不是也经历过这样的场景? 刚买来一块 ESP32 开发板,兴冲冲打开 Arduino IDE,结果发现库管理混乱、编译速度慢、调试像“猜谜”;转头尝试官方的 ESP-IDF&…

作者头像 李华
网站建设 2026/6/5 2:28:19

PaddlePaddle镜像部署到生产环境的安全加固策略

PaddlePaddle镜像部署到生产环境的安全加固策略 在AI系统大规模进入金融、政务、制造等关键行业的今天,一个看似微小的容器安全疏漏,可能引发整个模型服务链路的崩溃。某大型银行曾因未加限制地使用默认PaddlePaddle镜像,导致攻击者通过注入恶…

作者头像 李华
网站建设 2026/6/3 0:07:09

碧蓝航线Alas智能管家:5步实现游戏全自动化攻略

碧蓝航线Alas智能管家:5步实现游戏全自动化攻略 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研,全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript 还在为每天重复的…

作者头像 李华