news 2026/7/3 4:35:44

非对称量化:减少 97% 存储空间,近无损实现后期交互检索!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
非对称量化:减少 97% 存储空间,近无损实现后期交互检索!

本节内容

包括量化、为何采用非对称量化、评分技巧、检索质量以及这将带来什么改变等方面。

量化:让多向量存储切实可行

量化是用低精度值表示高精度浮点向量,目标是减少数据负载大小并保持排序质量。简单后期交互检索成本高,多向量表示未压缩时大小约为单向量的 33 倍。使用二进制文档向量,多向量文档仅比单向量大 2% 左右,有助于改变权衡关系,使后期交互检索更可行。

为何采用非对称量化

压缩文档向量可节省存储空间等,而压缩查询向量效果不大。不将双方都二值化是因为全二进制检索会使查询向量丢弃幅度信息,导致更多质量损失。所以将查询向量保持为 int8,文档向量存储为二进制符号。

评分技巧

二进制文档向量存储成本低。int8 x int8 评分有现代 ARM CPU 支持,int8 x 二进制评分有更简单的恒等式,评分无需对每个维度进行完整乘法运算。二进制 x 二进制计算成本低,但质量损失大。

检索质量

在内部检索基准测试套件中评估了几种精度组合。全精度基准 NDCG@10 平均值为 90.26,int8 查询二进制文档平均值为 89.65,下降 0.61 个点,同时文档向量存储空间减少 32 倍。部分性能下降极小是因为 Wholembed v3 对量化有较强鲁棒性。还给出了不同精度组合的中位延迟和加速比等数据。

这将带来什么改变

非对称量化有效是因为检索系统对查询和文档精度成本考量不同。对于 silo,可降低存储成本、加快冷启动速度、提高每秒查询率、减少数据移动时间,能在不将文档视为大型 fp32 对象的情况下获得多向量表示的高质量。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/3 4:34:43

腾讯混元Hy3:首个工程可用的国产MoE大模型

1. 这不是又一个“能发”的模型,而是第一个让我愿意 daily drive 的国产大模型我用过不下二十个国产大模型的公开 API 和网页端,从最早一批需要手动拼 prompt、调 temperature、反复 retry 才能勉强写完一封邮件的版本,到后来能生成 PPT 大纲…

作者头像 李华
网站建设 2026/7/3 4:29:52

Django分页封装

page_data.pyfrom django.utils.safestring import mark_safe from copy import deepcopy class PageData:def __init__(self,request,queryset,page_size1,page_num3,page_parampage):request:请求queryset:数据表的查询结果pagesize:一页显示多少条数据page_num:当前页面显示…

作者头像 李华
网站建设 2026/7/3 4:29:10

GPS是测试什么东西?

GPS 测的是:设备 GPS 定位模块/芯片能否正常工作,在 R&C 连续测试里属于 Mode A 第 10 项。 测什么 检查项 说明 GPS 开关 系统里 GPS 定位是否已开启 定位权限 是否有 ACCESS_FINE_LOCATION 能否定位 能否收到卫星信号并得到 经纬度 不是测 2G/3G/4…

作者头像 李华
网站建设 2026/7/3 4:26:23

机器学习特征工程实战:方法与避坑指南

1. 特征工程的核心价值第一次接触机器学习项目时,我犯了个典型错误——把所有时间都花在模型调参上,结果准确率死活上不去。直到导师提醒我"垃圾进,垃圾出"(Garbage in, garbage out),才意识到特征质量才是模型效果的天…

作者头像 李华