news 2026/2/7 21:21:51

【LLM理论学习】稀疏特征 vs 稠密 embedding

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【LLM理论学习】稀疏特征 vs 稠密 embedding

从 BoW 到 LLM Embedding 的一次“表示革命”

​ 在自然语言处理(NLP)领域,特征表示方式的演进,几乎决定了模型能力的上限。

​ 从最早的Bag of Words(BoW),到Word2Vec / GloVe,再到今天大规模语言模型(LLM)的高维稠密 embedding,我们并不是简单地“换了一种向量”,而是完成了一次从显式统计到隐式分布建模的范式迁移

一、BoW 与现代 Embedding 的数学差异

​ 从数学视角来看,BoW 与现代 embedding 在空间结构、信息密度、表达能力上存在本质差异。

  • BoW 特征的核心属性

    ​ BoW 本质上是对文本进行离散统计建模

    • 高维(词表大小级别)
    • 极度稀疏
    • 基于词频的显式统计特征
    • 每一维都有清晰语义含义
  • 现代 Embedding 的核心属性

    以 Word2Vec / LLM embedding 为代表:

    • 低维或中等维度
    • 稠密连续向量
    • 隐式学习语言分布
    • 向量维度不再可直观解释

1.1 特征空间对比

表示方式维度范围稀疏性是否可解释
BoW10⁴ – 10⁶极稀疏✅ 强解释性
Word2Vec100 – 300稠密❌ 弱
LLM Embedding768 – 8192稠密❌ 极弱
  • BoW 是可解释机器学习(Interpretable ML)的典型代表
  • Embedding 更关注表达能力,而非人类可读性

1.2 显式统计 vs 隐式分布建模

​ 从数学形式上看,两者的差异非常直观。

(1) BoW:显式统计特征

BoW: x∈R∣V∣ \text{BoW: } \mathbf{x} \in \mathbb{R}^{|V|}BoW:xRV

​ 其中,∣V∣|V|V表示词表的大小。

  • 因为BoW 的核心假设是:文本可以被表示为“词表上各词项出现情况的统计结果”。

  • 为此,我们首先固定一个词表:
    V={w1,w2,…,w∣V∣} V = \{w_1, w_2, \dots, w_{|V|}\}V={w1,w2,,wV}
    其中,每一维对应词表中的一个词。

  • 随后,对任意一段文本ddd,构造一个向量:
    xd=(x1,x2,⋯ ,x∣V∣) \mathbf{x}_d=(x_1,x_2,\cdots,x_{∣V∣})xd=(x1,x2,,xV)
    这里,xix_ixi表示词wiw_iwi在文本ddd中的出现次数(或其加权形式,如 TF / TF-IDF)

  • 关键在于:

    • 每一个词项wiw_iwi被映射到一个固定且唯一的坐标轴
    • 文本中是否出现该词,只影响对应维度的取值
    • 不同词项之间没有共享维度,也没有连续结构

    因此,文本表示本质上是:在词表张成的坐标系中,对文本做一次计数或加权投影

  • “这个词是否出现、出现了多少次”是直接可见的我们能够看到的,就是模型用到的

(2) Embedding:隐式语言分布建模

Embedding: x∈Rd,d≪∣V∣ \text{Embedding: } \mathbf{x} \in \mathbb{R}^{d}, \quad d \ll |V|Embedding:xRd,dV

​ Embedding 的出发点与 BoW 完全不同:它并不试图显式记录“每个词出现了多少次”,而是希望用有限维度刻画词或文本在语言分布中的位置

  • 为什么可以是低维Rd\mathbb{R}^dRd

    Embedding 基于一个核心假设(distributional hypothesis):词的语义由其上下文分布决定。

    在训练过程中,模型并不关心单个词项本身,而是通过预测上下文、最小化语言建模目标,自动学习一组能够最好地刻画共现结构的连续向量坐标系

    结果是:

    • 向量维度不再与词表一一对应
    • 每一维代表一个不可直接命名的潜在语义因子
    • 这些维度是通过优化目标共同塑造出来的

    因此,文本或词被映射为:x∈Rd\mathbf{x} \in \mathbb{R}^dxRd

    其中,ddd足以表达语言分布结构的最小有效维度,而非词表大小。

  • **语义从“统计量”变成了“几何关系” **

​ 在 embedding 空间中,距离刻画语义相似度,方向编码语义偏移(如性别、时态、语域),子空间承载更高阶语义结构。

​ 语义不再以“某个词是否出现”的形式存在,而是隐含在向量之间的相对几何关系中

语义是被编码进空间结构里的,而不是被显式标注在维度上的。

  • 与 BoW 的本质对照
    • BoW:一词一轴,语义是显式的、离散的
    • Embedding:多词共轴,语义是隐式的、连续的

    这正是 embedding 能在低维空间中承载复杂语义的根本原因。

二、工程实践建议:什么时候仍然应该用 BoW?

​ 尽管 Embedding 在效果上几乎“碾压”传统方法,但在真实工程环境中,BoW 仍然远未过时

2.1 强烈推荐 BoW 的场景

  • 小数据集(<100k)

  • 低延迟在线系统

  • 可解释性要求高

    • 金融风控
    • 医疗辅助决策
  • CPU-only/资源受限环境

  • baseline/对照 实验

    在这些场景中,BoW + 线性模型往往是最稳、最快、最容易落地的方案

2.2 不适合 BoW 的场景

  • 长文本语义理解

  • 多轮对话建模

  • 推理型任务

  • 复杂语义匹配/语义检索

    一旦任务开始依赖上下文、隐含语义或推理能力,BoW 的表达瓶颈会迅速暴露。

总结

​ BoW 和 Embedding 的差异,并不在于“新旧”, 而在于它们对语言本质的不同建模假设。

​ BoW 将语言视为可枚举的符号统计,Embedding 则试图在连续空间中刻画语言分布结构。

​ 理解这一点,比记住任何模型结构都更重要。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/7 7:01:18

这份最新 AI / 机器学习学习路线!强烈建议收藏并反复阅读

当初决定踏入的 AI / 机器学习领域时&#xff0c;我感觉自己像是走进了一座没有地图的迷宫。四处寻找&#xff0c;满眼都是无穷无尽的教程、博客文章和训练营&#xff0c;个个都承诺能让你一夜成功。 但内心深处&#xff0c;我始终在问自己&#xff1a;我学的东西真的对吗&…

作者头像 李华
网站建设 2026/2/3 14:07:26

Win11 升级后 C 盘告急?Windows.old 文件清理攻略,一键释放几十 GB 空间

不少用户升级 Win11 最新版本后&#xff0c;都会发现 C 盘存储空间莫名缩水&#xff0c;打开文件夹查看才发现多了一个占用巨大的 Windows.old 文件。这个文件是系统升级时保留的旧版本安装文件&#xff0c;本意是方便后续回滚系统&#xff0c;但对大多数不需要降级的用户来说&…

作者头像 李华
网站建设 2026/2/3 15:52:48

【小程序毕设全套源码+文档】基于微信小程序的百货中心供应链管理系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/2/3 16:03:22

HoRain云--TailwindCSS响应式设计实战指南

&#x1f3ac; HoRain云小助手&#xff1a;个人主页 &#x1f525; 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想&#xff0c;就是为了理想的生活! ⛳️ 推荐 前些天发现了一个超棒的服务器购买网站&#xff0c;性价比超高&#xff0c;大内存超划算&#xff01;…

作者头像 李华
网站建设 2026/2/5 15:14:00

私域流量生态重构:链动2+1模式S2B2C商城小程序的流量整合与价值创造

摘要&#xff1a;在公域流量成本攀升与用户注意力碎片化的双重压力下&#xff0c;企业私域流量运营成为突破增长瓶颈的关键。本文以链动21模式S2B2C商城小程序为核心研究对象&#xff0c;结合电梯广告、社区场景等线下流量入口&#xff0c;构建"百川入海"的私域流量整…

作者头像 李华
网站建设 2026/2/5 22:54:05

燕尾潮汐表查询2026-02-03

位置&#xff1a;燕尾&#xff0c;日期&#xff1a;2026-02-03&#xff0c;农历&#xff1a;乙巳[蛇]年十二(腊)月十六&#xff0c;星期&#xff1a;星期二&#xff0c;潮汐类型&#xff1a;大潮活汛 最高水位&#xff1a;469.00cm&#xff0c;最低水位&#xff1a;59.00cm&a…

作者头像 李华