news 2026/7/4 17:30:17

大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

不是。
BPE 结束后,模型拿到的已经是整数序列(token id),下一跳直接就是nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下:

  1. 文本 → BPE 分词 → [token₁, token₂, …]
  2. token → 查表(vocab_size × hidden_dim 的矩阵)→ [e₁, e₂, …]
  3. 后续 Transformer 层在稠密向量上运算。

one-hot 只在教学推导里出现(维度 = vocab_size,1 个 1 其余 0),用来写公式
output = one_hot @ Embedding_matrix
实际代码里直接用embedding(idx)查表,效率更高、内存更省。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/1 16:08:37

ACPI断点源代码版--server03调试指南

ACPI断点源代码版 NTSTATUS LOCAL RunContext(PCTXT pctxt) { while (!IsStackEmpty(pctxt)) { CHKDEBUGGERREQ(); pfh (PFRAMEHDR)pctxt->LocalHeap.pbHeapEnd; ASSERT(pfh->pfnParse ! NULL); rc pfh->pfnParse(pctx…

作者头像 李华
网站建设 2026/7/1 16:15:29

重庆思庄技术分享——oracle添加ACL(访问控制表)的步骤

oracle添加ACL(访问控制表)的步骤 一、新增 步骤 1: 创建 ACL 文件并授予权限 首先,我们创建一个新的 ACL 文件,并允许 INFODBA用户访问外部 HTTP 服务。 BEGIN -- 创建一个新的ACL,允许bakmes用户进行网络访问

作者头像 李华
网站建设 2026/7/1 13:26:04

JX076_PLC在高楼供水系统中的应用

第二章 系统组成及控制要求 2.1系统简介 为改善生产环境,某公司投资清洁水技改工程并建成一座日产水2.5万顿的供水系统,分别建设了抽水泵系统、加压泵系统和高位水池。根据公司用水需求特点,从抽水泵系统过来的水一部分直接供给生产用水部门&…

作者头像 李华
网站建设 2026/7/1 13:26:05

学长亲荐2026TOP10AI论文平台:本科生毕业论文全攻略

学长亲荐2026TOP10AI论文平台:本科生毕业论文全攻略 2026年AI论文平台测评:为何值得一看 随着人工智能技术的不断进步,越来越多的本科生开始借助AI工具辅助完成毕业论文写作。然而,面对市场上琳琅满目的AI论文平台,如…

作者头像 李华
网站建设 2026/7/1 20:22:33

【目标检测】竹林与杂草识别_YOLOv26改进算法研究

1. 【【目标检测】竹林与杂草识别_YOLOv26改进算法研究】 本文链接: 边缘计算 专栏收录该内容 ]( “边缘计算”) 98 篇文章 59.90 99.00 订阅专栏 本文详细介绍了针对竹林杂草识别任务对YOLOv26算法的改进研究。首先分析了原始算法在竹林场景下的局限性&#x…

作者头像 李华
网站建设 2026/7/2 19:08:54

GIF动图怎么加字?高效GIF加字工具推荐

做自媒体配图、电商主图、微信推文或课件动图时,想要给动图加字标注卖点、补充讲解,却总因选不对GIF加字工具踩坑:要么工具操作复杂,新手半天学不会;要么加字后画质模糊、字体边缘发虚,还会让动图体积变大,…

作者头像 李华