news 2026/5/30 21:09:08

Transformer学习笔记(位置编码)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Transformer学习笔记(位置编码)

一. 关于位置编码:

pos表示token位置,2i和2i+1表示维度下标(奇偶)

可以看出,随着i越来越接近d/2(维度越来越往下),位置编码的值随着位置pos变换的幅度越大(正余弦周期越大),不同维度的位置编码就是不同周期的正余弦函数。这样可以让模型更容易感知两个词之间的间距k。

重点:

对于一对正余弦函数,根据三角函数的加法公式:

sin⁡(pos+k)=sin⁡(pos)cos⁡(k)+cos⁡(pos)sin⁡(k)
cos⁡(pos+k)=cos⁡(pos)cos⁡(k)−sin⁡(pos)sin⁡(k)

这意味着,存在一个只与 k有关、与pos无关的线性变换矩阵Mk​,使得:

PE(pos+k)=Mk⋅PE(pos)

深层次解释:

如果我们把 PE向量中的每一对 (sin,cos)看作二维平面上的一个点,你会发现:随着 pos的增加,这个点实际上是在这个二维子空间里做旋转运动。上面说到的矩阵MK其实是一个旋转矩阵。两个位置 pos和pos+k之间的点积,本质上取决于它们之间的夹角.
这种编码将位置信息编码成了相位(Phase)。在 Self-Attention 计算点积时,模型实际上是在衡量不同词在各个频率子空间里的相位差

这意味着模型在计算注意力时(即计算Q⋅KT时),两个词之间的点积会包含由于相对距离 k 产生的衰减或增强信号。模型不需要记住每个词的绝对坐标,它只需要通过线性投影就能感知出“这两个词相距 k 个单位”。这种平移不变性(Translation Invariance)对处理变长序列至关重要。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 12:21:57

洛谷 P9100 [PA 2020] Miny 题解

这道题难点在于状态设计。考虑线性 DP,设 dpidp_idpi​ 为仅考虑前 iii 个地雷且钦定第 iii 个不引爆的方案数。这样设计的好处在于 iii 前面的地雷一定不会引爆 iii 后面的,从而满足无后效性。 注意需要在左右无穷远处各添加一个爆炸半径无穷大的哨兵地…

作者头像 李华
网站建设 2026/5/28 12:21:57

从零开始学大模型核心:向量嵌入技术完全指南

文章全面介绍了向量嵌入技术在大模型中的应用,包括词嵌入、文档嵌入、多模态嵌入等多种类型,以及向量索引、存储优化和相似度计算等关键技术。文章详细阐述了嵌入与向量数据库的协同关系,以及在大规模语义搜索、推荐系统、异常检测和RAG等场景…

作者头像 李华
网站建设 2026/5/28 12:22:11

双非二程序员的大模型逆袭之路:RAG与Agent技术学习指南

本文探讨双非二本科生在大模型应用开发领域的就业前景,指出尽管学历存在挑战,但行业对RAG和Agent技术人才需求旺盛,更看重实际技术能力而非学历。文章分析了企业招聘要求、薪资前景,并提供了系统学习路径,包括Python编…

作者头像 李华
网站建设 2026/5/30 6:46:01

21点,如何计算胜率高达75%

算法原理低牌(2-6):1分低牌(2-6)在21点中通常对玩家有利,因为它们更可能帮助玩家接近21点(如16218,16319等),而不会轻易导致爆牌。因此,当低牌被打…

作者头像 李华
网站建设 2026/5/28 23:59:02

基于STM32单片机智能药盒 定时定量提醒 GSM短信 蜂鸣器提醒

目录硬件组成功能实现软件设计应用场景扩展功能建议源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!硬件组成 STM32单片机:作为主控芯片,负责协调各模块工作,处理定时、定量逻辑及通信功能。GSM模块&…

作者头像 李华