Transformer的正弦/余弦位置编码-开发者社区

正弦/余弦位置编码 = 用不同频率的波浪给每个位置打独特的"时间戳"，让Transformer既能知道绝对位置，又能通过数学运算推导出相对距离。

一句话理解

位置编码 = 给每个座位（位置）发一个独特的"波形密码"，让模型知道谁坐在第几排。

为什么需要位置编码？

Transformer没有循环结构（不像RNN逐个处理），它是一次性看完全部token。所以它天生是"瞎子"——不知道顺序！

输入	对Transformer来说
“小猫在打滚”	一堆向量，不知道谁在前谁在后
“滚打在小猫”	也是一堆向量，完全一样对待

位置编码就是给每个位置贴一个"座位号"，让模型能区分顺序。

正弦/余弦是什么？（直觉理解）

想象一个弹簧或波浪：

位置0: 🌊 波浪起点（sin=0, cos=1） 位置1: 🌊 波浪往前一点（sin=0.84, cos=0.54） 位置2: 🌊 再往前（sin=0.91, cos=-0.42） 位置3: 🌊 更前面（sin=0.14, cos=-0.99）

每个位置对应波浪上的一个不同点，所以每个位置的编码独一无二。

具体公式拆解

PE(pos,2i)=sin⁡(pos100002i/d)PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right)PE(pos,2i)=sin(100002i/dpos)

PE(pos,2i+1)=cos⁡(pos100002i/d)PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right)PE(pos,2i+1)=cos(100002i/dpos)

参数含义

符号	含义	示例
`pos`	token的位置（第几个字）	0, 1, 2, 3, 4
`i`	向量的维度索引	0, 1, 2, 3
`d`	总维度（这里=4）	4
`2i`	偶数维度（0, 2）	用sin
`2i+1`	奇数维度（1, 3）	用cos

以"小猫在打滚"为例，手算位置编码

假设d=4（4维向量），计算每个位置的编码：

位置0（“小”）

维度0 (i=0): sin(0 / 10000^(0/4)) = sin(0) = 0 维度1 (i=0): cos(0 / 10000^(0/4)) = cos(0) = 1 维度2 (i=1): sin(0 / 10000^(2/4)) = sin(0) = 0 维度3 (i=1): cos(0 / 10000^(2/4)) = cos(0) = 1

位置0编码 = [0, 1, 0, 1]

位置1（“猫”）

维度0: sin(1 / 10000^0) = sin(1) = 0.84 维度1: cos(1 / 10000^0) = cos(1) = 0.54 维度2: sin(1 / 10000^0.5) = sin(1/100) = sin(0.01) = 0.01 维度3: cos(1 / 10000^0.5) = cos(0.01) = 1.00

位置1编码 = [0.84, 0.54, 0.01, 1.00]

位置2（“在”）

维度0: sin(2) = 0.91 维度1: cos(2) = -0.42 维度2: sin(0.02) = 0.02 维度3: cos(0.02) = 1.00

位置2编码 = [0.91, -0.42, 0.02, 1.00]

完整位置编码表

位置	token	维度0 (sin)	维度1 (cos)	维度2 (sin)	维度3 (cos)
0	小	0.00	1.00	0.00	1.00
1	猫	0.84	0.54	0.01	1.00
2	在	0.91	-0.42	0.02	1.00
3	打	0.14	-0.99	0.03	1.00
4	滚	-0.76	-0.65	0.04	1.00

关键特性

1. 每个位置编码独一无二

位置0: [0, 1, 0, 1] 位置1: [0.84, 0.54, 0.01, 1] 位置2: [0.91, -0.42, 0.02, 1]

没有两个位置是一样的！

2. 相对位置可以计算

神奇之处：模型可以通过编码相减，知道两个token相距多远！

位置1 - 位置0 的某种组合 → 距离是1 位置3 - 位置1 的某种组合 → 距离是2

这是因为正弦/余弦的周期性和线性组合性质。

3. 值域固定 [-1, 1]

不管句子多长，位置编码的值永远在-1到1之间，不会爆炸。

直观比喻

想象5个人站成一排，每个人手里拿一个不同颜色的灯：

位置0: 🔴 红灯（最左边） 位置1: 🟠 橙灯 位置2: 🟡 黄灯 位置3: 🟢 绿灯 位置4: 🔵 蓝灯（最右边）

Transformer通过"灯的颜色"就知道谁站在哪里。正弦/余弦就是生成这些"颜色"的数学方法。

为什么不用简单的 0,1,2,3,4？

方法	问题
直接用位置数字`[0,1,2,3,4]`	句子长了数字太大，模型不稳定
用one-hot`[1,0,0,0,0]`	维度爆炸，5000个位置要5000维
正弦/余弦	✅ 维度固定，值域稳定，能表达相对位置

最终操作：和词嵌入相加

词嵌入("小") = [0.2, -0.5, 0.8, 0.3] 位置编码(0) = [0, 1, 0, 1 ] ───────────────────────────────────── 最终输入 = [0.2, 0.5, 0.8, 1.3]

模型看到的不是单纯的"小"，而是"坐在第0个位置的小"！

免费GPU加速法线贴图生成器：NormalMap-Online完全指南

免费GPU加速法线贴图生成器：NormalMap-Online完全指南【免费下载链接】NormalMap-Online NormalMap Generator Online 项目地址: https://gitcode.com/gh_mirrors/no/NormalMap-Online 还在为3D模型表面细节不足而烦恼吗？NormalMap-Online是一款…

李华

上海AI Lab：真实场景虚拟细胞模型基准评测

摘要虚拟细胞模型旨在通过计算预测细胞对各类扰动的响应，已成为药物研发与精准医疗的前沿手段。但当前研究存在明显缺口：各类模型在标准基准测试中表现优异，但其预测结果在实际应用中的生物学意义尚不明确。这主要源于现有评估方案的缺陷——评估设置过度简化、流程不统一…

李华

告别命令行恐惧！Mac上Cornerstone 4.0保姆级SVN图形化操作指南

告别命令行恐惧！Mac上Cornerstone 4.0保姆级SVN图形化操作指南在软件开发的世界里，版本控制是每个开发者必须掌握的技能。Subversion（SVN）作为经典的集中式版本控制系统，至今仍在许多企业和项目中广泛使用。然而&…

李华

永久保存微信聊天记录的终极方案：WeChatMsg开源工具完整指南

永久保存微信聊天记录的终极方案：WeChatMsg开源工具完整指南【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trending/we…

李华

JoyCon-Driver终极指南：如何在Windows上完整使用Switch手柄的所有功能

JoyCon-Driver终极指南：如何在Windows上完整使用Switch手柄的所有功能【免费下载链接】JoyCon-Driver A vJoy feeder for the Nintendo Switch JoyCons and Pro Controller 项目地址: https://gitcode.com/gh_mirrors/jo/JoyCon-Driver 你是否拥有任天堂Swi…

李华

WeClaude：2000行Python实现微信与Claude Code本地桥接，打造隐私安全的移动编程助手

1. 项目概述：一个让微信成为你编程助手的本地桥接器作为一名在自动化工具和AI应用领域折腾了十多年的开发者，我见过太多试图把AI能力塞进即时通讯工具的尝试，但大多数要么过于臃肿，要么隐私堪忧。最近，我在GitHub上发现…

李华