引言
如果我问你,要计算出整个宇宙的周长,并且误差小于一个氢原子的直径,你需要把圆周率精确到小数点后多少位?
答案可能让你大吃一惊,只需要39位。
在这个尺度上,第40位及以后对于描述我们的物理宇宙来说,已经毫无意义。
然而,当我们把目光投向人工智能的训练场,你会看到一个很疑惑的景象。
为了教AI区分一张图片里是猫还是狗,或者让它写出一首模仿莎士比亚风格的十四行诗,我们竟然在使用FP32(32位单精度浮点数),甚至FP64(64位双精度浮点数)。
这意味着什么?
这意味着,我们不仅试图用精确到科学计数法的小数点后十几位的数字去描述莎士比亚的浪漫,而且我们还在用这些冗余到极点的数字,去占用我们宝贵的显存带宽,去消耗我们有限的电力资源。
目前主流的AI计算格式,正经历着一场从FP32到FP16,再到BF16和TF32的大变革:
FP32(单精度):传统的科学计算霸主,拥有23位尾数,精度极高,但计算缓慢,且极其占显存,在AI时代显得有些过时。
FP16(半精度):显存占用减半,但因为指数位太少(只有5位),很容易发生数值溢出,训练起来像是在走钢丝。
BF16(脑浮点):Google的天才发明。它发现AI模型其实不在乎精度,而在乎范围。于是它极其大胆地砍掉了大部分尾数(精度),保留了和FP32一样宽广的指数(范围)。虽然它算出来的数很糙,但它极其皮实,怎么训都不崩,成为了现在大模型的标配。
TF32 (TensorFloat-32):它是英伟达的杰作。表面上接受FP32的输入,但在计算的核心瞬间,偷偷把精度砍成FP16,把范围保持在BF16。它让你在不用改代码的情况下,享受到了降维打击般的速度。
但这还远远不够。
面对指数级增长的模型参数,哪怕是BF16也显得太臃肿了。
我们真的需要这么多比特吗?
为了让AI获得智能,我们到底是需要精确的计算,还是需要模糊的概率?
这不仅是一个工程问题,这是一个关于智能本质的哲学拷问。
香农-哈特利定理
在物理世界被光速和热力学锁死的同时,数学世界里也有一位法官在注视着我们,他就是克劳德·香农。
早在1948年,香农就用那个著名的香农-哈特利定理 (Shannon-Hartley Theorem)宣告了数据传输的极限。
这个公式告诉我们,任何一条物理信道,无论是铜缆还是光纤,它的信道容量 (C) 都是有上限的。
现在的困境是物理学家已经把带宽(B)撑到了极限,如NVLink的1.8TB/s,信噪比(S/N)也很难再提升。
这就好比是一条已经堵得水泄不通的高速公路,我们无法再把路修得更宽了。
既然路不能变宽,那我们能不能把车变小?
在AI训练中,所谓的车,就是一个个传递梯度的浮点数。
FP32是一辆32吨的大卡车。
FP16是一辆16吨的中卡。
FP4则是一辆4吨的小轿车。
如果你非要开大卡车(FP32),那这条高速公路每秒只能过100辆车。
但如果你愿意换成小轿车(FP4),同样的马路,每秒就能过800辆!
这不仅仅是量的变化,这是质的飞跃。
降低精度,本质上是在不违反物理定律,即不增加物理带宽的前提下,利用数学手段(信息压缩),实现了信息传输速率的超光速提升。
我们正在从一个追求单个数值精确度的时代,转向一个追求整体信息吞吐量的时代。
香农告诉我们,当你无法改变信道时,你必须改变编码。
FP 4
如果我们把目光从硅基芯片移开,看向我们自己的大脑,这个宇宙中已知最高级的智能载体,我们会发现一个令人震惊的事实。
造物主从来都不在乎精度。
人脑中的神经元,通过动作电位(Spike)来传递信息。这是一种模拟信号,充满了随机的噪声和波动。
如果非要量化,一个神经元发放一次脉冲所携带的信息量,可能连1-2 bit都不到。甚至有研究表明,大脑内部的计算精度,可能还不如最廉价的INT8芯片。
然而,就是这一堆充满噪声、精度极低的神经元,却涌现出了李白的诗篇、爱因斯坦的相对论和贝多芬的交响乐。
这给AI带来了巨大的启示:智能的本质,可能并不在于单个神经元的精确计算,而在于庞大神经网络连接的复杂结构。
正是基于这个洞察,英伟达在最新的Blackwell架构中,激进地推出了FP4精度。微软更是直接探索了1-bit LLM (BitNet) ,让神经网络的权重只有 {-1, 0, 1} 三个值。
这不再是简单的压缩,这是返璞归真。
我们在试图剥离掉数学上那些冗余的装饰,如小数点后的第23位,去寻找智能最原始、最核心的骨架。
我们曾经以为,AI需要像造火箭一样精确。
现在我们发现,AI其实更像是在画印象派油画,模糊的笔触,却能构筑出最真实的光影。
MXFP4
虽然道理都懂,但要在工程上把精度降到4bit,无异于在刀尖上跳舞。
FP4 (4位浮点数) 只有16个刻度。想象一下,你要用这仅有的16个刻度,去描述神经网络里那些从10e-7到10e5跨度极大的数值。这就像是用一把只有厘米刻度的尺子,去测量原子的直径。
这带来了巨大的量化噪声 (Quantization Noise)。
我们可以用一个公式来描述它:
每一次量化,都是一次信息的截断和丢失。
当位数足够多(FP32)时,这种丢失微不足道。但在FP4的世界里,这种噪声会被放大到足以淹没信号的地步。
如果处理不好,模型的梯度会瞬间消失,或者数值直接溢出,训练出来的模型会变成一个只会胡言乱语的傻子。
为了这场赌局,英伟达在B200上押上了全部身家。他们引入了微缩放 (Micro-scaling) 技术,搞出了MXFP4这种黑科技。让一组数共用一个指数,从而在极限的4bit空间里,硬生生挤出了动态范围。
这是一场豪赌。
Tensor Core
为了让这场赌局更有胜算,英伟达祭出了他们最新的杀手锏第五代 Tensor Core。
请看这张展示Tensor Core进化史的对比图:
从左到右,我们看到了一座座拔地而起的算力摩天大楼。
最左边的Pascal架构,还只是平铺在地面上的普通运算单元。
到了Turing架构,第一代Tensor Core引入了FP16,算力大厦初具规模(8倍吞吐)。
到了Ada/Hopper架构,FP8的引入让这座大厦翻了一倍(16倍吞吐)。
而最右边的Blackwell架构,这座高耸入云的绿色巨塔,正是建立在 FP4 这个极其大胆的地基之上!
图中最顶端的那个细长的小积木块,形象地揭示了 FP4 的本质,极致的压缩。
相较于FP32的庞大身躯,FP4小巧得就像一块乐高积木。这意味着,在同样的芯片面积上,在同样的显存带宽下,我们能像搭积木一样,一次性打包处理32倍于传统方式的数据量!
这就是英伟达的底气。他们通过硬件层面的极致优化,强行把FP4这种粗糙的数据,变成了支撑起32倍算力增长的坚固砖石。
如果FP4跑通了,这座32倍吞吐量的摩天大楼将不仅是英伟达的丰碑,更将成为所有竞争对手难以逾越的高墙。
HiF8
华为也并没有坐以待毙。
在昇腾最新的路线图中,我们看到了HiF8 (High Fidelity FP8) 和未来的HiF4。虽然名字不同,但殊途同归。华为正在利用其独特的达芬奇架构,试图定义一套属于中国的低精度计算标准。
这是一场关于定义权的战争。
如果英伟达的MXFP4成为了行业标准,那么全球的AI模型都将在这个格式上训练,华为将不得不花费巨大的代价去兼容对手,反之亦然。
这是一场没有退路的豪赌。
如果FP4跑通了,算力将瞬间翻倍,显存效率翻倍,那将是对摩尔定律的一次嘲讽。
谁不敢降,谁就出局。
谁降了却没稳住,模型崩了,谁就出局。
概率计算的回归
回顾计算机的发展史,我们一直走在一条追求精确的道路上。从8位到16位,再到32位、64位,我们试图用无限的精度去逼近物理世界的真理。
但AI的出现,给我们上了一课。
它告诉我们,在一个充满噪声、混沌和不确定的世界里,绝对的精确,往往意味着绝对的脆弱。
在高维几何学中,存在一个反直觉的真理:真正的智慧,从来不栖息在那些陡峭如针尖的最优解上,而是游荡在那些广阔而平坦的平原里。
当我们把参数空间扩展到万亿维度时,我们不再需要用64位浮点数去精确锚定某一个坐标。
因为那里存在着无数种殊途同归的路径,只要我们大概率地落在这片平原上,模型就能抓住事物的本质。
FP4甚至1-bit的兴起,标志着人类计算范式的根本性转折。
我们正在从逻辑计算(Logic Computing)的低维确定性,回归到概率计算(Probabilistic Computing)的高维鲁棒性。
我们正在学会像大脑一样思考,主动丢弃那些无关紧要的小数点(噪声),去提取万事万物之间那些粗糙但真实的高维特征(信号)。
这不仅是算力的进化,这是对宇宙本质的某种回归。
智能,就是用最少的比特(低精度),去构建一个能以最高概率(模糊正确)预测未来的模型。
其本质,就是对抗复杂性的有损压缩。
在通往AGI的路上,宁要模糊的正确,不要精确的错误。
这,就是精度的战争带给我们的终极启示。