news 2026/3/1 21:55:34

【量化】w8a8及per-channel等概念辨析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【量化】w8a8及per-channel等概念辨析

在看FlashAttention的一个issue时,问了大模型推荐了这篇文章,解决了我长期以来对量化方面存在的几个疑问的点。

  1. w8a8,w4a8这么多的量化手段到底是什么意思?
    W指权重,A指激活值。权重就是模型训练好后固定下来的,可以理解成大模型的记忆,也即神经网络的配置。A是在实际推理过程中的激活值。W4A8就是指权重用int4量化,激活值用W8A8量化。二者的区别在于,权重是静态的,在模型训练好后就不变了。激活值是动态的,是碎输入值的变化而变化的。因此采用W更小的方式会更加节省权重存放的显存占用,使用更小的A可以加速推理计算和节省推理中占用的现存,当前受硬件和模型效果的约束,A一般不会压缩到8以下。
  2. per-channel, per-tensor, per-token的区别
    上述指的是我们的量化的范围,有一个基本的尝试就是量化并不是直接压缩数据,这样会从高精度浮点空间下降到低精度整型空间。因此还需要一个scale变量来进行缩放,以实现仍然在浮点空间存放。scale的存在决定了如果scale的范围更大,用一个scale表示的误差就会更大。一方面会受到某个局部值的影响;另一方面范围越大越可能出现溢出等问题,造成精度损失。但范围越小,需要的scale变量越多,计算开销越大。
    因此需要平衡好合适的计算范围,以实现满足计算要求的同时尽量降低计算开销。per-tensor就是对整个tensor进行一次量化。而per-channel将其分割成多个channel(维度),对每个维度进行独立的量化,就可以实现更好的量化效果。per-token将范围进一步缩小到单个token,量化效果更好,开销更大。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/27 9:17:29

低绩效员工复盘:招聘时如何识别“可能”的低绩效风险?

“季度复盘又头疼,3个低绩效员工2个是新招的”“面试时看着优秀,入职后频频掉链,培训沟通全白费”——绩效季的自我怀疑,是不少HR的常态。低绩效员工不仅拉低团队效率,更会叠加招聘、培训、离职重置等隐性成本。其实很…

作者头像 李华
网站建设 2026/2/28 8:25:37

MMC型静止同步补偿器与载波移相调制下的电压均衡控制

MMC型statcom,mmc型SVG,mmc型静止同步补偿器,mmc型静止无功发生器,模块化多电平变换器,mmc,mmc型statcom,载波移相调制,电压均衡控制,桥臂内电压均衡控制,桥臂…

作者头像 李华
网站建设 2026/2/23 17:58:05

深度学习毕设选题推荐:基于python-CNN卷神经网络机器学习对苹果是否腐烂识别基于python-CNN深度学习对苹果是否腐烂识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/2/26 18:07:20

计算机深度学习毕设实战-基于python-CNN机器学习训练识别蔬菜是否新鲜基于python-CNN训练识别蔬菜是否新鲜

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华