news 2026/3/10 5:18:39

启用 FlashAttention 的令牌压缩 “表象移动 “的工作原理和效果

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
启用 FlashAttention 的令牌压缩 “表象移动 “的工作原理和效果

摘要

本文提出了一种新方法来应对变压器模型计算成本增加的挑战。

近年来,变换器已被广泛应用于自然语言处理和图像/视频理解领域,但随着规模的扩大,处理效率已成为一个严重问题,因为自我注意机制的计算复杂度与输入词块数量的平方成正比增长。

传统上,人们试图从两个方向解决这一问题。

一种是以 FlashAttention 为代表的内存效率方法,另一种是基于标记压缩的计算量减少方法。

然而,标记压缩通常与 FlashAttention 等不建立注意力图谱的机制不兼容,因为它使用注意力图谱来估计标记的重要性。

因此,作者提出了一种新的指标–表征偏移。这可以衡量每个标记在通过各层时的表征发生了多大变化,也是定义重要性的一种方法。

该指标无需训练,与模型无关,可与 FlashAttention 结合使用。

实验结果表明,这种方法在效率和准确性方面都优于传统方法,推理速度提高了 5.5 倍。

建议的方法

所提出的方法 “表征偏移”(Representation Shift)可以测量每个标记在层的输入和输出中的嵌入表征之间的差异,从而量化标记在模型中被增强了多少信息。

具体来说,计算向量通过 MLP 层和注意力层前后的距离,并将此值作为重要性得分。L2 准则在测量距离方面表现最为稳定。

传统方法依赖于注意力图谱,而这种方法可以独立于注意力机制来估计标记的重要性,因此可以自然地与不构建注意力图谱的计算方法(如 FlashAttention)相结合。

该框架还具有足够的通用性,不仅适用于 Transformer,还适用于 CNN 和状态空间模型 (SSM)。

作者还详细研究了设计选择,如在哪一层测量表征偏移,以及基于哪种操作(注意力或 MLP)。
结果表明,使用 MLP 层的变化量最为有效。

这种设计可以将信息损失降到最低,同时消除标记冗余。

实验

作者对图像分类和视频理解任务进行了广泛的实验,以测试所提方法的有效性。

首先,在视频任务中,使用无掩码教师(UMT)对视频文本检索和视频质量保证进行了评估,每层标记减少了 20%。

结果表明,与现有的基于注意力分数的方法相比,表征转移与 FlashAttention 的结合更快、更准确,吞吐量最多提高了 5.5 倍。

与单纯的模型微型化相比,它还能更好地权衡速度/准确性。

接下来,使用 DeiT 序列在 ImageNet 上对图像分类进行了验证,与 FlashAttention 相结合,推理速度提高了 1.2 倍,同时准确率也高于传统的基于注意力的方法。

它还被应用于 CNN/SSM,如 ResNet 和 Vision Mamba,其有效性在这些非基于变换器的架构中得到了证实。

特别是,在 ResNet-50 上逐行标记剪枝的速度提高了 18% 以上,并在很大程度上保持了准确性。

这些实验表明,表征转换是一种通用而强大的标记压缩标准。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/8 23:17:30

【Java毕设全套源码+文档】基于springboot的四川火锅文化网站的设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/2/17 19:59:45

【Java毕设全套源码+文档】基于springboot的洛川县苹果销售管理平台设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/3/7 16:08:51

超越表面正确性:HUMANEVAL+如何重塑代码生成大模型的评估基准

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术! 引言 随着代码生成大型语言模型(LLM)如ChatGP…

作者头像 李华
网站建设 2026/3/7 19:04:17

研究生必备:8款免费AI论文写作工具,半天搞定初稿,全学科覆盖!

如果你是那个正在实验室通宵、对着空白文档发呆、被导师的催稿微信逼到焦虑的研究生;如果你是那个预算有限、查重费用都嫌贵、却要为毕业论文字字斟酌的硕士/博士生——请你停下来,仔细看这篇文章。 我们懂你。懂你面对庞大文献时的茫然,懂你…

作者头像 李华
网站建设 2026/3/2 23:44:06

C语言实现猜数字游戏(附带源码)

一、项目背景详细介绍在程序设计入门阶段,小游戏类项目是最容易激发学习兴趣、也是最适合综合训练基础知识的实践题型。其中,**“猜数字游戏”**几乎是所有编程语言教学中的经典案例。所谓猜数字游戏,指的是:程序随机生成一个整数…

作者头像 李华
网站建设 2026/3/7 14:20:56

python-uniapp小程序烩面店餐饮饭馆餐桌预订点餐系统的设计与实现_oa17g41j

文章目录系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 python-uniapp_oa7给1j 小程序烩面店餐饮饭馆餐桌预订点餐系统的设计与实现 项目技术简介 …

作者头像 李华