news 2026/5/23 21:33:16

华为:LLM宽度与深度的适应性重用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华为:LLM宽度与深度的适应性重用

📖标题:VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
🌐来源:arXiv, 2512.14531

🌟摘要

大型语言模型 (LLM) 的快速扩展取得了显着的性能,但它也会导致高昂的内存成本。现有的参数高效方法,如剪枝和量化,主要压缩预训练模型,而不增强架构容量,从而达到基础模型的表示上限。在这项工作中,我们提出了 VersatileFFN,一种新颖的前馈网络 (FFN),它可以在固定参数预算内灵活地重用宽度和深度维度上的参数。受认知双重过程理论的启发,VersatileFFN 包括两个自适应路径:一个宽度变换器路径,从单个共享 FFN 生成子专家的混合,在不增加参数的情况下模仿稀疏专家路由,以及一个深度通用路径,递归地应用相同的 FFN 来模拟复杂标记的更深层次的处理。一个难度感知门控通过高效的宽度方向动态平衡两条路径,通过高效的宽度方向转向“简单”标记,并将更深的迭代细化分配给“硬”标记。至关重要的是,两条路径重用相同的参数,因此所有额外的容量都来自计算而不是内存。跨不同基准和模型尺度的实验证明了该方法的有效性。该代码可在 https://github.com/huawei-noah/noah-research/ tree/master/VersatileFFN。

🛎️文章简介

🔸研究问题:如何在大语言模型(LLM)中实现参数效率,同时保持高性能?
🔸主要贡献:论文提出VersatileFFN架构,通过宽度与深度的适应性重用,显著提升了模型的参数效率和计算能力。

📝重点思路

🔸设计了一个VersatileFFN架构,集成了宽度可变通道(宽路径)和深度可变通道(深路径),这两条路径共享基础权重。
🔸宽路径模拟虚拟Mixture-of-Experts(MoE)模块,快速响应领域特定的任务而不增加参数量。
🔸深路径实现递归计算能力,通过重用相同的FFN计算单元,动态分配更深的计算层次给复杂的token。
🔸引入Gumbel-Softmax控制器,根据token复杂度动态预测迭代次数,从而灵活分配计算资源。

🔎分析总结

🔸VersatileFFN在多个基准测试中表现优于其他方法,展示了其在相同参数预算内的强大性能。
🔸相比Mixture-of-Experts架构和传统的k-Loop方法,VersatileFFN在保持较低的参数增加的同时,显著提升了准确率。
🔸该方法有效地将宽度与深度计算结合,实现了在参数效率和推理能力之间的最佳平衡。

💡个人观点

论文的创新点在于通过深度和宽度的适应性组合,开创了一种不需显著增加参数量即可提升模型能力的新范式,适用于资源受限环境中的推理任务。

🧩附录

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 21:33:16

图Agent查询效率翻倍实战(DP-420优化秘籍曝光)

第一章:图Agent查询效率翻倍实战(DP-420优化秘籍曝光)在高并发图数据库场景中,图Agent的查询性能直接影响系统响应速度。通过对 DP-420 模块的深度调优,可实现查询效率提升超过100%。本文揭示核心优化策略与落地实践。…

作者头像 李华
网站建设 2026/5/22 0:08:10

5分钟快速上手MFRC522 NFC读卡器Python开发指南

5分钟快速上手MFRC522 NFC读卡器Python开发指南 【免费下载链接】MFRC522-python A small class to interface with the NFC reader Module MFRC522 项目地址: https://gitcode.com/gh_mirrors/mfr/MFRC522-python 想要在树莓派上快速实现NFC功能吗?MFRC522-…

作者头像 李华
网站建设 2026/5/1 15:59:55

复合类型(指针和自由存储空间)

指针和自由存储空间 在第3章的开头,提到了计算机程序在存储数据时必须跟踪的3种基木属性。为了方便,这里再次列 了这些属性: 信息存储在何处;存储的值为多少;存储的信息是什么类型。 您使用过一种策略来达到上述目的…

作者头像 李华
网站建设 2026/5/21 9:22:02

TVBoxOSC使用问题全解析:从入门到精通的实用指南

TVBoxOSC使用问题全解析:从入门到精通的实用指南 【免费下载链接】TVBoxOSC TVBoxOSC - 一个基于第三方项目的代码库,用于电视盒子的控制和管理。 项目地址: https://gitcode.com/GitHub_Trending/tv/TVBoxOSC 你是否在TVBoxOSC使用过程中遇到过这…

作者头像 李华
网站建设 2026/5/9 11:34:03

图Agent备份总失败?90%工程师忽略的3个核心配置项

第一章:MCP DP-420 图 Agent 备份失败的典型现象与影响在使用 MCP DP-420 图像处理代理进行数据备份的过程中,部分用户可能遭遇备份任务异常中断或完全失败的情况。此类问题不仅影响数据完整性,还可能导致关键业务系统无法及时恢复&#xff0…

作者头像 李华
网站建设 2026/5/22 14:05:41

CFR Java反编译工具:轻松解密字节码的终极指南

CFR Java反编译工具:轻松解密字节码的终极指南 【免费下载链接】cfr This is the public repository for the CFR Java decompiler 项目地址: https://gitcode.com/gh_mirrors/cf/cfr 在现代Java开发中,字节码解析已成为开发者必备的核心技能。CF…

作者头像 李华