摘要
https://arxiv.org/pdf/2512.24880
近期,以超连接(Hyper-Connections, HC)为代表的研究扩展了过去十年确立的无处不在的残差连接范式,通过扩展残差流宽度和多样化连接模式。虽然这带来了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒等映射特性,导致严重的训练不稳定性和受限的可扩展性,并且额外产生了显著的内存访问开销。为了解决这些挑战,我们提出了流形约束超连接(Manifold-Constrained Hyper-Connections, mHC),这是一个通用框架,通过将HC的残差连接空间投影到特定流形上来恢复恒等映射特性,同时结合严格的基础设施优化以确保效率。实证实验表明,mHC在大规模训练中是有效的,提供了切实的性能改进和卓越的可扩展性。我们预期mHC作为HC的灵活实用扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进指明有前途的方向。
1. 引言
自从ResNets(He等,2016a)提出以来,深度神经网络架构经历了快速演变。如图1(a)所示,单层的结构可以表述如下: