news 2026/5/9 1:04:55

OpenAI开源“Circuit‑Sparsity”模型,0.4 B 参数实现 99.9% 权重归零!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI开源“Circuit‑Sparsity”模型,0.4 B 参数实现 99.9% 权重归零!

12 月 15 日,OpenAI 在官方博客上公布了最新的开源项目——Circuit‑Sparsity 模型。该模型仅拥有 0.4 B 参数,但高达 99.9% 的权重被强制置零,形成极度稀疏的 Transformer 结构。OpenAI 表示,此举旨在破解大语言模型(LLM)长期困扰业界的“黑箱”难题,为医疗、金融、法律等高风险领域的 AI 落地提供可解释性支撑。

何为 Circuit‑Sparsity?

传统的密集模型在训练过程中会让每个神经元或权重矩阵同时编码多个概念,形成所谓的“超级位置”(Superposition),导致模型决策难以追溯。OpenAI 通过 动态剪枝 + Top‑K 稀疏约束,在训练阶段仅保留绝对值最大的 0.1% 权重,并在关键层引入 AbsTopK 激活函数 与 RMSNorm 替代传统 LayerNorm,使得模型内部自然形成紧凑、可读的 ‍“电路”(Circuits)‍。

电路的可读性与规模优势

实验显示,稀疏模型在完成同一任务时所需的计算路径比密集模型小 16 倍。例如在“字符串闭合”任务中,仅用 12 个节点 就构建了完整的电路,且每个神经元的激活语义明确——有的专门检测单引号,有的充当计数器。通过 均值消融 实验验证,去除非电路节点对性能影响微乎其微,而删掉电路关键节点则会导致模型瞬间崩溃,进一步证明这些电路是真正的决策通路。

性能瓶颈与后续路线

尽管可解释性大幅提升,稀疏模型的计算效率仍是制约因素。由于稀疏矩阵难以利用 GPU 的 Tensor Cores 加速,模型推理速度比同等密集模型慢 100–1000 倍,在千亿参数级别的前沿模型上直接应用尚不可行。为此,OpenAI 提出了 ‍“桥梁网络”(Bridges)‍ 方案:在稀疏模型与已有密集模型之间插入编码‑解码映射层,实现对密集模型的可解释性编辑,同时保持其高效推理能力。

社群反响

国外技术社区对该项目评价两极。一方面,有网友称这项技术把模型“减肥到只剩骨架”,相当于打开了 AI 的黑匣子;另一部分则指出,稀疏模型的训练成本高出 100–1000 倍,仍属于“研究时代”,短期内难以取代现有的 MoE(混合专家)模型。总体来看,Circuit‑Sparsity 为 AI 可解释性提供了全新思路,也为后续从密集模型中提取稀疏电路奠定了技术基础。

OpenAI 在博客中写道:“我们的目标是逐步扩大可可靠解释的模型范围,同时打造相关工具,让未来的 AI 系统更易于分析、调试与评估。”团队计划在后续工作中 从现有密集模型中提取稀疏电路,并研发 更高效的可解释性训练技术,以期在保持性能的前提下进一步降低模型复杂度。

结语

Circuit‑Sparsity 的发布标志着大模型从“黑箱”向“可解释”迈出了重要一步。虽然当前仍面临计算效率的挑战,但其在模型结构简化、决策路径可视化方面的突破,为 AI 在高风险行业的安全落地提供了新的技术路径。随着桥梁网络等后续方案的完善,稀疏模型有望在保持可解释性的同时,逐步缩小与主流密集模型的性能差距,推动人工智能向更透明、更可靠的方向发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 21:07:11

23、Python 性能优化与设计模式详解

Python 性能优化与设计模式详解 1. 性能优化 1.1 多线程 多线程在性能优化中是一个重要手段。通常情况下,两个线程的运行速度大约是一个线程的两倍,但增加更多线程可能并不会带来速度提升,甚至可能因为开销问题导致性能下降,例如 24 个线程的运行速度可能比 12 个线程还…

作者头像 李华
网站建设 2026/5/9 13:01:53

IGBT结温估算:从算法到模型的深度探索

电机控制器,IGBT结温估算(算法模型)国际大厂机密算法,多年实际应用,准确度良好…… 能够同时对IGBT内部6个三极管和6个二极管温度进行估计,并输出其中最热的管子对应温度。 可用于温度保护,降额…

作者头像 李华
网站建设 2026/5/9 4:58:48

AI大模型:重构产业生态的核心引擎

当成都市民通过语音快速上报城市民生问题,几分钟内便收到智能响应;当医生借助AI辅助诊断系统精准识别早期肺部结节;当自动驾驶车辆在复杂路况中平稳避障——这些场景的背后,都离不开人工智能大模型的技术支撑。如今,AI…

作者头像 李华
网站建设 2026/5/6 12:40:45

Qt5 QWebEngine 调试最佳实践指南

公众号:cpp手艺人 Qt5 QWebEngine 调试最佳实践指南 最近在项目中遇到很多关于QWebEngine的疑难杂症,越发的发现调试手段的重要性。所以我这里做了一次总结。 总结来说三种:日志输出信息和自带的dev tools,以及远程调试。 1、开启…

作者头像 李华
网站建设 2026/5/8 10:42:19

探索级联H桥SVG高频阻抗模型

级联H桥svg高频阻抗模型 最近一直在研究级联H桥SVG(静止无功发生器),今天来和大家分享一下其中的高频阻抗模型。 一、什么是级联H桥SVG 级联H桥SVG是一种用于电力系统无功补偿和谐波治理的重要装置。它由多个H桥级联而成,通过控…

作者头像 李华