news 2026/7/5 12:17:26

2024 Nature:AI 模型如果反复吃自己的输出,为什么会“模型坍塌”?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2024 Nature:AI 模型如果反复吃自己的输出,为什么会“模型坍塌”?

2024 Nature:AI 模型如果反复吃自己的输出,为什么会“模型坍塌”?

1. Paper Information

今天读的是 Nature 论文AI models collapse when trained on recursively generated data

  • Paper: AI models collapse when trained on recursively generated data
  • Journal: Nature 631, 755-759 (2024)
  • DOI: https://doi.org/10.1038/s41586-024-07566-y
  • Official link: https://www.nature.com/articles/s41586-024-07566-y
  • Core question: 当未来模型的训练数据里混入大量前代模型生成内容时,模型会不会越训越偏?

这篇论文最值得讲的地方,不是“AI 生成内容质量差”这么简单,而是一个更结构化的问题:如果第 2 代模型训练在第 1 代模型生成的数据上,第 3 代再训练在第 2 代输出上,如此循环,真实世界分布里的长尾信息会怎样?

论文给出的答案是:会出现model collapse(模型坍塌)。它不是单次训练失败,而是递归训练过程里逐步发生的分布退化。

2. Why is the old route not enough?

过去大模型扩展时,一个常见直觉是:数据越多越好。只要互联网上还能继续抓取文本、图像、代码,模型就可以继续扩大训练集。

但生成式 AI 普及以后,这个前提开始变得不稳。公开网络内容里越来越多样本可能本来就是模型生成的。如果这些内容没有来源标记,又被后续训练流程当成自然数据,训练集就会出现一个闭环:

真实数据训练模型 -> 模型生成内容进入网络 -> 新模型把这些内容当成真实数据继续训练。

问题在于,模型生成样本不是原始分布本身,而是模型对原始分布的近似。每一次近似都会带来误差;递归多代之后,误差不只是累加,而会改变数据分布的形状。

最先受伤的通常不是高频模式,而是低频、罕见、但真实存在的模式,也就是分布尾部。

3. Core method

论文把这个过程形式化为“递归生成数据训练”。设真实数据来自原始分布,第一代模型学到一个近似分布。之后的新训练集不再只来自真实世界,而是越来越多来自上一代模型的输出。

直观地说,模型每一代都在回答:

我看到的训练数据是什么样,我就把世界学成什么样。

如果上一代模型没有生成足够多的长尾样本,下一代就会以为这些样本不重要,甚至不存在。再下一代继续在这个变窄的分布上训练,长尾就更难回来。

这就是模型坍塌的核心机制:模型不是突然坏掉,而是在递归训练中逐步忘掉真实世界的多样性。

4. Mechanism breakdown

可以把递归训练想成三层误差:

第一层是采样误差。真实分布里本来就少见的样本,在模型生成样本里更容易缺席。

第二层是估计误差。下一代模型会把上一代样本的缺失理解成真实规律,而不是采样不足。

第三层是闭环放大。缺失一旦进入训练分布,就会被下一代继续复制,导致分布越来越窄。

一个关键点是:平均质量看起来可能还不错,但长尾已经被抹掉。比如一个语言模型仍能写出流畅句子,却越来越倾向于重复常见表达,少见观点、少见语体、少数群体表述和罕见事实更容易消失。

4.1 Formula lens

论文中可以用一个简化的混合训练直觉来理解风险。第 (i+1) 代训练分布可以看成真实数据、历史数据和模型生成数据的混合:

pi+1=αipθi+βipi+γip0,αi+βi+γi=1 p_{i+1} = \alpha_i p_{\theta_i} + \beta_i p_i + \gamma_i p_0,\quad \alpha_i+\beta_i+\gamma_i=1pi+1=αipθi+βipi+γip0,αi+βi+γi=1

这里 (p_0) 表示原始真实数据分布,(p_i) 表示第 (i) 代训练数据分布,(p_{\theta_i}) 表示第 (i) 代模型生成的分布。关键是 (\alpha_i):如果模型生成数据占比越来越高,而 (\gamma_i) 代表的新鲜真实数据补给很低,训练过程就更容易进入闭环。

论文的理论分析还指出,在某些高斯设置中,递归训练会让分布方差收缩,模型越来越确信一个更窄的世界:

Σn→0 \Sigma_n \rightarrow 0Σn0

这里 (\Sigma_n) 可以理解为第 (n) 代模型分布的方差结构。它趋近 0 的直觉是:模型样本越来越集中,多样性越来越少,长尾越来越难保留。

这两个公式都指向同一个解释:模型坍塌不是因为“模型不会生成”,而是因为生成分布被反复当作真实分布,导致训练信号越来越贫血。

5. How to read the experiments?

论文用不同设置展示同一个现象:当训练数据递归来自模型输出,分布会退化。

在简单分布实验中,模型会先丢掉尾部,再向更窄的模式集中。在图像或生成模型实验中,样本多样性下降。在语言模型相关实验中,生成文本会变得更重复,错误模式也可能被复制。

这里最重要的不是某个单一指标,而是证据方向一致:模型生成内容如果没有来源控制,会把训练集从“真实世界样本”变成“模型对真实世界的二手摘要”。摘要再被摘要,最后细节就没了。

6. Engineering or research implications

这篇论文对模型训练的启发很直接。

第一,数据来源谱系需要被记录。训练样本最好知道它来自人类、传感器、仿真系统,还是某个模型版本。

第二,合成数据需要被当作特殊数据源管理,而不是默认等价于真实数据。合成数据可以有价值,尤其在稀缺任务、隐私约束或可控增强里,但它需要过滤、配比和验证。

第三,训练集要保护长尾。只看平均质量、困惑度或主流 benchmark,可能发现不了少数模式正在消失。

第四,持续训练要注入新鲜真实数据。递归闭环最危险的地方,是模型以为自己看见了世界,其实只是在看前代模型留下的影子。

7. Do not overinterpret

这篇论文不等于“合成数据不能用”。更准确的边界是:

合成数据如果有明确来源、质量过滤、任务验证,并且和真实数据合理混合,仍然可以提升训练效率。

风险来自另一种场景:网络内容被 AI 大规模改写,来源标记缺失,后续模型又把这些内容当作自然数据无差别吸收。这个场景下,数据集看似变大,真实信息量却可能变少。

所以模型坍塌不是一个只属于实验室的概念。它提醒我们,未来 AI 训练的瓶颈可能不只是算力,也不只是数据量,而是数据生态能否持续保留真实、多样、可追踪的信号。

8. One-sentence summary

模型坍塌最值得记住的一句话是:AI 生成数据可以是工具,但不能让模型在没有来源控制和真实数据补给的闭环里反复吃自己的输出。

References

  • Shumailov et al. AI models collapse when trained on recursively generated data. Nature 631, 755-759 (2024). https://www.nature.com/articles/s41586-024-07566-y
  • Muennighoff et al. Scaling Data-Constrained Language Models. JMLR 2025. https://www.jmlr.org/papers/v26/24-1000.html
  • Soudry et al. The Implicit Bias of Gradient Descent on Separable Data. JMLR 2018. https://www.jmlr.org/papers/v19/18-188.html
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 12:16:21

从零复现GitHub深度学习项目:七步法攻克环境依赖与工程化难题

你是不是也遇到过这种情况:在 GitHub 上看到一个很酷的深度学习项目,比如一个图像分类模型、一个文本生成工具,或者一个强化学习游戏AI,满心欢喜地 git clone 下来,结果发现根本跑不起来?不是环境依赖报错…

作者头像 李华
网站建设 2026/7/5 12:15:31

股票期权 【实战图解】(从零到策略构建)

1. 期权入门:从保险思维理解金融工具第一次接触期权时,我盯着交易软件里那些曲折的盈亏曲线发懵。直到把期权类比成车险,突然就豁然开朗了。想象你花1000元给爱车买了一年期的保险(期权费),这期间如果发生事…

作者头像 李华
网站建设 2026/7/5 12:13:47

Python深度学习环境搭建与实战指南

1. Python深度学习环境搭建对于刚接触深度学习的开发者来说,环境配置往往是第一个拦路虎。我见过太多人在这个阶段就放弃了,主要原因是网上教程鱼龙混杂,不同版本的软件包兼容性问题层出不穷。下面是我经过数十次环境配置后总结的最佳实践方案…

作者头像 李华
网站建设 2026/7/5 12:12:31

Python机器视觉实战:图像处理与工业检测应用

1. 机器视觉与图像处理基础概述机器视觉作为人工智能的重要分支,正在深刻改变着我们处理和理解图像数据的方式。这个领域结合了计算机科学、光学工程和数学算法,让计算机能够像人类一样"看"并理解视觉信息。在工业检测、医疗诊断、自动驾驶等场…

作者头像 李华
网站建设 2026/7/5 12:06:44

TensorFlow模型优化:量化感知训练与剪枝实战指南

1. 为什么需要量化感知训练和剪枝在移动端和嵌入式设备上部署深度学习模型时,我们常常面临两个核心挑战:模型体积过大和计算资源受限。一个典型的ResNet-50模型参数规模超过90MB,在树莓派这类设备上运行需要数秒的推理时间。这直接催生了模型…

作者头像 李华
网站建设 2026/7/5 12:05:13

特征工程实战:数据预处理与特征选择完全指南

特征工程实战:数据预处理与特征选择完全指南 1. 特征工程的重要性 "数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限"特征工程流程: ├── 数据清洗:缺失值、异常值、重复值 ├── 特征变换&#xff1a…

作者头像 李华