news 2026/1/1 19:15:16

AI历史与发展-第三次AI浪潮(2000s-现在)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI历史与发展-第三次AI浪潮(2000s-现在)

第四章:第三次AI浪潮(2000s-现在)

4.1 2006年:深度学习复兴

关键人物:Geoffrey Hinton

2006年,Hinton等人发表了关于深度信念网络(DBN)的论文,标志着深度学习的复兴。

核心突破

  1. 逐层预训练

    • 使用无监督的逐层预训练初始化深度网络
    • 解决了深度网络难以训练的问题
  2. 深度信念网络(DBN)

    • 由多个受限玻尔兹曼机(RBM)堆叠而成
    • 每层独立训练,然后微调整个网络
  3. 历史意义

    • 证明了深度网络的有效性
    • 为后来的深度学习发展奠定了基础
    • 虽然预训练方法后来被更好的初始化方法替代,但这次突破开启了深度学习的新时代

注意:DBN的预训练方法后来被更好的方法(如Xavier初始化、He初始化)替代,但这次突破证明了深度学习的潜力。

历史意义

这开启了深度学习的新时代,虽然当时还没有引起广泛关注。

4.2 2012年:ImageNet竞赛的突破

背景

ImageNet是一个包含数百万张图像的数据集,每年举办图像分类竞赛。

2012年的突破

AlexNet(由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton开发)在ImageNet竞赛中取得了突破性成果:

  • Top-5错误率:从约26%降到15.3%(相比前一年的最佳结果)
  • Top-1错误率:约37.5%(相比前一年的约45%)
  • 使用了GPU加速训练(2块NVIDIA GTX 580)
  • 证明了深度学习的威力,开启了深度学习时代

技术突破的意义

  • 这是深度学习首次在大型图像分类任务上取得显著优势
  • 证明了深度神经网络可以处理大规模真实世界数据
  • 激发了整个计算机视觉领域的深度学习研究热潮

影响

  • 深度学习在计算机视觉领域爆发
  • 各大科技公司开始大力投资AI
  • 开启了深度学习的新时代

技术细节

  • 使用ReLU激活函数
  • Dropout防止过拟合
  • 数据增强
  • GPU并行计算

4.3 2016年:AlphaGo的胜利

历史时刻

2016年3月,DeepMind开发的AlphaGo以4:1击败世界围棋冠军李世石。

为什么重要?

  1. 围棋的复杂性

    • 可能的棋局数:10^170(比宇宙中的原子数还多)
    • 无法用暴力搜索
    • 需要"直觉"和"策略"
  2. 技术突破

    • 结合了深度学习和强化学习
    • 使用蒙特卡洛树搜索
    • 自我对弈学习
  3. 象征意义

    • AI在复杂策略游戏中超越人类
    • 证明了AI的潜力
    • 引发了全球对AI的关注

后续发展

  • AlphaGo Master(2017年):在线对弈平台60连胜,击败所有人类顶尖棋手
  • AlphaGo Zero(2017年10月):不需要人类棋谱,完全通过自我对弈学习,3天达到AlphaGo水平,21天达到AlphaGo Master水平,40天超越所有版本
  • AlphaZero(2017年12月):可以学习多种棋类游戏(围棋、国际象棋、将棋),无需领域知识,仅通过规则学习
  • AlphaStar(2019年):在《星际争霸2》中达到职业玩家水平,展示了AI在复杂实时策略游戏中的能力
  • MuZero(2019年):不需要游戏规则,仅通过观察学习,展示了更强的通用性

4.4 2017年:Transformer架构

论文:《Attention is All You Need》(2017年6月,Google Brain和Google Research)

作者:Ashish Vaswani, Noam Shazeer, Niki Parmar等

核心创新

  1. 自注意力机制(Self-Attention)

    • 让模型直接关注输入序列中任意位置的信息
    • 无需像RNN那样顺序处理,可以并行计算
    • 解决了RNN的长距离依赖问题
  2. 并行计算优势

    • RNN需要顺序计算,Transformer可以并行计算所有位置
    • 训练速度大幅提升
  3. 可扩展性

    • 可以处理更长的序列
    • 为后来处理超长文本奠定了基础

影响

  • BERT(2018年):使用Transformer编码器,在多项NLP任务上取得突破
  • GPT系列(2018-2024年):使用Transformer解码器,开启了大语言模型时代
  • 大语言模型的基础:几乎所有现代大语言模型都基于Transformer架构
  • 多模态扩展:Vision Transformer(ViT)、多模态Transformer等

历史意义

Transformer架构是AI历史上最重要的架构之一,它不仅是NLP的基础,也影响了计算机视觉、语音识别等多个领域。

4.5 2022-2023年:大语言模型爆发

ChatGPT的发布

2022年11月30日,OpenAI发布ChatGPT(基于GPT-3.5),引发了全球AI应用热潮。

发布后的影响

  • 用户增长:发布后5天内用户数突破100万,2个月内突破1亿
  • 行业震动:各大科技公司加速大模型研发
  • 应用爆发:AI应用从实验室走向日常生活

为什么ChatGPT如此成功?

  1. 对话能力:能够进行自然、流畅的对话
  2. 通用能力:可以回答各种问题、写代码、翻译等
  3. 易用性:普通用户可以直接使用
  4. 媒体关注:引发了大量媒体报道和讨论

国内大模型发展

  • 文心一言(百度):2023年3月16日发布
  • 通义千问(阿里巴巴):2023年4月7日发布
  • ChatGLM(智谱AI):开源对话模型,2023年3月发布
  • 百川智能:开源大模型系列,2023年成立
  • MiniMax:多模态大模型,2021年成立
  • 月之暗面(Kimi):2023年成立,专注长文本处理
  • 零一万物(Yi):2023年成立,开源大模型

发展特点

  • 国内大模型在2023年集中爆发
  • 开源与闭源并存,各有优势
  • 在中文理解和生成方面表现突出

4.6 2023-2024年:DeepSeek的崛起

DeepSeek的成立

DeepSeek(深度求索)成立于2023年,专注于开发开源大模型。公司由前字节跳动AI Lab成员创立,致力于推动开源AI的发展。

重要时间节点

  • 2023年:公司成立
  • 2024年1月:发布DeepSeek-Coder(代码能力突出)
  • 2024年:发布DeepSeek-V2、DeepSeek-R1等模型

核心特点

  1. 开源策略

    • 模型权重开源
    • 代码开源
    • 技术细节公开
  2. 技术突破

    • DeepSeek-Coder:在代码生成和理解任务上表现突出,在多个代码基准测试中达到或超越GPT-4水平
    • DeepSeek-V2:采用MoE(专家混合)架构,在保持高性能的同时降低计算成本
    • DeepSeek-R1:在数学、编程、推理等任务上达到国际先进水平
    • 成本优势:相比闭源模型,提供更具竞争力的API价格
  3. 全球影响

    • 成为全球现象级开源大模型
    • 推动了开源AI的发展
    • 降低了AI应用的门槛

2024-2025年的发展

  • 政府应用:多地政府部门开始接入DeepSeek等大模型,用于政务服务
  • 企业落地:企业应用广泛落地,从客服到代码生成
  • 技术讨论:AI进入通用人工智能(AGI)的讨论,但AGI仍处于早期阶段
  • 开源生态:开源大模型生态快速发展,降低了AI应用门槛

4.7 当前AI发展的特点

1. 规模越来越大

  • 模型参数量:从百万级到千亿级
  • 训练数据:从GB级到TB级
  • 计算资源:需要大量GPU集群

2. 能力越来越强

  • 多模态:文本、图像、语音
  • 通用能力:一个模型处理多种任务
  • 涌现能力:模型规模达到一定程度后出现新能力

3. 应用越来越广

  • 教育:个性化学习、作业批改
  • 医疗:辅助诊断、药物发现
  • 金融:风险评估、智能投顾
  • 交通:自动驾驶、智能调度

4. 开源与闭源并存

  • 开源:DeepSeek、LLaMA、Mistral等
  • 闭源:GPT-4、Claude等
  • 各有优势,共同推动发展
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!