第四章:第三次AI浪潮(2000s-现在)
4.1 2006年:深度学习复兴
关键人物:Geoffrey Hinton
2006年,Hinton等人发表了关于深度信念网络(DBN)的论文,标志着深度学习的复兴。
核心突破:
逐层预训练:
- 使用无监督的逐层预训练初始化深度网络
- 解决了深度网络难以训练的问题
深度信念网络(DBN):
- 由多个受限玻尔兹曼机(RBM)堆叠而成
- 每层独立训练,然后微调整个网络
历史意义:
- 证明了深度网络的有效性
- 为后来的深度学习发展奠定了基础
- 虽然预训练方法后来被更好的初始化方法替代,但这次突破开启了深度学习的新时代
注意:DBN的预训练方法后来被更好的方法(如Xavier初始化、He初始化)替代,但这次突破证明了深度学习的潜力。
历史意义:
这开启了深度学习的新时代,虽然当时还没有引起广泛关注。
4.2 2012年:ImageNet竞赛的突破
背景:
ImageNet是一个包含数百万张图像的数据集,每年举办图像分类竞赛。
2012年的突破:
AlexNet(由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton开发)在ImageNet竞赛中取得了突破性成果:
- Top-5错误率:从约26%降到15.3%(相比前一年的最佳结果)
- Top-1错误率:约37.5%(相比前一年的约45%)
- 使用了GPU加速训练(2块NVIDIA GTX 580)
- 证明了深度学习的威力,开启了深度学习时代
技术突破的意义:
- 这是深度学习首次在大型图像分类任务上取得显著优势
- 证明了深度神经网络可以处理大规模真实世界数据
- 激发了整个计算机视觉领域的深度学习研究热潮
影响:
- 深度学习在计算机视觉领域爆发
- 各大科技公司开始大力投资AI
- 开启了深度学习的新时代
技术细节:
- 使用ReLU激活函数
- Dropout防止过拟合
- 数据增强
- GPU并行计算
4.3 2016年:AlphaGo的胜利
历史时刻:
2016年3月,DeepMind开发的AlphaGo以4:1击败世界围棋冠军李世石。
为什么重要?
围棋的复杂性:
- 可能的棋局数:10^170(比宇宙中的原子数还多)
- 无法用暴力搜索
- 需要"直觉"和"策略"
技术突破:
- 结合了深度学习和强化学习
- 使用蒙特卡洛树搜索
- 自我对弈学习
象征意义:
- AI在复杂策略游戏中超越人类
- 证明了AI的潜力
- 引发了全球对AI的关注
后续发展:
- AlphaGo Master(2017年):在线对弈平台60连胜,击败所有人类顶尖棋手
- AlphaGo Zero(2017年10月):不需要人类棋谱,完全通过自我对弈学习,3天达到AlphaGo水平,21天达到AlphaGo Master水平,40天超越所有版本
- AlphaZero(2017年12月):可以学习多种棋类游戏(围棋、国际象棋、将棋),无需领域知识,仅通过规则学习
- AlphaStar(2019年):在《星际争霸2》中达到职业玩家水平,展示了AI在复杂实时策略游戏中的能力
- MuZero(2019年):不需要游戏规则,仅通过观察学习,展示了更强的通用性
4.4 2017年:Transformer架构
论文:《Attention is All You Need》(2017年6月,Google Brain和Google Research)
作者:Ashish Vaswani, Noam Shazeer, Niki Parmar等
核心创新:
自注意力机制(Self-Attention):
- 让模型直接关注输入序列中任意位置的信息
- 无需像RNN那样顺序处理,可以并行计算
- 解决了RNN的长距离依赖问题
并行计算优势:
- RNN需要顺序计算,Transformer可以并行计算所有位置
- 训练速度大幅提升
可扩展性:
- 可以处理更长的序列
- 为后来处理超长文本奠定了基础
影响:
- BERT(2018年):使用Transformer编码器,在多项NLP任务上取得突破
- GPT系列(2018-2024年):使用Transformer解码器,开启了大语言模型时代
- 大语言模型的基础:几乎所有现代大语言模型都基于Transformer架构
- 多模态扩展:Vision Transformer(ViT)、多模态Transformer等
历史意义:
Transformer架构是AI历史上最重要的架构之一,它不仅是NLP的基础,也影响了计算机视觉、语音识别等多个领域。
4.5 2022-2023年:大语言模型爆发
ChatGPT的发布:
2022年11月30日,OpenAI发布ChatGPT(基于GPT-3.5),引发了全球AI应用热潮。
发布后的影响:
- 用户增长:发布后5天内用户数突破100万,2个月内突破1亿
- 行业震动:各大科技公司加速大模型研发
- 应用爆发:AI应用从实验室走向日常生活
为什么ChatGPT如此成功?
- 对话能力:能够进行自然、流畅的对话
- 通用能力:可以回答各种问题、写代码、翻译等
- 易用性:普通用户可以直接使用
- 媒体关注:引发了大量媒体报道和讨论
国内大模型发展:
- 文心一言(百度):2023年3月16日发布
- 通义千问(阿里巴巴):2023年4月7日发布
- ChatGLM(智谱AI):开源对话模型,2023年3月发布
- 百川智能:开源大模型系列,2023年成立
- MiniMax:多模态大模型,2021年成立
- 月之暗面(Kimi):2023年成立,专注长文本处理
- 零一万物(Yi):2023年成立,开源大模型
发展特点:
- 国内大模型在2023年集中爆发
- 开源与闭源并存,各有优势
- 在中文理解和生成方面表现突出
4.6 2023-2024年:DeepSeek的崛起
DeepSeek的成立:
DeepSeek(深度求索)成立于2023年,专注于开发开源大模型。公司由前字节跳动AI Lab成员创立,致力于推动开源AI的发展。
重要时间节点:
- 2023年:公司成立
- 2024年1月:发布DeepSeek-Coder(代码能力突出)
- 2024年:发布DeepSeek-V2、DeepSeek-R1等模型
核心特点:
开源策略:
- 模型权重开源
- 代码开源
- 技术细节公开
技术突破:
- DeepSeek-Coder:在代码生成和理解任务上表现突出,在多个代码基准测试中达到或超越GPT-4水平
- DeepSeek-V2:采用MoE(专家混合)架构,在保持高性能的同时降低计算成本
- DeepSeek-R1:在数学、编程、推理等任务上达到国际先进水平
- 成本优势:相比闭源模型,提供更具竞争力的API价格
全球影响:
- 成为全球现象级开源大模型
- 推动了开源AI的发展
- 降低了AI应用的门槛
2024-2025年的发展:
- 政府应用:多地政府部门开始接入DeepSeek等大模型,用于政务服务
- 企业落地:企业应用广泛落地,从客服到代码生成
- 技术讨论:AI进入通用人工智能(AGI)的讨论,但AGI仍处于早期阶段
- 开源生态:开源大模型生态快速发展,降低了AI应用门槛
4.7 当前AI发展的特点
1. 规模越来越大:
- 模型参数量:从百万级到千亿级
- 训练数据:从GB级到TB级
- 计算资源:需要大量GPU集群
2. 能力越来越强:
- 多模态:文本、图像、语音
- 通用能力:一个模型处理多种任务
- 涌现能力:模型规模达到一定程度后出现新能力
3. 应用越来越广:
- 教育:个性化学习、作业批改
- 医疗:辅助诊断、药物发现
- 金融:风险评估、智能投顾
- 交通:自动驾驶、智能调度
4. 开源与闭源并存:
- 开源:DeepSeek、LLaMA、Mistral等
- 闭源:GPT-4、Claude等
- 各有优势,共同推动发展