各位好,咱们接着上回书说。
上回书咱们聊到,神经网络在地下室里熬了二十年,终于靠着“刷题”在银行识别支票上露了脸。但您别看它能干活了,其实那时候的AI,脑子里主打一个“混乱”。这就好比一个刚学会认字的孩子,你让他认“大”字,他认得;你把那“大”字往左边挪挪,或者写得稍微歪一点,他可能一梗脖子:“不认识!这哪儿来的妖精?”
那时候的科学家也犯愁:这神经网络到底缺了点儿什么?明明给它喂了那么多数据,怎么还是个“死脑筋”?其实问题就出在,我们虽然给了它“脑细胞”,却没给它“长记性”和“看世界”的规矩。
1. 从“扁平世界”到“空间感知”
咱们得先给前文补个技术漏儿。在上世纪八九十年代,最原始的神经网络看图片,方式特别“暴力”。
比如一张 28×28 像素的数字图片。在最初的AI眼里,它不是一个圆圈或者一个钩,而是 784 个排成一长队的数字。AI会把图片像揉面团一样揉成长长的一条,然后挨个去数。
这种方法最致命的问题是:它把空间给弄丢了。
原始AI:它只记得“第200个像素点是黑的”。
现实世界:数字“3”是由左半圆和右半圆组成的。如果图片整体往左挪了一个像素,原来的第200个点变成了第199个点,AI就彻底抓瞎了——在它眼里,世界“崩塌”了。
这就是为什么杨立昆发明的 CNN(卷积神经网络)如此伟大。
2. 第一位专家:拿着放大镜的“卷积”
杨立昆意识到,AI不能“一锅端”。他给模型做了一次伟大的“减法”。
他不再让AI一次性盯着全图看,而是给AI发了一个“放大镜”(卷积核)。这个放大镜一次只看一小块区域(比如 3×3 个像素)。
局部感知:放大镜在图片上滑行。它先看这一小块是不是有一根横线,再看那一小块是不是有一个弯角。
规矩共享:最神的地方在于,不管这个“弯角”出现在左上角还是右下角,识别它的规则是同一套。
这就是“做减法”的智慧:我们限制了AI的视线,不让它瞎看,只让它盯着局部特征。结果,AI反而学会了什么是“形状”,什么是“线条”。
从此,AI第一次真正“看懂”了物理世界的空间结构。这就是LeNet-5能在银行大显身手的秘密——它不再被“写歪了”或者“挪位了”的数字搞糊涂了。
3. 第二位专家:懂上下文的“记忆大师”
但世界不光有图片,还有声音和文字。
说一段话,每个字的意思都取决于前面的内容。比如我说:“我昨天去银行取钱。”如果你听到最后一个“钱”字时,已经忘了前面是“银行”还是“快递站”,那你根本没法理解这句话。
早期的神经网络就是个“秒忘”的鱼。于是,科学家又想了一个招:把信息“绕回来”。
这就是RNN(循环神经网络)。它在计算这一秒的信息时,会偷偷把上一秒的“记忆残影”也加进来。
AI第一次,开始理解了“时间”。
4. 减法的启示:一个时代的“思想钢印”
CNN 解决了空间,RNN 解决了时间。这两个伟大的发明,核心逻辑其实都是一样的:人类通过自己的智慧,给AI设定了某种特定的“结构”。
我们告诉AI:
“看图得盯着局部看”(CNN)
“听话得按顺序记”(RNN)
这种“做减法、立规矩”的思想,在当时极具启发性,甚至成了一种信仰。大家觉得:AI要变聪明,人类就得更聪明地设计它的结构。
但也正是这种成功,无意中给后来的研究者烙上了“思想钢印”。
在很长一段时间里,人们陷入了一个怪圈:如果AI表现不好,一定是我们的结构还不够精巧。于是大家拼命钻研更复杂的结构,却害怕把模型做大。当时甚至有个共识:模型层数太深了没法练,数据太多了会“消化不良”。
人类以为自己在引领AI,却没发现,我们设定的这些“聪明规矩”,在某种程度上也限制了AI的上限。
5. 核心观点总结
从乱看到精看:CNN通过卷积(放大镜模式)让AI学会了识别物体的局部特征,解决了空间位移的问题。
从秒忘到有记忆:RNN通过循环机制让AI学会了处理序列信息,理解了上下文。
减法哲学:这一阶段的成功,源于人类把自己的知识(对空间和时间的理解)强行塞进了AI的结构里。
启发:
任何一种划时代的思想,在它诞生之初是照亮黑暗的火把,但在它统治时期,也可能成为阻碍探索的围墙。我们通过“做减法”让AI学会了看和听,却没料到,真正的奇迹,藏在被我们否定掉的“暴力大模型”里。
下一篇预告
如果“规则”和“结构”是AI变聪明的助推器,那么为什么现在的ChatGPT看起来不再那么依赖这些死板的结构了?
下一篇,我们将讲一个“离经叛道”的故事。
有一个模型,它把 RNN 苦心经营的“记忆序列”全给拆了。它大喊一声:“别管什么顺序了,也别管什么局部了,我们只需要‘注意力’!”
我们将聊聊:Transformer 的诞生,以及在那个疯狂的时代,AI是如何学会“抓重点”的。