【大模型入门必看】DeepSeek 居然是个输入法？揭秘大模型背后的假象与真相-开发者社区

你好，我是司沐。

大模型（LLM）已经火了三年多了。

从最初惊艳全球的 ChatGPT，到今年年初的国产之光 DeepSeek，以及百花齐放的豆包、千问、Claude、Gemini、Kimi等等，大家每天都在用。

但如果我问你：“你觉得大模型到底是什么？”

绝大多数人的回答可能是：

“它是一个超级机器人，背后连着一个巨大的知识库。我问它问题，它就去库里检索，然后把答案拼凑出来给我。”

这听起来很合理，但这是错的。

作为一名 Agent 系统架构师，我经常需要向客户或是刚入行的开发者解释这个问题。

在最近的一次对谈中，我用了一个输入法的例子，让一位计算机专业的同学彻底打破了对大模型的幻想。

这个比喻来自于B站UP主漫士沉思录的这支视频：【硬核科普】GPT等大模型是怎么工作的？为啥要预测下一个词？。真的是非常优秀且易于理解的比喻。
如果你比起文字更喜欢看视频，可以直接看他的这支视频。

今天，我也想帮你祛个魅。理解了原理，你才能明白为什么它会一本正经地胡说八道，以及所谓的“会思考的模型”到底是怎么回事。

01 它没有“大脑”，它只是在玩“文字接龙”

我们要承认一个反直觉的事实：大模型本质上不理解它在说什么。

它既不懂逻辑，也不懂真理。它唯一擅长的一件事，叫做预测下一个字（Next Token Prediction）。

想象一下你手机上的输入法。
当你打出“我”字的时候，输入法会猜你下一个字想打什么？

大概率是：“们”、“想”、“去”、“爱”这种字。
几乎不可能是：“桌”、“跑”、“飞”这种字，除非你在搞抽象。

如果你一直点击候选词的第一个词，输入法也能连成一句话，虽然可能逻辑不通。

大模型（LLM），其实就是一个吃过了全人类书本、网页、代码数据的“超级输入法”。

它看过的书太多了，多到它掌握了语言之间极其复杂的概率联系。

当你问：“1+1等于几？”
它并不是在做算术运算，它是在预测：在人类的语料中，“1+1等于”这几个字后面，概率最高的下一个字是“2”。

所以，GPT（Generative Pre-trained Transformer）这个名字其实就暴露了它的本质：

Generative（生成）：它是在生成（补全）文字。
Pre-trained（预训练）：它提前学下了海量数据的概率关系。

01 它没有“大脑”，它只是在玩“文字接龙”

我们要承认一个反直觉的事实：大模型本质上不理解它在说什么。

它既不懂逻辑，也不懂真理。它唯一擅长的一件事，叫做预测下一个字（Next Token Prediction）。

想象一下你手机上的输入法。
当你打出“我”字的时候，输入法会猜你下一个字想打什么？

大概率是：“们”、“想”、“去”、“爱”这种字。
几乎不可能是：“桌”、“跑”、“飞”这种字，除非你在搞抽象。

如果你一直点击候选词的第一个词，输入法也能连成一句话，虽然可能逻辑不通。

大模型（LLM），其实就是一个吃过了全人类书本、网页、代码数据的“超级输入法”。

它看过的书太多了，多到它掌握了语言之间极其复杂的概率联系。

当你问：“1+1等于几？”
它并不是在做算术运算，它是在预测：在人类的语料中，“1+1等于”这几个字后面，概率最高的下一个字是“2”。

所以，GPT（Generative Pre-trained Transformer）这个名字其实就暴露了它的本质：

Generative（生成）：它是在生成（补全）文字。
Pre-trained（预训练）：它提前学下了海量数据的概率关系。

02 既然是补全文字，为什么它能跟我“对话”？

有同学会问：“司沐老师，如果它只是补全文字，那应该是我写半句，它补半句才对，就像他帮我写文章一样。为什么我问它问题，它能像个人一样回答我？”

这就要提到大模型训练的第二阶段：后训练（Post-training）。

在预训练阶段，模型确实只是个“补全机器”。但在后训练阶段，工程师给它喂了一种特殊格式的数据：

User:你好。
AI:你好！有什么我可以帮你的吗？<结束>
User:讲个笑话。
AI:有一天…<结束>

模型通过大量学习这种**“对话剧本”**，学会了一种惯性：
当看到“User: xxx”时，它不仅要预测下一个字，还要模仿“AI”的语气生成回答，并且在说完后自动生成一个“停止符”（EOF）。

所以，你在屏幕上看到的“人工智能对话”，在模型眼里，不过是它在努力补全一个**“对话剧本”的下一行**而已。

为了让读者充分理解，我在这里放一份基于Llama3模型特殊Token的一段对话的底层文本，大家可以看看，我们与大模型的所谓“对话”，在大模型眼里到底是什么样子的：

<|begin_of_text|><|start_header_id|>system<|end_header_id|> 你是一位诚实的技术型AI助手，你的任务是用通俗易懂的语言解释大模型的原理。 <|eot_id|> <|start_header_id|>user<|end_header_id|> 为什么我觉得你在思考？你真的理解我在说什么吗？ <|eot_id|> <|start_header_id|>assistant<|end_header_id|> 这其实是一种错觉。严格来说，我并没有“理解”或“思考”这种人类的主观意识。 我当下所做的，只是基于你输入的文字序列（Context），计算下一个最可能出现的字（Token）是什么。就像你看到“白日依山”，脑海里大概率会自动补全“尽”一样。现在的对话，本质上就是一场参数规模达到数千亿级别的、极其复杂的“成语接龙”。 <|eot_id|> <|start_header_id|>user<|end_header_id|> 可是你的回答逻辑很连贯，如果只是“文字接龙”，怎么能做到逻辑自洽呢？ <|eot_id|> <|start_header_id|>assistant<|end_header_id|> 因为我见过的“接龙”样本足够多（万亿级 Token）。所谓的“逻辑自洽”，本质上是统计学上的高概率路径。 比如现在，当我的输入端接收到了你质疑的“逻辑自洽”这几个字，我的内部权重矩阵被激活，计算出“用统计规律来解释”这一路径的概率最高。所以我生成这段话，不是因为我主观上“想”反驳你，而是因为在人类的语料库里，针对这类质疑的文本后面，通常都接续着类似的解释。我只是顺着概率的滑梯滑下来了而已。 <|eot_id|>

03 为什么它会撒谎？（大模型幻觉的成因）

理解了“概率预测”的本质，你就明白为什么大模型会有**“幻觉”**（一本正经地胡说八道）了。

很多用户问：“它的数据库是不是该更新了？为什么我问它2015年我家楼下拆迁的事，它说得头头是道，但其实根本没这回事？”

真相是：大模型内部根本没有“数据库”。
它没有挂载一个 SQL 或 NoSQL 数据库去存“事实”。它的所有知识，都“熔化”在了几千亿个参数（权重）里。

当你问它一件不存在的事，如果你的语气非常笃定，模型会根据概率判断：

“在这个语境下，为了让这段话顺畅地接下去，我应该顺着用户说。”

它不在乎真假，它只在乎“顺不顺口”（概率高不高）。这就是为什么它经常会编造论文、编造代码库，因为它是在用概率拼凑一个看起来像真的的东西。

04 揭秘“思考模型”：o1 和 DeepSeek 的“脑子”在哪？

在2025年年初前后，OpenAI 的 o1 和国内的 DeepSeek-R1 等“思考模型”非常火。它们在回答问题前，会先展示一段长长的思考过程（Chain of Thought）。

很多人以为：哇，模型进化出了一个“大脑思考区”，在真正地进行逻辑推理！

司沐老师要泼一盆冷水：这也是假象。

所谓的“思考”，本质上也是模型生成的文字（Token）。

对于模型来说，它并没有分出“思考”和“回答”两个脑区。只是工程师在训练时，强行让它学习了一种新格式：

User:这个问题怎么解？
AI:<思考> 首先，我应该分析一下… 然后… </思考> <回答> 答案是 B。

为什么要多此一举？
因为 Transformer 架构有一个特性：它在生成下一个字时，会回头看之前生成的所有字。

如果让模型直接给答案，它可能因为“想”得不够深而给错答案（概率预测走偏了）。
但如果强制它先生成一段“碎碎念”（也就是思考过程），这些碎碎念就变成了新的上下文（Context）。

模型自己给自己铺垫了一堆逻辑，当它终于要生成“<回答>”的时候，前面的上下文已经足够丰富，这时候预测出来的答案，准确率就大大提高了。

所以，并没有什么神奇的“机器意识觉醒”，有的只是更精妙的“上下文工程”。

司沐老师的总结

对大模型祛魅，是为了更好地了解它，从而搭建出更妙的AI应用。

知道它是概率预测机，你就不会盲信它的事实类回答，而会去核实（或者使用搜索工具 RAG）。
知道它是上下文补全机，你就知道 Prompt（提示词）的重要性——你给的上下文越清晰，它预测的下一个字就越准。
知道思考也是生成，你就明白为什么有时候我们需要引导模型“一步步想”，这其实是在帮它铺路。

这就是大模型，一个没有感情、没有真理，但被数学赋予了惊人能力的“超级输入法”。

那么问题来了：
既然模型只能生成文字，它又是怎么帮我们联网搜索、操作电脑、甚至写文件的呢？

这就涉及到了 AI 应用架构中最迷人的部分——Agent（智能体）。

下期预告：
大模型只是个“只会说话的脑子”，它是如何调用工具的呢？
下一篇，司沐老师将为你拆解 Agent 架构——那群“伺候”大模型的人。

【大模型入门必看】DeepSeek 居然是个输入法？揭秘大模型背后的假象与真相

01 它没有“大脑”，它只是在玩“文字接龙”

01 它没有“大脑”，它只是在玩“文字接龙”

02 既然是补全文字，为什么它能跟我“对话”？

03 为什么它会撒谎？（大模型幻觉的成因）

04 揭秘“思考模型”：o1 和 DeepSeek 的“脑子”在哪？

GLM-4.6V-Flash-WEB在用户行为分析中的图像点击热区识别

GLM-4.6V-Flash-WEB能否处理手写体文字识别任务？实测报告

零基础学编程：用AI写出第一个网页应用

1小时搭建MCP监控系统：Playwright+AI快速原型

AI如何优化硬盘健康监测？CrystalDiskInfo智能分析

零基础学POWERDESIGNER：20分钟完成第一个数据库模型