什么是大模型?接下来我将继续用业余视角,聊聊大模型
大模型(Large Model,简称LM),完整全称应该叫“人工智能预训练大模型”,是指具有超大规模参数(通常在十亿个以上)通过海量数据预训练得到的神经网络模型,它能够通过训练获得通用的语言和图像等模态的理解和生成能力,并展现出涌现能力(图示为国内外知名大模型参数量示例)。
图片来源:知乎,数说新语
大模型的大不仅体现在参数量大,还包括架构规模大、训练数据大、算力需求大
图片来源:知乎,小枣君
广义的大模型包括语言大模型、视觉大模型、多模态大模型等,狭义的大模型特指我们常用的大语言模型(LLM),如ChatGPT、DeepSeek等。
图片来源:自绘
读了以上文字,您可能要骂了,说好的用人话解释AI的呢,就这?上来整一堆概念,让我怎么看?别骂了盆友,接下来将为您用人话解释大模型,需要点初中数学知识(你看,又骂)。
01 什么是模型
先说结论,在计算机领域,所谓的模型本质上指函数。
用烂掉的房地产行业,举个栗子。假如您是一个在杭城漂泊的牛马,经过多年努力,您打算买一套房子安家。经过大量调研,您收集了以下数据样本(实际样本可能包括户型面积、位置、朝向、交通、卫生间数量、学区等要素,为了便于解释,进行简化):
图片来源:自绘
在不考虑其他要素的条件下,您看中了一套房源,距离主城区35km,那么怎么预测售价是多少?
您说,简单,这题我会。并快速在坐标系中画出了数据分布图,并发现了距离主城区越远,售价越低的趋势。
图片来源:自绘
分析了以上数据分布后,你打算选择初中二年级学过的二元一次函数y = wx + b来描述与主城区的距离x与售价y的关系,w和b是函数中未知的参数,只要求得w和b的具体数值,再把x = 35带入的上述函数,就能得到距离主城区35km时,房屋的售价。
到此,预测房价的问题,被转化为确定w和b的具体数值的数学问题,也就是说,您为房价预测建立了一个数学模型:y = wx + b。
实际您也只能求得一个最优解,使得曲线距离所有的样本点总误差最小。
图片来源:自绘
瓦特?等下…模型?参数?预测?难道网上神乎其神的大模型,几亿参数的那种,就这?
没错,为了方便盆友们理解,我对大模型进行了抽象简化。**大模型的真相就是一个形式复杂,参数极多的一个函数。**通过以上栗子,其实您已经掌握了大模型预训练和推理的原理:
**1.模型预训练:**模型厂商通过海量数据,求参数w和b,来最大化的拟合数据分布。上线发布,供用户使用。
**2.模型推理:**用户将x输入,函数后台进行计算,返回y。这就是您和DeepSeek聊天时,您输入文本,模型返回答案的过程。
02 什么是大模型
我们已经知道,模型的真相——函数。在实际应用中,模型的种类有很多,上述例子中,我们使用的是**线性回归模型,**可以用于应对一些简单的预测问题。但是如果将户型面积、位置、朝向、交通、卫生间数量、学区等要素全部考虑,线性回归模型就显得过于简单,无法应对复杂的数据分布了(比如图示这种)。
图片来源:http://playground.tensorflow.org
莫方,为了能够拟合复杂的数据分布,有很多模型可以用,比如逻辑回归、随机森林、决策树等。
目前大模型所采用的是神经网络模型(模仿人脑的神经元),对于样本的一个或多个输入(x值),经过网络多个隐藏层的层层计算,最终得到一个或多个输出(y值),以上所说的多个,都可以根据需要设置具体的值。
图片来源:自绘
隐藏层的计算,主要参数是w和b,作为一个复杂模型,还有很多其他参数,这里不做过多解读,有兴趣的盆友可以深入了解。
图片来源:自绘
以OpenAI的GPT-3大模型为例,隐藏层一共有96层,每层的神经元数量达到2048个,极其庞大的网络结构,参数数量达到惊人的1750亿,模型性能更是那四个字——遥遥领先。
03大模型长什么样
我们常用的生成式AI,都会提供多个模型供用户选择,每个模型采用了不同的训练策略,可以满足用户不同的需求。
图片来源:https://www.kimi.com
1.大模型的组成部分
以大家常用的kimi为例,官方提供了2个预训练模型,供用户推理使用。我们可以去魔搭社区(国内的开源大模型免费下载平台,网址https://modelscope.cn)看看k2模型包括哪些文件。
当前开源的大模型通常以数据文件形式发布,它主要是由权重参数、配置文件两类文件构成。其中权重参数是模型在海量数据上训练后得到的参数集合,是大模型最核心的组成部分。
图片来源:https://www.modelscope.cn
Kimi-K2-Base大模型共计包含了75个文件,主要为json和safetensors文件。其中,61个safetensors是存储权重参数的文件格式。模型的参数,存储在该文件中,大模型的参数量达到几十亿甚至上千亿,因此该文件的数据量也是最大的,最大的约20G。
2.大模型的尺寸
在魔搭社区中检索阿里最新发布的Qwen3大模型,可以看到有多种尺寸,有0.6B,8B,32B,235B等,这个值表示的是就是模型的总参数量,B是Billion(十亿)的缩写,也就是说Qwen3最小的模型参数量有6亿个,最大的参数量有2350亿个。
图片来源:https://www.modelscope.cn
模型参数越多,表示神经网络层次和神经元个数越多,模型就越复杂,实际推理性能越好。您可能会说,既然模型尺寸越大,性能越好,那么为什么要训练小尺寸的模型?因为越大尺寸的模型,要求的显存越大,一般设备上是没法运行的。为了在手机或AI眼镜上轻量化运行,就需要部署小尺寸模型。
让我们以Qwen3最小尺寸的模型0.6B为例,简单计算推理时需要的羡慕,这样能有个概念。假设每个参数为32位(bit)浮点数(float32):
1.已知:
1字节(Byte) = 8位(bit)
2.计算每个参数的字节数:
32位(bit)= 4字节(Byte)
3.推导计算机内存占用:
1GB = 1000MB
1MB = 1000KB
1KB = 1000Byte
1GB = 10^9Byte
4.计算最终结果:
0.6B = 0.6 * 10^9个
总字节数为0.6 * 10^9 * 4 = 2.4 * 10^9 Byte ,总显存为2.4GB
以上仅仅是指考虑了参数部分的显存占用情况,实际全参推理时,还会有其他显存开销,显存占用为目前的6倍以上,即2.4 * 6 = 14.4GB。0.6B的模型尚且如此,那235B模型的显存占用,只能说是Amazing。所以用户使用尺寸大的大模型,只能通过线上调用大模型,大模型厂商可以有很多显卡供咱使用。
图片来源:https://www.kimi.com
04 如何训练大模型
在第1部分什么是模型的例子中,已经简单表达了大模型的训练逻辑。就是通过海量的数据,求参数值,最大化的拟合数据分布,获得最小化的误差。
简述具体训练过程:先准备海量高质量数,每个数据样本包括特征x(类比房源与主城区距离)和真实值Y(类比售价),再选择一个具体的模型结构(比如Transfomer),模型自动初始化w和b的参数值。将海量数据x,经过神经网络层层计算,得到一个预测y,再将预测值y与数据的真实值Y比较,求得两者的差值,称之为损失(loss),再根据损失值,反向调整w和b,直至损失值最小为止,这是的模型预测值会无限接近真实值(实际预测值y和真实值Y,不可能完全相等,也就是说损失值Loss不为0)。
参数学习的过程,叫做模型预训练。用户调用的过程,则叫做模型推理。
图片来源:知乎,小枣君
看完以上内容,相信您基本对大模型的原理和尺寸有所了解。
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享!
👇👇扫码免费领取全部内容👇👇
一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI:
1. 100+本大模型方向电子书
2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:
- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:
- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!
1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析:
2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:
3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:
![]()
三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!
路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。
L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。
L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。
L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。
L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。
L5阶段:专题集丨特训篇 【录播课】
![]()
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇
2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!