news 2026/4/4 14:40:45

AI大模型入门笔记02丨AI的“大脑”,就是大模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI大模型入门笔记02丨AI的“大脑”,就是大模型

什么是大模型?接下来我将继续用业余视角,聊聊大模型

大模型(Large Model,简称LM),完整全称应该叫“人工智能预训练大模型”,是指具有超大规模参数(通常在十亿个以上)通过海量数据预训练得到的神经网络模型,它能够通过训练获得通用的语言和图像等模态的理解和生成能力,并展现出涌现能力(图示为国内外知名大模型参数量示例)。

图片来源:知乎,数说新语

大模型的大不仅体现在参数量大,还包括架构规模大、训练数据大、算力需求大

图片来源:知乎,小枣君

广义的大模型包括语言大模型、视觉大模型、多模态大模型等,狭义的大模型特指我们常用的大语言模型(LLM),如ChatGPT、DeepSeek等。

图片来源:自绘

读了以上文字,您可能要骂了,说好的用人话解释AI的呢,就这?上来整一堆概念,让我怎么看?别骂了盆友,接下来将为您用人话解释大模型,需要点初中数学知识(你看,又骂)。

01 什么是模型

先说结论,在计算机领域,所谓的模型本质上指函数

用烂掉的房地产行业,举个栗子。假如您是一个在杭城漂泊的牛马,经过多年努力,您打算买一套房子安家。经过大量调研,您收集了以下数据样本(实际样本可能包括户型面积、位置、朝向、交通、卫生间数量、学区等要素,为了便于解释,进行简化):

图片来源:自绘

在不考虑其他要素的条件下,您看中了一套房源,距离主城区35km,那么怎么预测售价是多少?

您说,简单,这题我会。并快速在坐标系中画出了数据分布图,并发现了距离主城区越远,售价越低的趋势。

图片来源:自绘

分析了以上数据分布后,你打算选择初中二年级学过的二元一次函数y = wx + b来描述与主城区的距离x与售价y的关系,w和b是函数中未知的参数,只要求得w和b的具体数值,再把x = 35带入的上述函数,就能得到距离主城区35km时,房屋的售价。

到此,预测房价的问题,被转化为确定w和b的具体数值的数学问题,也就是说,您为房价预测建立了一个数学模型:y = wx + b。

实际您也只能求得一个最优解,使得曲线距离所有的样本点总误差最小。

图片来源:自绘

瓦特?等下…模型?参数?预测?难道网上神乎其神的大模型,几亿参数的那种,就这?

没错,为了方便盆友们理解,我对大模型进行了抽象简化。**大模型的真相就是一个形式复杂,参数极多的一个函数。**通过以上栗子,其实您已经掌握了大模型预训练和推理的原理:

**1.模型预训练:**模型厂商通过海量数据,求参数w和b,来最大化的拟合数据分布。上线发布,供用户使用。

**2.模型推理:**用户将x输入,函数后台进行计算,返回y。这就是您和DeepSeek聊天时,您输入文本,模型返回答案的过程。

02 什么是大模型

我们已经知道,模型的真相——函数。在实际应用中,模型的种类有很多,上述例子中,我们使用的是**线性回归模型,**可以用于应对一些简单的预测问题。但是如果将户型面积、位置、朝向、交通、卫生间数量、学区等要素全部考虑,线性回归模型就显得过于简单,无法应对复杂的数据分布了(比如图示这种)。

图片来源:http://playground.tensorflow.org

莫方,为了能够拟合复杂的数据分布,有很多模型可以用,比如逻辑回归、随机森林、决策树等。

目前大模型所采用的是神经网络模型(模仿人脑的神经元),对于样本的一个或多个输入(x值),经过网络多个隐藏层的层层计算,最终得到一个或多个输出(y值),以上所说的多个,都可以根据需要设置具体的值。

图片来源:自绘

隐藏层的计算,主要参数是w和b,作为一个复杂模型,还有很多其他参数,这里不做过多解读,有兴趣的盆友可以深入了解。

图片来源:自绘

以OpenAI的GPT-3大模型为例,隐藏层一共有96层,每层的神经元数量达到2048个,极其庞大的网络结构,参数数量达到惊人的1750亿,模型性能更是那四个字——遥遥领先。

03大模型长什么样

我们常用的生成式AI,都会提供多个模型供用户选择,每个模型采用了不同的训练策略,可以满足用户不同的需求。

图片来源:https://www.kimi.com

1.大模型的组成部分

以大家常用的kimi为例,官方提供了2个预训练模型,供用户推理使用。我们可以去魔搭社区(国内的开源大模型免费下载平台,网址https://modelscope.cn)看看k2模型包括哪些文件。

当前开源的大模型通常以数据文件形式发布,它主要是由权重参数、配置文件两类文件构成。其中权重参数是模型在海量数据上训练后得到的参数集合,是大模型最核心的组成部分。

图片来源:https://www.modelscope.cn

Kimi-K2-Base大模型共计包含了75个文件,主要为json和safetensors文件。其中,61个safetensors是存储权重参数的文件格式。模型的参数,存储在该文件中,大模型的参数量达到几十亿甚至上千亿,因此该文件的数据量也是最大的,最大的约20G。

2.大模型的尺寸

在魔搭社区中检索阿里最新发布的Qwen3大模型,可以看到有多种尺寸,有0.6B,8B,32B,235B等,这个值表示的是就是模型的总参数量,B是Billion(十亿)的缩写,也就是说Qwen3最小的模型参数量有6亿个,最大的参数量有2350亿个。

图片来源:https://www.modelscope.cn

模型参数越多,表示神经网络层次和神经元个数越多,模型就越复杂,实际推理性能越好。您可能会说,既然模型尺寸越大,性能越好,那么为什么要训练小尺寸的模型?因为越大尺寸的模型,要求的显存越大,一般设备上是没法运行的。为了在手机或AI眼镜上轻量化运行,就需要部署小尺寸模型。

让我们以Qwen3最小尺寸的模型0.6B为例,简单计算推理时需要的羡慕,这样能有个概念。假设每个参数为32位(bit)浮点数(float32):

1.已知:

1字节(Byte) = 8位(bit)

2.计算每个参数的字节数:

32位(bit)= 4字节(Byte)

3.推导计算机内存占用:

1GB = 1000MB

1MB = 1000KB

1KB = 1000Byte

1GB = 10^9Byte

4.计算最终结果:

0.6B = 0.6 * 10^9个

总字节数为0.6 * 10^9 * 4 = 2.4 * 10^9 Byte ,总显存为2.4GB

以上仅仅是指考虑了参数部分的显存占用情况,实际全参推理时,还会有其他显存开销,显存占用为目前的6倍以上,即2.4 * 6 = 14.4GB。0.6B的模型尚且如此,那235B模型的显存占用,只能说是Amazing。所以用户使用尺寸大的大模型,只能通过线上调用大模型,大模型厂商可以有很多显卡供咱使用。

图片来源:https://www.kimi.com

04 如何训练大模型

在第1部分什么是模型的例子中,已经简单表达了大模型的训练逻辑。就是通过海量的数据,求参数值,最大化的拟合数据分布,获得最小化的误差。

简述具体训练过程:先准备海量高质量数,每个数据样本包括特征x(类比房源与主城区距离)和真实值Y(类比售价),再选择一个具体的模型结构(比如Transfomer),模型自动初始化w和b的参数值。将海量数据x,经过神经网络层层计算,得到一个预测y,再将预测值y与数据的真实值Y比较,求得两者的差值,称之为损失(loss),再根据损失值,反向调整w和b,直至损失值最小为止,这是的模型预测值会无限接近真实值(实际预测值y和真实值Y,不可能完全相等,也就是说损失值Loss不为0)。

参数学习的过程,叫做模型预训练。用户调用的过程,则叫做模型推理。

图片来源:知乎,小枣君

看完以上内容,相信您基本对大模型的原理和尺寸有所了解。

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】


四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/1 7:15:08

轻量化系统定制:告别臃肿,打造高效Windows 11体验

轻量化系统定制:告别臃肿,打造高效Windows 11体验 【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 你的电脑是否也遇到这些问题&#xff1f…

作者头像 李华
网站建设 2026/3/27 15:02:00

最新研究表明,6款高效AI论文平台在写作与降重方面表现突出

学术写作领域涌现出多款融合智能辅助与查重功能的AI工具,依托先进的自然语言处理技术实现论文结构生成、文本润色及重复率检测,广泛适配学位论文撰写与学术报告整理等应用场景。需明确的是,这类技术仅应作为研究效率的辅助工具,学…

作者头像 李华
网站建设 2026/3/27 13:12:35

3步打造你的AI视频剪辑助手:零基础本地部署智能剪辑工具

3步打造你的AI视频剪辑助手:零基础本地部署智能剪辑工具 【免费下载链接】FunClip Open-source, accurate and easy-to-use video clipping tool, LLM based AI clipping intergrated || 开源、精准、方便的视频切片工具,集成了大语言模型AI智能剪辑功能…

作者头像 李华
网站建设 2026/4/2 11:28:20

技术瓶颈突破:Claude Code工具执行超时问题的工程实践

技术瓶颈突破:Claude Code工具执行超时问题的工程实践 【免费下载链接】claude-code Claude Code is an agentic coding tool that lives in your terminal, understands your codebase, and helps you code faster by executing routine tasks, explaining complex…

作者头像 李华