大模型学习宝典：零基础入门到进阶完整路线_写给小白的大模型入门教程！大模型核心技术都在这了-开发者社区

本文全面介绍了大语言模型的基本概念、工作原理及类型，详细分析了开源与闭源模型的优缺点，阐述了从数据准备到应用开发的全流程，并探讨了参与大模型领域的方式及未来发展趋势。文章强调无论是技术相关还是非技术背景人士，都应积极拥抱AI变革，保持"AI-READY"状态，并提供了学习资源，帮助读者抓住AI大模型带来的机遇。

什么是大语言模型
定义
特点
Transformer是如何工作的
Transformer的结构
大模型的类型
开源大模型
闭源大模型
开源VS.闭源
在哪里可以找到开源模型
大模型全流程
RAG
AGENT
数据
预训练模型
训练
微调
评测
部署
应用开发
我们该如何参与到大模型领域中
态度
掌握的资源
发展趋势
模型小型化
多模态
新架构
最后

什么是大语言模型

定义

大语言模型，是一种用于处理自然语言的机器学习模型，采用的是神经网络架构，属于生成式AI。它采用了预训练与微调相结合的方法，通过大规模无监督语料库的训练，学习到丰富的语言知识，从而能够生成自然流畅的语言。
可以简单地理解为，这个模型可以像人脑一样学习知识，并且可以根据学习到的知识生成和自然语言一样流畅的内容。

特点

它和之前的自然语言模型相比有了什么样的创新？主要是两个方面，一个是大，一个是新。

大

参数大（大脑中的神经元多）

参数可以简单的类比大脑中的神经元，大脑中的神经元越多理论上就越可能出现更高级的智慧。
GPT-3的参数就高达1750亿个，马斯克开源的模型Grok-1有3140亿个参数，很多开源的大模型比如Meta开源的Llama 3 70B，模型参数有700亿。
而且在榜单上，各类评分比较高的通常参数也都比较大，尤其是有关逻辑或数学方面得分越高，通常参数都比较大。

学习内容多（学习过的知识多）

从公开的数据看，GPT-3的预训练数据量就高达45TB，并且涵盖了各种类型的数据，比如：维基百科、各种书籍、期刊以及代码等。

需要的资源多（承载它所需的资源大）

众所周知，训练大语言模型需要大量的显卡，各个大型AI公司都在储备大量的显卡，根据公开的数据，GOOGLE拥有的显卡数量就高达2.6万块H100，其他公司也在大量储备显卡资源（2.6万块H100，它的显存就有2.6万*80GB=2080000GB）。等我们深入地了解大模型的原理之后就能明白为什么它需要这么多的资源了。
运行这么多的资源

新（新思路，新范式）

新的架构，Transformer。
Transformer模型最初由Google团队在2017年6月12日发布的论文《Attention Is All You Need》中提出。
Transformer模型采用了自注意力机制（Self-Attention）、多头注意力机制和位置注意力机制等关键技术，这些都极大地增强了模型的处理能力和学习效率。
它是当下最流行的一种架构。

Transformer是如何工作的

我们大致上了解一下Transformer的工作原理。
如果希望了解详细的工作原理可以参考以下内容：
《Attention Is All You Need》
https://jalammar.github.io/illustrated-transformer/
https://www.cnblogs.com/mantch/p/11591937.html
首先我们看看Transformer的架构图

Transformer的结构

它是由一个编码器（Encoder）和一个解码器（DeCoder）组成（【图1】左是编码器，右是解码器），每个编码器和解码器又是由6层编码层和解码层组成（参考【图2】）。

根据输入生成第一个“字”【图3】

根据输入和生成的结果生成下一个字【图4】
用文字描述以下图片中的过程：
第一步，用户输入一句话也就是输入序列，
第二步，Embedding模型将输入序列向量化。
第三步，将向量化的内容中加入位置信息形成一个新的向量。
第四步，将这个向量输入到编码器中，编码器经过各种计算生成一组新的向量输出。
第五步，将编码器输出的向量转为一组注意力向量K/V，这组K/V将被用在解码器的“编码-解码注意力层”，这有助于解码器将注意力集中在输入序列的适当位置。
第六步，如果还没有输出信息，则解码器根据K/V向量生成第一个输出，如果已经存在输出，则根据K/V向量和之前的输出一起交给解码器生成后面的输出。
第七步，将解码器输出的向量传入一个Linear层给将要输出的文字打分
第八步，将Linear输出的分数经过Softmax的归一化处理生成文字的概率。
第九步，选择最大的概率输出成文字。
持续执行直到输出结束符号，
这就是模型输出的最后结果。

大模型的类型

大语言模型现在主要分为两大类：
一类是开源大语言模型，比如Llama 3、GLM、Grok-1、QWen等。
一类是非开源（闭源）的大模型，比如GPT系列，Gemini、claude等。

开源大模型

开源大模型是指人人都可以获取大模型文件本身，并且可以在其基础上进一步调整出自己的模型。
开源模型的源代码和训练数据通常是公开的，这使得开发者可以根据自己的需求对模型进行修改和优化，以满足特定的应用场景。

闭源大模型

闭源大模型，用户只能通过厂商开放的API来使用大模型服务，有些闭源大模型厂商也为用户提供了微调的服务，用户也可以利用自己的数据对模型输出的结果进行调整，不过这并不能对模型本身进行修改。

开源VS.闭源

至于哪种模式能走到最后或者更有优势，我们不做探讨，他们各自都有各自的优点，我们作为用户最主要是需要知道他们各自的优缺点，能够了解他们各自的特点，并帮助我们在未来学习和使用的时候做出适合自己的选择就够了。
我们从以下几个方面来了解开源大模型和闭源大模型他们各自的优劣势。

性能

闭源模型的综合性能更高，但开源模型的性能与闭源相差并不是太大

图片来源opencompass大模型榜单
https://rank.opencompass.org.cn/leaderboard-llm/?m=24-05
通过榜单数据可以看出前10位的玩家主要还是以闭源为主，我觉得最主要原因可能是他们盈利，所以可以投入更多的资源，不论是模型本身还是。
至于如何选择，还是需要考虑具体的任务。比如：
单纯从“知识”这一个维度看，Qwen72b只比GPT-4o略低一点。
单纯从“数学”这一个维度看，开源的Llama3 70b也只比第一名的Claude3-Opus低一点。

从模型的整体性能上看，仍然是闭源模型更有优势，不过从某一个方面看开源模型与闭源模型相差并不是太大。

成本

闭源模型的成本是按输入和生成的文字数量收费，费用随使用量增加而增加。
开源模型的成本主要集中在硬件的成本和部署过程中的一些技术成本，前期一次性投入较高。
一般使用闭源模型的API时，我们需要将一些信息输入给它，它就会根据我们的输入信息返回给我们一些信息，例如，我们输入“哪座山是世界第一高峰？”，它可能会返回给我们“喜马拉雅山是世界第一高峰”。这时，它的计费方式，就是根据我们输入的tokens（“哪座山是世界第一高峰？”）数量，和返回的tokens（“喜马拉雅山是世界第一高峰”）数量进行计费。
例如，openai 的GPT-4o api的收费标准

根据我们上面对Transformer的了解，这么收费也挺合理，用多少给多少钱，其他的什么硬件成本、网络成本等都不用考虑。
当我们使用开源模型的时候，我们需要自己部署它，假如我们不考虑对他进行进一步的训练和微调而是直接部署使用的话，首先要考虑的就是硬件成本。大语言模型主要需要GPU，在其加载大模型和进行推理的时候就会需要大量的显存资源。

而且部署大模型还需要具备一定的技术知识，才能将大模型调试为一个可用的状态。如果我们需要将他作为一个服务给更多的人使用，就需要更多的技术和GPU资源。
开源模型需要比较大的一次性投入，而闭源模型需要进行长期的投入。

按这个价格大概计算一下：一块A100≈10亿个GPT-4o token
因此，在项目初期用户较少的时候使用闭源模型的API更为合适，当我们的项目到达一定规模的时候再购买硬件和服务器使用开源模型自己部署成本应该会更可控。

当然这只是单纯从成本这一个角度考虑。

灵活性

开源模型更具灵活性，可以根据自己的需求和能力进行调整。闭源模型通常只有一部分模型开放了微调的api，灵活性较弱，通常是对输出的输出格式和风格进行调整。
开源模型的结构和代码对公众开放。这使得用户可以根据自己的需求进行定制和修改，以适应特定的应用场景。微调开源模型时，可以对模型进行LoRA、QLoRA和全量参数微调，可调整的范围广，对模型的更改程度大。
而闭源模型，通常只能根据服务商提供的API进行微调，微调对模型的影响也较小，更多是对输出的输出格式和风格进行调整。

隐私和数据安全

任何产品的隐私和数据安全都是必须要考虑，而且涉及面也很广。我们作为初学者，我觉得主要需要考虑以下几个方面是：

大模型给我的数据是否是安全的、可靠的、真实有效的、不包含恶意信息的。
我给大模型的信息是否会被泄露给大模型的服务商，是否会被泄露给其他用户。
我微调的大模型在给别人使用时，是否会泄露我的重要信息，是否会生成我不希望生成的内容，是否会生成恶意的信息或代码给我的用户，其他用户会不会利用我的大模型窃取到其他用户的信息，或用户在使用时是否会将自己的信息泄露给其他人。

大模型给我的数据

在使用大模型时，我们需要明确大模型返回给我们的数据，例如代码或内容，是否安全和无恶意。我们要关注以下几个关键问题：
信息泄露：无论是开源模型还是闭源模型，都有可能在生成的文本中无意泄露训练数据中的敏感信息。
生成不适当内容：无论是开源还是闭源模型，都可能生成攻击性、不恰当或误导性的内容。
被恶意利用：无论是开源还是闭源模型，都可能被恶意用户利用，生成虚假信息或进行网络钓鱼等恶意活动。
开源模型和闭源模型的不同在于可审查性和可定制性：
可审查性

开源模型：开源模型的源代码、训练过程和训练数据都是公开的，因此用户和研究者可以对其进行审查，以了解模型的行为和潜在的安全风险。
闭源模型：训练数据通常是不公开的，我们无法预先判断它是否会产生不利或不需要的内容，事后也无法审查内容出现的原因。

可定制性

开源模型：开源模型允许用户根据自己的需求对模型进行修改和优化，例如改进模型的安全性和隐私保护能力，或者选择使用更安全的数据进行训练。
闭源模型：需要依赖模型服务提供商更谨慎和负责地使用训练数据，并提供更安全的内容策略。

我给大模型的数据

在使用大模型时，我们输入的信息会被大模型处理并生成相应的内容。关键问题在于我们提交的信息是否涉及安全和隐私问题。如果这些信息需要提交给大模型，我们必须考虑大模型是否会保存这些信息并可能泄露给他人。
首先，大模型本身通常不会存储用户的输入数据。然而，当我们使用闭源大模型服务时，数据需要通过服务商提供的API进行传输。在这种情况下，我们无法确定服务商是否会保存我们的输入信息。因此，对于敏感信息，最好避免上传。此外，有些基于大模型的应用会保存用户输入的信息作为应用的一部分功能，例如历史记录等。
使用开源大模型时，通常不会遇到这类问题。因为开源大模型的使用通常基于我们自己开发或部署的应用服务，这些服务由我们自行控制。因此，是否存储数据、如何存储以及存储后的安全性都在我们的掌控之中。

我微调大模型使用的数据

大模型微调是指使用一些数据对大模型的推理结果进行一些调整。所以，如果你的训练数据中包含一些隐私数据，那就很有可能会泄露。
同样，如果我们的训练数据中包含恶意代码或者一些恶意信息，同样就有可能影响使用我们微调后的大模型的用户。
同样，我们微调过后的大模型也是不会存储用户的信息的，但是如果我们基于我们微调的大模型开发一些应用给其他用户使用，就很有可能需要存储用户的信息，用户的隐私信息安全就是我们必须要考虑的问题。
综合前面我们列出的他们各自的特点并结合我们项目的实际情况选择适合的大模型类型。比如，我们的项目是toC的项目，且不涉及什么用户的隐私信息，前期预算不多的情况下，选择性能好的闭源大模型就是比较好的选择，如果项目需要本地化部署，那就是要考虑使用一款适合的开源模型。

在哪里可以找到开源模型

国外的模型平台：Hugging Face https://huggingface.co/
国内的模型平台：ModelScope 魔搭社区 https://modelscope.cn/
通常开源模型都会在这些平台发布

大模型全流程

在这一部分，我们将一起探讨大模型从训练到应用的整个过程，并了解每个步骤中需要做的具体工作。

数据

大模型的性能和能力在很大程度上取决于数据的质量。
高质量的数据对于提升模型的表现至关重要。它就像一个擅长学习的大脑，学习的效果取决于我们教它什么。
在这个步骤中，我们需要找到或制作出能训练出性能更高的模型的数据。例如，有研究者发现使用“弱智吧”的数据可以显著提升模型的性能。
还有如果我们需要大模型具备某一垂直领域的知识，就必须准备该领域的优质数据。

预训练模型

不同的厂商提供了各种预训练模型，它们在模型设计、训练方法、训练数据和优化策略等方面都有所不同。因此，这些模型在性能、效果和参数大小上也各有差异。
这些厂商不断尝试开发出更强大的架构，研究出更高效的训练方法，以及各种优化策略，以提升模型的整体性能。

微调

微调是指在预训练模型的基础上，使用特定任务的数据进行再训练，以提高模型在该任务上的表现。这一步骤至关重要，因为它能使模型更好地适应特定的应用场景。微调需要选择合适的超参数，并根据具体任务的需求调整模型结构和训练策略，以达到最佳效果。

评测

在模型训练和微调完成后，需要对模型进行全面地评测，以确保其性能满足预期。
评测过程通常包括多种指标的测试，例如准确率、召回率、F1值等。此外，还需要进行实际场景测试，观察模型在真实应用中的表现。这一步骤能帮助我们发现模型的缺陷和不足，从而进行进一步的优化和改进。
因此，探索更准确的评测方法和标准，开发出更便利的评测工具，就是这个阶段的研究者主要努力的方向。

部署

一旦模型通过评测，接下来就是部署阶段。部署需要考虑模型在实际环境中的运行效率和稳定性以及资源的占用。我们需要选择合适的硬件和软件平台，确保模型在生产环境中的高效运行。同时，还需要设置监控系统，以便及时发现和解决运行中可能出现的问题。

应用开发

在模型成功部署后，最后一步是开发实际的应用程序，使模型的能力能够真正为用户所用。这最主要的是能够结合用户的应用场景与需求，再合理的搭配大模型的能力，创造出真正能够服务于用户并且解决用户痛点，给用户带来真实的价值。
现在大模型应用开发当前主流的方向有两个，一个是RAG系统、一个是Agent系统。

RAG系统

定义
检索增强生成（Retrieval-Augmented Generation, RAG）是一种先进的人工智能技术框架，它通过从现有的数据库或文档集或知识库中检索相关信息，并在此基础上生成内容。
这种系统能够显著提高生成文本的质量和相关性，使其更加符合用户的需求和期望。
RAG系统主要由两个部分构成：一是智能检索器（Search Engine）和大型语言模型（Large Language Models, LLMs）的生成模型。智能检索器负责从各种来源检索信息，而生成模型则负责基于这些信息来生成响应。
应用场景
RAG的应用场景非常广泛，包括但不限于以下两个方面：

智能问答系统（QA Systems）：RAG技术被用于构建能够回答用户各种问题的强大问答系统。与传统基于规则或基于检索的方法相比，RAG能够提供更丰富、更准确的答案，满足用户对个性化内容需求的增长。
信息检索（Information Retrieval）：RAG能够改进信息检索系统，使其更准确和深入。用户可以通过提出更具体的查询来获得更具体的答案，而不再局限于关键词匹配。

Agent系统

定义
Agent系统，或称为智能体，是一种在特定的环境中执行自主活动的软件系统。它们的设计目的是为了实现某些特定目的，这些系统能够灵活、自主地在其环境中进行活动。
说简单点，就是它可以根据用户提出的要求，自己思考该如何行动，如何使用什么工具、执行任务之后还能观察执行结果以确定进一步的动作。可以理解为一个会自己分析和解决问题的智能助手。
应用场景
Agent的应用场景非常广泛，以下只是简单地举几个例子：

**软件开发：**虽然大多还在实验阶段，不过有一些项目已经可以根据用户的一句话需求，完成从产品设计到最后产品交付的全过程。
**游戏领域：**该智能体能够完全解锁《我的世界》主世界的整体科技树的 262 个物品（以往所有智能体方法包括 OpenAI 和 DeepMind 在内总共只解锁了 78 个）
**教育领域：**Agent系统可以用于个性化学习平台、智能辅导和答疑、自适应测评系统、虚拟教育助手、情感分析与支持、虚拟现实 (VR)和增强现实 (AR)教育、教育内容创作、智能推荐系统、教育数据分析以及远程教育和在线学习等。

我们该如何参与到大模型领域中

关于具体我们可以如何参与到这次人工智能带来的技术浪潮中，我想从两个方面来分享我的思考：一个是态度，一个是掌握的资源。

态度

我认为，我们应该积极学习并深入了解这次人工智能浪潮。
我们当前的工作情况，可以分为两种类型：与计算机技术有关或是与计算机技术无关，我们将分别讨论。

与计算机技术有关

我们的工作天然的与人工智能很接近，所以我们应该分出一部分精力去深入地了解这方面的相关知识，即使不能直接参与也要积极的去了解、探索和尝试。
要学习人工智能的基本原理和应用，关注其最新进展和前沿技术。
如果有可能，在实际工作中，我们应该尝试将人工智能技术应用到我们的项目中。无论是通过开发新的智能应用程序，还是通过优化现有的系统和流程，人工智能都可以为我们的工作带来显著的改进和创新。
现在这些大的技术型公司都在加大对人工智能方面的投入，我们作为个人同样应该用一个积极的心态去拥抱这些技术变革。

积极拥抱

与计算机技术无关

无论我们在社会中扮演什么角色，都应正视由大语言模型推动的人工智能发展。即使由于各种原因，我们无法直接参与人工智能技术的发展领域，也应确保自身或企业处于**“AI-READY”的状态**。
“AI-READY”状态意味着我们个人或企业始终准备迎接AI对行业带来的变革。
人工智能发展的车轮滚滚向前，如果我们不能在心理和行动上做好准备，可能会被竞争对手利用这一划时代的工具迅速超越，就像蒸汽机、互联网和移动互联网出现时一样。
我们应该积极地去了解和使用已经由人工智能技术公司开发出来的一些应用，积极了解背后的原理，并尝试的应用在我们日常的工作流程中。

“AI-READY”的状态

掌握的资源

我们具体可以参与到哪些方面呢？这就需要参考我们自身的情况了。我们可以从人工智能行业全流程来看一看：

序号	我们掌握的资源	所属流程	我们能干什么
1	如果我们掌握某垂直行业的数据，比如，某种医疗疾病数据	数据	我们可以基于开源模型微调出自己的垂直行业模型，或者与第三方技术公司合作一起微调出垂直行业的模型。
2	需要掌握相关的技术资源以及大量的计算资源	预训练模型	这个通常只有大公司才会做。例如，OpenAI，Google，百度、华为等等。他们通常会提供开源的预训练大模型或者模型使用的API。

发展趋势

从目前的情况来看大型语言模型的发展趋势大致有以下几个方向：

模型小型化

现在的模型多是动辄千亿参数，这需要的算力就限制了它的应用场景。为了解决这个问题，现在已经有很多厂商发布了较小参数的模型，在维持了一定推理能力的前提下将参数缩小，微软发布的Phi-3 Mini模型仅有38亿参数，可以跑在手机里，但是性能与GPT-3.5接近，这就意味着可以讲模型的推理能力部署在更多类型的终端和场景里。

多模态

多模态也是大模型的一个重要的发展方向，最近发布的GPT-4o就可以接受图片甚至音频信息，这与之前的将音频转为文字再提交给GPT模型的方式不同，而是有GPT直接处理音频信息。将来一定是让大模型具备处理更多模态的能力，如可以接收视频、音频同时也可以稳定的输出各种模态的信息，比如，视频或音频。

新架构

随着各路厂商和大神的研究，基于Transformer架构的大语言模型加上GPU的模式的性能曲线很快就将趋于平缓，新的硬件架构加上新的模型架构也必将接下Transformer和英伟达受众的接力棒，例如，将来一定会出现基于存算一体架构的新的模型架构。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

目录