news 2026/2/9 22:06:54

大语言模型(LLM)核心原理:从Transformer架构到数据预处理流程!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大语言模型(LLM)核心原理:从Transformer架构到数据预处理流程!

简介

文章介绍大语言模型(LLM)的核心原理,包括Transformer架构如何通过自注意力机制理解文本,以及Tokenization过程。重点讲解了Hugging Face的FineWeb数据预处理流程,从URL过滤到隐私保护的完整清洗过程。揭示了LLM本质是通过统计学模仿人类标注者,而非真正的AI思考,其能力依赖于高质量训练数据和标注反馈。


了解LLM:

large language model 缘起数学统计,transformer 是一种深度学习模型架构,token 是最小可处理片段,字节对编码 BPE 决定了 prompt 最终被拆成哪些 token,恭喜我们进入统计学&数据标注打分,预测下一个 token 的时代。

这个网址介绍:什么是数据集,训练的数据从哪里来,以及训练数据的预处理流程,从一个URL提取到语言、内容、去重、过滤ai、去除隐私的流程。

这是 Hugging Face 的 FineWeb 训练数据预处理流程图(Pretraining Data Pipeline)。

它展示了在训练大模型之前,如何 从互联网抓取、清洗、过滤并去重文本数据 的完整步骤。


🧩 图中每个步骤的意思

整个流程叫 FineWeb pipeline,用于生成高质量训练数据。

1. URL Filtering(网址过滤)

先对收集到的网页 URL 进行筛选,去掉无效、垃圾、重复或不可信的链接。

2. Text Extraction(文本提取)

从网页中提取纯文本,去掉 HTML、脚本、广告等噪声。

3. Language Filtering(语言过滤)

判断文本是什么语言,只保留需要的语言(例如英文或多语种)。

4. Gopher Filtering(内容质量过滤)

使用模型(来自 DeepMind Gopher 的过滤方法)对文本质量进行评分,去掉低质量内容。

5. MinHash Dedup(最小哈希去重)

对文本进行大规模去重,避免重复网页、多次拼接、镜像站的内容。

6. C4 Filters(C4 数据集的过滤规则)

沿用 Google C4 数据集中常用的清洗规则过滤色情、垃圾、短文本等内容。

7. Custom Filters(自定义过滤规则)

根据团队自己的需求进行额外清洗,比如:

  • 去掉机械生成文本
  • 去掉 AI 填充内容
  • 去掉异常符号格式等

8. PII Removal(去除个人隐私信息)

删除诸如:

  • 姓名
  • 身份证号
  • 地址
  • 电话
  • 邮箱 等个人可识别信息。

🔍 简单总结

这是一个 从互联网抓取→清洗→过滤→去重→隐私保护 的数据清洗流程,用于生成适合大模型训练的高质量语料。


🌟 Transformer

  • 现在所有大模型的核心架构
  • 能理解上下文关系(Self-Attention)
  • 能并行训练,效率极高
  • 让模型具备理解和生成能力

Transformer 是现在所有大语言模型(ChatGPT、Claude、Llama 等)的底层核心架构,用来让模型“理解”和“生成”文本。

Transformer 解决了两个关键问题:

⭐ 1. 能同时关注整段文本(注意力机制 Attention)

以前的模型(一句话只能读一个词往后走),看长文本会遗忘前面的信息。

Transformer 有个核心技术叫 Self-Attention(自注意力):

读句子时,它会自动找到“哪些词跟当前词最相关”。

例如: “我把苹果给了小明,因为 他 肚子饿了。” Transformer 知道 “他” 指 小明,不是“苹果”。

⭐ 2. 它能并行训练(速度快几十倍)

以前模型必须按顺序读文本,Transformers 可以并行处理整段数据 → 能训练超大模型。


🔍 理解 Transformer

可以把 Transformer 理解成一个“超强阅读器”:

📘 输入:一段话

🔍 处理:分析每个词和其它词的关系(Attention)

🧠 学习:词与词之间的模式

📝 输出:预测下一个词、翻译、总结……

所以 ChatGPT 会写文案、写代码,就是因为 Transformer 学会了文本的模式。

🌟 Tokenization

  • 把文本拆成模型能处理的 token(子词)
  • 每个 token 编成数字喂给模型
  • 是整个模型理解文本的第一步

Tokenization 是把文字转成模型能理解的数字化小单元(token)的过程。

因为模型不能直接读“中文字符/英文单词”,必须转成 token。


⭐ 为什么要分成 token?

因为不同语言有不同结构:

  • 英文:单词之间有空格 → token 可以是单词或子词
  • 中文:没有空格 → 不可能按“字”全部拆(效率低)
  • 训练数据很大 → 需要压缩成常见的“子词拼块”

所以现代大模型用一种叫 BPE(Byte-Pair Encoding) 的方式,把常见的字词组合成 token。

https://youtu.be/7xTGNNLPyMI?si=1gj4NLopFFf_hmkn

你给chatGPT一个问题时,按下回车键,返回的结果在某种程度上类似于统计上对齐训练数据集中的内容。

这些训练数据集,它们真的只是有一个种子,在人类遵循标签指示的情况下。

你实际上是在和chatGPT 谈话,它并不是来自某种神奇的ai,

大致来说,它是来自一个能够统计学模仿人类标志者的系统,而这些表住址是这些公司编写标注指令所训练出来的,这几乎就像是在向人类标注者提问。

并想象一下,从GPT得到的回答,这是一种对人类标注者的模拟,和询问人类标注员会怎么做有点类似,

在这种对话中,这并不是像这样的人类标注员,也不是像互联网上的一个随机网友,

因为这些公司实际上聘请了专家,

所以例如当你在询问关于代码的问题时,你是在向人类标注员也就是专家人士,询问这有没有道理,他们通常受过良好教育,参与创建这些对话数据集,

所以你并不是在和一个神奇的ai对话,而是在和一个普通的标注员交谈。

这个普通的标注员可能技能相当高,但是你是在与一个类似这样的人进行即时交谈模拟,这个人会被雇佣来构建这些数据集。

我们正式把“思考”外包给了矩阵乘法,把“意义”托管给了标注员的点击,把“未来”押注在了下一个 token 的 softmax 概率上。

现在,最聪明的机器与最不确定的人类,正在并排走路。

Tcpip packet

弯路1:这个编辑器太好看了吧

简单好用的工具,已收藏

弯路2:有朋友推荐Obsidian,可以和nano banana pro一起用,自动发公众号,文章已收藏,后面实践

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 12:11:45

0x3f第九天复习(考研日)(10.57-14:00)

二叉搜索树验证 前序2min ac4min ac4min ac二叉搜索树验证 中序 6min x 基本没问题,记得 每次递归都要return 结果 6min ac 4min ac二叉搜索树验证 后序 30min x 最后return min(lmin,x), max(rmax,x) 还是有点没理解 15min ac 10min x还是不理解 (return min(lmin…

作者头像 李华
网站建设 2026/2/6 19:32:19

毕业论文毫无头绪?百考通AI平台,输入题目秒出专业初稿!

你是不是正对着空白文档发呆? 选题没方向、大纲理不清、文献看不完、正文写不出……导师催进度,同学已进入修改阶段,而你连“第一章”都还没成型。别再让写作焦虑拖垮你的毕业节奏!百考通全新推出的“毕业论文”AI智能写作平台&am…

作者头像 李华
网站建设 2026/2/5 8:12:00

购物狂欢频繁被攻击:网络安全的价值与必备技能

电商平台涌动着千万订单,支付网关处理着海量交易请求,用户账户里存储着个人信息和资金余额,企业服务器承载着核心业务数据和商业秘密…… 每逢“双十一”、“黑五”等购物狂欢季,或是重大活动期间,我们总能看到“某平…

作者头像 李华
网站建设 2026/2/8 18:40:40

LLM学习宝典:从理论基础到工程实践的完整路径_大模型入门学习教程(非常详细)看这一篇就够了!

文章是一份全面的大模型(LLM)学习指南,分为三个主要部分:基础理论(数学基础、Python、神经网络、NLP)、科学家视角(LLM架构、数据集构建、预训练、微调等)和工程师视角(运行LLM、向量存储、RAG、部署等)。文章提供了系统化的学习路径,包括成长…

作者头像 李华
网站建设 2026/2/8 11:57:42

通用音频系统全链路实战指南

目录 总场景:做一个「直播 / 会议 / 短视频 / AI 语音通用音频系统」 一、PCM / WAV / MP3 / AAC —— 在系统里的真实角色 🎤 现场输入 ✅ PCM(系统内部的“通用语言”) WAV 是什么? MP3 / AAC 是什么&#xff…

作者头像 李华