大模型工程师的一天：揭秘不同方向的日常工作与挑战，收藏这份岗位指南！-开发者社区

本文揭秘了大模型工程师的不同方向及其日常工作，包括模型训练/预训练、模型对齐/后训练、推理优化/部署、应用开发/工程落地以及数据方向。文章强调了数据在模型训练中的重要性，并指出大模型工程师需要具备丰富的经验和专业知识。此外，还讨论了不同方向的工作特点，如模型训练的稳定性问题、数据清洗与标注、推理优化等。最后，作者呼吁真正在大模型岗位上的工程师们分享他们的经验，以提供更准确的信息。

说实话，这个问题煮啵有点虚着回答。

不是不知道，是我真正了解的只有阿里——其他大厂的情况，煮啵没有在里面待过，不敢乱说。

而且还有一个更诚实的前提要说：

真正在做大模型的工程师，大概率没时间写知乎。

煮啵说这话是有依据的——

过年那几天，我们有一个训练模型的群，每训练完一个模型，群里的机器人就会自动输出一条结果数据。那几天消息一直在响。

我当时盯着那些数字看，心想这帮MT（我的mentor们）过年都在训模型。

所以你在知乎上看到的”大模型工程师的一天”，大概率是：要么实习生写的，要么已经离职的人写的，要么就是根据行业信息拼出来的。

煮啵这篇，主要是根据实习期间看到的工作文档、进度报告、周会内容，加上自己的观察和猜测拼出来的。不一定完全准确，你自己判断。

阿里以外的大厂，煮啵就不瞎说了。（说起来，我们阿里我感觉工作氛围相对来说是大厂里面比较轻松的哈哈哈，不像某个跳动，应届生进去工作平均年限居然不到一年哈哈哈哈）

让煮啵先把”大模型岗位”这个词拆开

大模型岗位不是一个岗位，是一堆岗位的统称，做的事情差异巨大。

大概可以分成这几类：

模型训练/预训练方向

模型对齐/后训练方向

推理优化/部署方向

应用开发/工程落地方向

数据方向

每个方向的日常工作，差异大到不像在同一个行业。

煮啵分开说。

模型训练/预训练

这个方向，是煮啵最确定”真的很忙、真的没时间刷知乎”的方向。

过年群里机器人一直在响，基本就是这帮人的工作状态。

他们在做什么？

日常大量的时间，是在解决训练不稳定的问题。

大模型预训练，动辄几百张卡跑几个月，中间会出各种幺蛾子——

Loss spike，训练loss突然跳高，然后不知道能不能降回来。这种情况出现了要分析是数据问题、学习率问题、还是某个模块的数值问题。

卡挂了，某张卡或者某个节点出了问题，要判断是硬件故障还是软件bug，要决定要不要从上一个checkpoint重启。

梯度爆炸，某一层的梯度突然变得很大，整个训练崩了，要找根因。

这些问题，没有标准答案，靠经验，靠对模型内部的理解，靠profiling工具一点点排查。（这里要插一嘴，最近千问抢占了大量边缘部门的卡呜呜呜，并且还的拖拖拉拉的，可恶！）

另一大块时间，是在做训练效率优化。

几百张卡跑训练，通信开销是真实的瓶颈。张量并行、流水线并行、数据并行怎么配，显存怎么省，计算和通信怎么overlap——这些细节决定了训练速度，也决定了成本。

一个优化能把训练吞吐量提升10%，在几百张A100上跑几个月，省下来的钱是真实的。

还有一块是数据pipeline。

预训练数据量是TB级甚至PB级的，数据怎么清洗、怎么去重、怎么配比、怎么采样——这些决定了模型的基础能力，而且影响很难在训练早期看出来，往往要训完才知道某个数据决策对不对。

这个方向的人，工作时间很难规律，因为训练任务不等人——模型训到一半出问题了，不管几点都要处理。（当然，这里说的是像千问这样的公司重点项目哈哈哈哈，边缘部门就相对来说比较佛系了，咳咳，应该吧）

模型对齐/后训练

这个方向，是大模型从”能用”到”好用”的关键环节。

包括SFT（监督微调）、RLHF（基于人类反馈的强化学习）、DPO（直接偏好优化）这些技术。

日常的核心工作是：数据、数据、还是数据。

SFT需要高质量的指令数据——格式正确、回答准确、风格一致。这些数据从哪来？一部分是外部采购，一部分是内部生成，一部分是人工标注。

数据质量直接决定对齐效果，所以大量的时间花在：

设计数据收集方案，怎么定义”好的回答”，标注规范怎么写，怎么保证标注一致性。

数据清洗，去掉有毒的、格式错的、质量差的数据。

数据配比实验，这类数据多一点还是少一点，对最终效果的影响。

另一块是实验迭代。

改一个数据配比，跑一个小实验，看eval指标，决定要不要大规模复现。

改一个训练超参，再跑，再看，再决定。

这个过程听起来枯燥，但判断”哪个方向值得继续推进”本身需要经验和直觉——不是机械地跑实验。

还有一块是评估。

模型好不好，怎么量化？

自动化eval——各种benchmark，数学、代码、推理、安全……跑分，看有没有regression，有没有提升。

人工eval——让真实用户用，收集反馈，分析哪类问题回答得不好。

红队测试——专门去找模型的边界，看它在什么情况下会输出有害内容，怎么绕过安全限制。

说起来，最近煮啵也被主管安排做相关的实验，呜呜呜，本来是想看论文摸鱼的！

推理优化/部署

这个方向，是煮啵在实验室最熟悉的相关内容，也是vLLM那篇回答聊过的东西。

模型训完了，要部署给用户用。但大模型推理很贵，延迟高，怎么在保证质量的前提下，把成本压下来，把速度提上去——这是这个方向的核心问题。

日常在做什么：

量化——把模型从FP16压到INT8甚至INT4，显存占用砍半，速度提升，精度损失控制在可接受范围内。不同的量化方案在不同模型上效果不一样，要实验。

推理框架调优——vLLM、TensorRT-LLM、自研框架，PagedAttention的参数怎么配，batch size怎么选，KV Cache怎么管理。

算子优化——某个特定操作的CUDA kernel写得不够高效，手写一个更快的版本。这个需要真正懂GPU架构，门槛最高。

投机采样（Speculative Decoding）——用小模型辅助大模型推理，前面煮啵有一篇关于vLLM的回答聊过，这里不展开了。

硬件选型——A100、H100、国产卡……不同硬件的特性不一样，同样的模型在不同硬件上跑出来的性能差距很大，要做评测和选型。

这个方向的人，profiling工具要玩得很熟，Nsight Systems、Nsight Compute，能从trace里看出来瓶颈在哪里。

应用开发/工程落地

这个方向和前三个差别很大，更偏工程，更接近业务。

他们在做什么？

RAG系统——检索增强生成，给模型接上知识库，让它能回答最新的、私有的信息。涉及向量数据库、文本分块策略、检索算法、重排序……

Agent系统——让模型能调用工具，能执行多步任务，能和外部系统交互。这个方向现在很热，但工程上还有很多没解决的问题。

Prompt工程——怎么设计系统prompt，怎么控制模型的输出格式，怎么减少幻觉，怎么提升特定任务的效果。

模型能力评估和选型——业务场景需要哪些能力，哪个模型更适合，怎么做AB测试，怎么量化业务指标的提升。

多模态接入——把图像、语音、视频的能力接进来，涉及不同模态的数据处理、模型对接、输出解析。

这个方向的日常，节奏比前三个快，更贴近业务需求，经常要快速迭代，更像传统的互联网工程师，只是工具换成了大模型。

数据方向

这个方向经常被低估，但在大模型里是真正的基础设施。

数据采集——从哪里获取高质量的训练数据，版权问题怎么处理，数据来源怎么多样化。

数据清洗——去重、去噪、过滤低质量内容、检测有害内容。这个流程的pipeline要处理TB级别的数据，工程要求很高。

数据标注管理——标注规范的设计，标注人员的培训，标注质量的管控，标注一致性的评估。

数据飞轮——模型上线之后，收集用户反馈，把有价值的反馈转化成新的训练数据，让模型持续进化。

这个方向，很多人以为只是”处理数据”，但实际上数据决策直接影响模型能力的上限，做得好的人对这件事有很深的理解，不是体力活。

（咳咳，并且，哈哈哈，我们如果遇到了奇怪的问题，或者是实在找不到原因了，就会把锅扣给数据哈哈哈哈）

说一个煮啵觉得很多人没想到的事

实习的时候，煮啵发现一件事：

做大模型的人，开会的时间比我想象的多很多。

不是无效的扯皮会，是真实的技术讨论——

这个实验方向值不值得继续，为什么这个eval指标提升了但用户反馈没变好，这个数据配比改动背后的逻辑是什么，下一个sprint的优先级怎么排。

这些讨论，需要你对模型有足够深的理解，也需要你能把自己的判断说清楚。

光会跑实验不够，你要能解释实验结果，要能根据结果提出有价值的下一步判断。

这个能力，学校里练不出来，只有在真实的工程环境里才能慢慢建立。

煮啵实习第一个月，开会基本就是在听，完全不知道该说什么。第二个月开始能跟上讨论了。第三个月才开始敢提自己的判断。（这里要夸夸阿里，确实是在认真培养实习生，至少算法岗是这样！每周都让实习生轮流分享论文，要是想发paper也可以请教mt，带薪发论文美滋滋）

最后说一个真实的感受

写这篇的时候，煮啵想起过年那几天，群里机器人的消息一条一条往下刷。

那些数字——loss、perplexity、各个benchmark的分数——背后是真实的人在真实地工作。

他们不会在知乎上写”大模型工程师的一天”，因为他们的一天可能还没结束。

所以这篇里说的东西，是煮啵根据工作文档、进度报告、周会内容拼出来的，不是第一手的亲历。

如果有真正在这个岗位上的人看到这篇，欢迎来评论区补充或者纠正——你们的一手经验，比煮啵猜的准确多了。

读者姥爷们，评论区见哦。

好了，下课！

那么如何学习大模型 AI ？

对于刚入门大模型的小白，或是想转型/进阶的程序员来说，最头疼的就是找不到系统、全面的学习资源，要么零散不成体系，要么收费高昂，白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包，覆盖从入门到实战、从理论到面试的全流程，所有资料均已整理完毕，免费分享给各位！

核心包含：AI大模型全套系统化学习路线图（小白可直接照做）、精品学习书籍+电子文档、干货视频教程、可直接上手的实战项目+源码、2026大厂面试真题题库，一站式解决你的学习痛点，不用再到处搜集拼凑！

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

学习大模型，方向比努力更重要！很多小白入门就陷入“盲目看视频、乱刷资料”的误区，最后越学越懵。这里给大家整理的这份学习路线，是结合2026年大模型行业趋势和新手学习规律设计的，最科学、最系统，从零基础到精通，每一步都有明确指引，帮你节省80%的无效学习时间，少走弯路、高效进阶。

2、大模型学习书籍&文档

理论是实战的根基，尤其是对于程序员来说，想要真正吃透大模型原理，离不开优质的书籍和文档支撑。本次整理的书籍和电子文档，均由大模型领域顶尖专家、大厂技术大咖撰写，涵盖基础入门、核心原理、进阶技巧等内容，语言通俗易懂，既有理论深度，又贴合实战场景，小白能看懂，程序员能进阶，为后续实战和面试打下坚实基础。

3、AI大模型最新行业报告

无论是小白了解行业、规划学习方向，还是程序员转型、拓展业务边界，都需要紧跟行业趋势。本次整理的2026最新大模型行业报告，针对互联网、金融、医疗、工业等多个主流行业，系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会，帮你清晰了解哪些行业更适合大模型落地，哪些技术方向值得重点深耕，避免盲目学习，精准对接行业需求。值得一提的是，报告还包含了多模态、AI Agent等前沿方向的发展分析，助力大家把握技术风口。

4、大模型项目实战&配套源码

对于程序员和想落地能力的小白来说，“光说不练假把式”，只有动手实战，才能真正巩固所学知识，将理论转化为实际能力。本次整理的实战项目，涵盖基础应用、进阶开发、多场景落地等类型，每个项目都附带完整源码和详细教程，从简单的ChatPDF搭建，到复杂的RAG系统开发、大模型部署，难度由浅入深，小白可逐步上手，程序员可直接参考优化，既能练手提升技术，又能丰富简历，为求职和职业发展加分。

5、大模型大厂面试真题

2026年大模型面试已从单纯考察原理，转向侧重技术落地和业务结合的综合考察，很多程序员和新手因为缺乏针对性准备，明明技术不错，却在面试中失利。为此，我精心整理了各大厂最新大模型面试真题题库，涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点，不仅有真题，还附带详细解题思路和行业踩坑经验，帮你精准把握面试重点，提前做好准备，面试时从容应对、游刃有余。

6、四阶段精细化学习规划（附时间节点，可直接照做）

结合上述资源，给大家整理了一份可直接落地的四阶段学习规划，总时长约2个月，小白可循序渐进，程序员可根据自身基础调整节奏，高效掌握大模型核心能力，快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】