news 2026/4/23 15:02:27

大模型工程师的一天:揭秘不同方向的日常工作与挑战,收藏这份岗位指南!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型工程师的一天:揭秘不同方向的日常工作与挑战,收藏这份岗位指南!

本文揭秘了大模型工程师的不同方向及其日常工作,包括模型训练/预训练、模型对齐/后训练、推理优化/部署、应用开发/工程落地以及数据方向。文章强调了数据在模型训练中的重要性,并指出大模型工程师需要具备丰富的经验和专业知识。此外,还讨论了不同方向的工作特点,如模型训练的稳定性问题、数据清洗与标注、推理优化等。最后,作者呼吁真正在大模型岗位上的工程师们分享他们的经验,以提供更准确的信息。

说实话,这个问题煮啵有点虚着回答。

不是不知道,是我真正了解的只有阿里——其他大厂的情况,煮啵没有在里面待过,不敢乱说。

而且还有一个更诚实的前提要说:

真正在做大模型的工程师,大概率没时间写知乎。

煮啵说这话是有依据的——

过年那几天,我们有一个训练模型的群,每训练完一个模型,群里的机器人就会自动输出一条结果数据。那几天消息一直在响。

我当时盯着那些数字看,心想这帮MT(我的mentor们)过年都在训模型。

所以你在知乎上看到的”大模型工程师的一天”,大概率是:要么实习生写的,要么已经离职的人写的,要么就是根据行业信息拼出来的。

煮啵这篇,主要是根据实习期间看到的工作文档、进度报告、周会内容,加上自己的观察和猜测拼出来的。不一定完全准确,你自己判断。

阿里以外的大厂,煮啵就不瞎说了。(说起来,我们阿里我感觉工作氛围相对来说是大厂里面比较轻松的哈哈哈,不像某个跳动,应届生进去工作平均年限居然不到一年哈哈哈哈)


让煮啵先把”大模型岗位”这个词拆开

大模型岗位不是一个岗位,是一堆岗位的统称,做的事情差异巨大。

大概可以分成这几类:

模型训练/预训练方向

模型对齐/后训练方向

推理优化/部署方向

应用开发/工程落地方向

数据方向

每个方向的日常工作,差异大到不像在同一个行业。

煮啵分开说。


模型训练/预训练

这个方向,是煮啵最确定”真的很忙、真的没时间刷知乎”的方向。

过年群里机器人一直在响,基本就是这帮人的工作状态。

他们在做什么?

日常大量的时间,是在解决训练不稳定的问题。

大模型预训练,动辄几百张卡跑几个月,中间会出各种幺蛾子——

Loss spike,训练loss突然跳高,然后不知道能不能降回来。这种情况出现了要分析是数据问题、学习率问题、还是某个模块的数值问题。

卡挂了,某张卡或者某个节点出了问题,要判断是硬件故障还是软件bug,要决定要不要从上一个checkpoint重启。

梯度爆炸,某一层的梯度突然变得很大,整个训练崩了,要找根因。

这些问题,没有标准答案,靠经验,靠对模型内部的理解,靠profiling工具一点点排查。(这里要插一嘴,最近千问抢占了大量边缘部门的卡呜呜呜,并且还的拖拖拉拉的,可恶!)

另一大块时间,是在做训练效率优化。

几百张卡跑训练,通信开销是真实的瓶颈。张量并行、流水线并行、数据并行怎么配,显存怎么省,计算和通信怎么overlap——这些细节决定了训练速度,也决定了成本。

一个优化能把训练吞吐量提升10%,在几百张A100上跑几个月,省下来的钱是真实的。

还有一块是数据pipeline。

预训练数据量是TB级甚至PB级的,数据怎么清洗、怎么去重、怎么配比、怎么采样——这些决定了模型的基础能力,而且影响很难在训练早期看出来,往往要训完才知道某个数据决策对不对。

这个方向的人,工作时间很难规律,因为训练任务不等人——模型训到一半出问题了,不管几点都要处理。(当然,这里说的是像千问这样的公司重点项目哈哈哈哈,边缘部门就相对来说比较佛系了,咳咳,应该吧)


模型对齐/后训练

这个方向,是大模型从”能用”到”好用”的关键环节。

包括SFT(监督微调)、RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)这些技术。

日常的核心工作是:数据、数据、还是数据。

SFT需要高质量的指令数据——格式正确、回答准确、风格一致。这些数据从哪来?一部分是外部采购,一部分是内部生成,一部分是人工标注。

数据质量直接决定对齐效果,所以大量的时间花在:

设计数据收集方案,怎么定义”好的回答”,标注规范怎么写,怎么保证标注一致性。

数据清洗,去掉有毒的、格式错的、质量差的数据。

数据配比实验,这类数据多一点还是少一点,对最终效果的影响。

另一块是实验迭代。

改一个数据配比,跑一个小实验,看eval指标,决定要不要大规模复现。

改一个训练超参,再跑,再看,再决定。

这个过程听起来枯燥,但判断”哪个方向值得继续推进”本身需要经验和直觉——不是机械地跑实验。

还有一块是评估。

模型好不好,怎么量化?

自动化eval——各种benchmark,数学、代码、推理、安全……跑分,看有没有regression,有没有提升。

人工eval——让真实用户用,收集反馈,分析哪类问题回答得不好。

红队测试——专门去找模型的边界,看它在什么情况下会输出有害内容,怎么绕过安全限制。

说起来,最近煮啵也被主管安排做相关的实验,呜呜呜,本来是想看论文摸鱼的!


推理优化/部署

这个方向,是煮啵在实验室最熟悉的相关内容,也是vLLM那篇回答聊过的东西。

模型训完了,要部署给用户用。但大模型推理很贵,延迟高,怎么在保证质量的前提下,把成本压下来,把速度提上去——这是这个方向的核心问题。

日常在做什么:

量化——把模型从FP16压到INT8甚至INT4,显存占用砍半,速度提升,精度损失控制在可接受范围内。不同的量化方案在不同模型上效果不一样,要实验。

推理框架调优——vLLM、TensorRT-LLM、自研框架,PagedAttention的参数怎么配,batch size怎么选,KV Cache怎么管理。

算子优化——某个特定操作的CUDA kernel写得不够高效,手写一个更快的版本。这个需要真正懂GPU架构,门槛最高。

投机采样(Speculative Decoding)——用小模型辅助大模型推理,前面煮啵有一篇关于vLLM的回答聊过,这里不展开了。

硬件选型——A100、H100、国产卡……不同硬件的特性不一样,同样的模型在不同硬件上跑出来的性能差距很大,要做评测和选型。

这个方向的人,profiling工具要玩得很熟,Nsight Systems、Nsight Compute,能从trace里看出来瓶颈在哪里。


应用开发/工程落地

这个方向和前三个差别很大,更偏工程,更接近业务。

他们在做什么?

RAG系统——检索增强生成,给模型接上知识库,让它能回答最新的、私有的信息。涉及向量数据库、文本分块策略、检索算法、重排序……

Agent系统——让模型能调用工具,能执行多步任务,能和外部系统交互。这个方向现在很热,但工程上还有很多没解决的问题。

Prompt工程——怎么设计系统prompt,怎么控制模型的输出格式,怎么减少幻觉,怎么提升特定任务的效果。

模型能力评估和选型——业务场景需要哪些能力,哪个模型更适合,怎么做AB测试,怎么量化业务指标的提升。

多模态接入——把图像、语音、视频的能力接进来,涉及不同模态的数据处理、模型对接、输出解析。

这个方向的日常,节奏比前三个快,更贴近业务需求,经常要快速迭代,更像传统的互联网工程师,只是工具换成了大模型。


数据方向

这个方向经常被低估,但在大模型里是真正的基础设施。

数据采集——从哪里获取高质量的训练数据,版权问题怎么处理,数据来源怎么多样化。

数据清洗——去重、去噪、过滤低质量内容、检测有害内容。这个流程的pipeline要处理TB级别的数据,工程要求很高。

数据标注管理——标注规范的设计,标注人员的培训,标注质量的管控,标注一致性的评估。

数据飞轮——模型上线之后,收集用户反馈,把有价值的反馈转化成新的训练数据,让模型持续进化。

这个方向,很多人以为只是”处理数据”,但实际上数据决策直接影响模型能力的上限,做得好的人对这件事有很深的理解,不是体力活。

(咳咳,并且,哈哈哈,我们如果遇到了奇怪的问题,或者是实在找不到原因了,就会把锅扣给数据哈哈哈哈)


说一个煮啵觉得很多人没想到的事

实习的时候,煮啵发现一件事:

做大模型的人,开会的时间比我想象的多很多。

不是无效的扯皮会,是真实的技术讨论——

这个实验方向值不值得继续,为什么这个eval指标提升了但用户反馈没变好,这个数据配比改动背后的逻辑是什么,下一个sprint的优先级怎么排。

这些讨论,需要你对模型有足够深的理解,也需要你能把自己的判断说清楚。

光会跑实验不够,你要能解释实验结果,要能根据结果提出有价值的下一步判断。

这个能力,学校里练不出来,只有在真实的工程环境里才能慢慢建立。

煮啵实习第一个月,开会基本就是在听,完全不知道该说什么。第二个月开始能跟上讨论了。第三个月才开始敢提自己的判断。(这里要夸夸阿里,确实是在认真培养实习生,至少算法岗是这样!每周都让实习生轮流分享论文,要是想发paper也可以请教mt,带薪发论文美滋滋)


最后说一个真实的感受

写这篇的时候,煮啵想起过年那几天,群里机器人的消息一条一条往下刷。

那些数字——loss、perplexity、各个benchmark的分数——背后是真实的人在真实地工作。

他们不会在知乎上写”大模型工程师的一天”,因为他们的一天可能还没结束。

所以这篇里说的东西,是煮啵根据工作文档、进度报告、周会内容拼出来的,不是第一手的亲历。

如果有真正在这个岗位上的人看到这篇,欢迎来评论区补充或者纠正——你们的一手经验,比煮啵猜的准确多了。

读者姥爷们,评论区见哦。

好了,下课!

那么如何学习大模型 AI ?

对于刚入门大模型的小白,或是想转型/进阶的程序员来说,最头疼的就是找不到系统、全面的学习资源,要么零散不成体系,要么收费高昂,白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包,覆盖从入门到实战、从理论到面试的全流程,所有资料均已整理完毕,免费分享给各位!

核心包含:AI大模型全套系统化学习路线图(小白可直接照做)、精品学习书籍+电子文档、干货视频教程、可直接上手的实战项目+源码、2026大厂面试真题题库,一站式解决你的学习痛点,不用再到处搜集拼凑!

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

学习大模型,方向比努力更重要!很多小白入门就陷入“盲目看视频、乱刷资料”的误区,最后越学越懵。这里给大家整理的这份学习路线,是结合2026年大模型行业趋势和新手学习规律设计的,最科学、最系统,从零基础到精通,每一步都有明确指引,帮你节省80%的无效学习时间,少走弯路、高效进阶。

2、大模型学习书籍&文档

理论是实战的根基,尤其是对于程序员来说,想要真正吃透大模型原理,离不开优质的书籍和文档支撑。本次整理的书籍和电子文档,均由大模型领域顶尖专家、大厂技术大咖撰写,涵盖基础入门、核心原理、进阶技巧等内容,语言通俗易懂,既有理论深度,又贴合实战场景,小白能看懂,程序员能进阶,为后续实战和面试打下坚实基础。

3、AI大模型最新行业报告

无论是小白了解行业、规划学习方向,还是程序员转型、拓展业务边界,都需要紧跟行业趋势。本次整理的2026最新大模型行业报告,针对互联网、金融、医疗、工业等多个主流行业,系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会,帮你清晰了解哪些行业更适合大模型落地,哪些技术方向值得重点深耕,避免盲目学习,精准对接行业需求。值得一提的是,报告还包含了多模态、AI Agent等前沿方向的发展分析,助力大家把握技术风口。

4、大模型项目实战&配套源码

对于程序员和想落地能力的小白来说,“光说不练假把式”,只有动手实战,才能真正巩固所学知识,将理论转化为实际能力。本次整理的实战项目,涵盖基础应用、进阶开发、多场景落地等类型,每个项目都附带完整源码和详细教程,从简单的ChatPDF搭建,到复杂的RAG系统开发、大模型部署,难度由浅入深,小白可逐步上手,程序员可直接参考优化,既能练手提升技术,又能丰富简历,为求职和职业发展加分。

5、大模型大厂面试真题

2026年大模型面试已从单纯考察原理,转向侧重技术落地和业务结合的综合考察,很多程序员和新手因为缺乏针对性准备,明明技术不错,却在面试中失利。为此,我精心整理了各大厂最新大模型面试真题题库,涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点,不仅有真题,还附带详细解题思路和行业踩坑经验,帮你精准把握面试重点,提前做好准备,面试时从容应对、游刃有余。

6、四阶段精细化学习规划(附时间节点,可直接照做)

结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 15:01:03

STM32 CubeMX配置I2C读取GY-302光照数据,告别手动敲代码

STM32 CubeMX实战:5分钟搞定I2C读取GY-302光照传感器 当你在智能家居项目中需要实时监测室内光照强度时,BH1750数字光照传感器往往是首选方案。这款日本罗姆半导体生产的传感器不仅精度高达1-65535lx,还省去了传统光敏电阻需要的复杂校准过程…

作者头像 李华
网站建设 2026/4/23 15:01:02

用STM32CubeMX和HAL库快速上手CAN通信:5分钟完成数据收发测试

用STM32CubeMX和HAL库5分钟实现CAN通信实战指南 当你第一次拿到STM32开发板时,最迫切的需求往往不是深入研究寄存器配置,而是快速验证核心功能是否正常工作。CAN总线作为工业控制、汽车电子等领域广泛使用的通信协议,其快速验证对项目进度至关…

作者头像 李华
网站建设 2026/4/23 15:00:59

使用 YOLOv8 进行训练无人机视角的可见光-红外火点和烟雾检测数据集红外可见光配对 双模态输入(多模态)无人机红外可见光火灾烟雾数据集的训练评估及推理

使用 YOLOv8 进行训练无人机视角的可见光-红外配对火点和烟雾检测数据集 双模态输入(多模态)无人机红外可见光火灾烟雾数据集的训练评估及推理 以下文字及代码可供参考。仅供参考。 文章目录**1. 环境搭建****2. 数据准备****2.1 数据格式转换&#xff0…

作者头像 李华
网站建设 2026/4/23 14:59:33

踩坑实战pywebview:用 Python + Web 技术打造轻量级桌面应用

如果你想用 Python 快速做一个桌面应用,但又不想陷入复杂的原生 UI 开发(如 Qt、Win32、Cocoa)中,那么 pywebview 是一个非常值得关注的方案。 它的核心思想很直接:用 Web 页面做界面,用 Python 写业务逻辑…

作者头像 李华
网站建设 2026/4/23 14:56:19

手把手教你用Keil uVision仿真器调试STM32代码(无开发板也能跑)

手把手教你用Keil uVision仿真器调试STM32代码(无开发板也能跑) 在嵌入式开发领域,硬件资源往往是初学者的第一道门槛。当手头没有开发板时,很多人会陷入"巧妇难为无米之炊"的困境。但你可能不知道,Keil uVi…

作者头像 李华
网站建设 2026/4/23 14:47:57

如何轻松下载国内七大视频平台内容:Video-Downloader完整指南

如何轻松下载国内七大视频平台内容:Video-Downloader完整指南 【免费下载链接】Video-Downloader 下载youku,letv,sohu,tudou,bilibili,acfun,iqiyi等网站分段视频文件,提供mac&win独立App。 项目地址: https://gitcode.com/gh_mirrors/vi/Video-D…

作者头像 李华