news 2026/4/15 16:31:25

为什么大模型公司疯狂招聘GPU Kernel工程师?CUDA技能仍不可替代

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
为什么大模型公司疯狂招聘GPU Kernel工程师?CUDA技能仍不可替代

文章分析了大模型时代GPU Kernel工程师的不可替代性。尽管自动化工具声称能替代手写Kernel,但仍无法覆盖业务场景的多样性和极致性能需求。LLM时代,超长序列Attention、MoE结构等需要定制化算子优化,Kernel工程师能解决复杂工程问题、评估优化空间。CUDA技能仍是AI就业市场的必备基本功,但还需结合特定项目经验和模型部署能力。芯片公司对此类人才需求尤其大,就业前景广阔。


标题的两个问题来自于某乎,本人近期在某乎上回答了这俩问题,在此也分享给大家。

先回答第二个问题

一句话归总:招聘GPU kernel engineer的动机在于,自动化工具与通用库声称的普适性始终无法覆盖业务场景的极致性与多样性,这适用于任何一家招聘此岗位的公司,互联网、芯片、车企等等

以下是详细解释:

自动化工具替代手写kernel这事儿吧,真的嚷嚷挺久了,但替代不了啊,2012年前后,MIT开发的Halide就已开创算法与调度分离的思路,后续的TensorRT、TF-XLA等也延续了这一方向,陈天奇在2018年发表的TVM/autoTVM将Halide思想从传统图像处理扩展到深度学习,降低了深度学习领域算子优化的门槛,试图通过autoTVM/autoschedule生成高效算子,在它的某乎文章<<AutoTVM:让AI来编译优化AI系统底层算子>>中有详细解释,值得一提的是,autoschedule的作者还是现在sglang的核心owner zhenglianmin,届时各大公司也相继开始制作针对自家模型的编译器,以节约算子开发的人力,那个时候就开始嚷嚷要取代手写的了,但是始终未能实现全场景替代手写Kernel,更多地是与手写kernel相结合,以实现最佳性能,比如TVM不是开放了一个BYOC的接口吗,cutlass,tensorrt什么的都去接入了。

2023年LLM爆发后,算子集合看似收敛到gemm、attention等有限类型,大家一度觉得,哎,我又行了,觉得通用库足够覆盖,但实际优化压力集中到了更极致的定制化上,比如LLM的超长序列Attention、MoE结构的专家并行算子,cutlass等通用库的默认实现往往无法匹配业务性能需求,有时需要自定义epilogue,需要扩展粒度等等。

到现在2026年,历史总是相似的,自动化工具又来了一堆新玩具,比如AI Agent生成Kernel,但仍处于各家公司的demo阶段,开源工作少之又少,但我相信仍然是辅助优化而非100%依赖AI agent独立完成,我觉得它依然更像是一种减少工程师的重复劳动的重要工具,而非取代工程师的经验,而且这里依然有很多需要Kernel engineer来解决的工程问题,需要工程师判断性能瓶颈,评估优化空间,不招懂Kernel的人,连生成的代码好不好用都不造。

另一方面,Kernel并非单一维度的代码,而是数据精度、融合策略、内存布局、硬件适配、模型特性等多维度的组合体,这种组合的复杂度远超自动化工具的覆盖范围,理想是美好的,现实是骨感的

且当前硬件生态呈现碎片化,你的题目貌似只提到了cuda,但是世上并不只是达子一家铲子,也不止cuda一套生态系统,即使号称cuda兼容的amd rocm,也存在API兼容不全、性能表现不一致的问题,hipfy转化不靠谱支持不全的问题(这不Claude code帮AMD不是打了一波工吗? 见某乎文章: <<CUDA要凉?Claude 30分钟铲平英伟达护城河,AMD要笑醒了>>,有一说一,这标题取得也是有关注度的),所以必须靠手写Kernel补全适配、优化性能。对于国产GPU(如摩尔、壁仞)的指令集、编程模型与cuda差异显著,更需要专属Kernel团队打造基础能力;壁仞BR100是自研芯片架构与指令集,缺乏cuda生态的天然支持。这类国产硬件显然无法直接复用达子生态的成熟算子库,所以不得不依赖专属kernel团队从基础算子(如自定义gemm、attention)到上层业务算子全链路打通,搭建适配自身硬件的算子体系,才能支撑模型落地。边缘端设备(如risc-v架构芯片)、异构计算场景(如CPU+FPGA、CPU+ASIC组合)那更加是属于典型的非cuda路线了,这类场景不仅硬件架构多样,且受限于功耗、算力、内存资源,手写Kernel成为实现功能、榨干有限硬件性能的核心,那必然是要大量招人了。

再说业务场景,如今通用库(如你提到的cutlass、cublas)虽然支持很多shape+很多内存布局的场景,但实际业务非标准shape、动态shape、自定义内存布局的workload(比如推荐系统的稀疏算子)多了去了,这些场景下自动化工具的调度策略容易gg,必须靠工程师手工调优内存访问、算子融合逻辑等等来榨干硬件性能。

还有现在流行的各种低精度**,**从FP32到FP16、FP8、int8,再到int4/fp4等低精度量化,每种精度的Kernel实现都需要兼顾性能与精度正确性;通用库真的适配不完,需要工程师定制开发,当然开发了以后可能集成到通用库里面去或者基于通用库的code base作二次开发,以及确保精度偏差正常,这个是以编译器和agent为代表的自动化工具较难精准把控的工作。

这不,DeepSeek v4不是要出来了吗?去年的MLA、FP8 Blocked GEMM、EP-MoE就已经各各大公司折腾了,这些算子在通用库中没有现成实现,需要重新现写,设计各种融合策略和内存访问模式balabala,今年我估计春节前后又有一堆人要xxxx了

哦对了,我还说漏了一点,即使是达子,那他迭代硬件的速度也快啊,每一代的架构都有或大或小的差异,blackwell上也没法跑hopper定制的算子啊,都得去适配。而且,国产芯片也在快速迭代中。

所以,流水的自动化工具,铁打的手写kernel engineer

再来看第一个问题

这个问题提的比较早了,貌似是17年,当时CUDA在AI上的应用并不广泛,多数还是用于传统HPC和游戏领域,这是题主在这个背景下提出的这个问题,2026年再回过头来看这个问题,就业情况已经发生了很大变化,2020年前,CUDA在AI上的就业确实尚未爆发,所以很多2020年前的回答多数聚焦在CUDA应用于传统HPC领域。

现在来看的话,会CUDA是现在AI推理或者AI infra就业市场上非常看重的一点,甚至我都觉得是必需项了,即使像很多答主所说,实际工作中,纯手写CUDA用处不大了,多数要依靠各个领域特定编程语言(DSL)或脚手架或库,但是面试的话,依然会考察CUDA能力尤其是对CUDA和硬件架构的cowork重点理解,这个是基本功,即便DSL和新硬件再怎么变化,基本功一直在那里不会变,你要工作首先得先通过面试不是。

但是话又说回来,几位答主说的特别好,会以上所讲的CUDA能力也不够,现在的就业市场对CUDA的要求只是一方面,你还需要在CUDA之外了解基于CUDA或者类CUDA的流行项目,比如cutlass,flashinfer,thunderkittens,attention系列CUDA项目,基于CUDA的通信算子系列,当然全部了解不现实,熟悉1到2个我认为足够,熟悉是指要讲出来60%以上,以及基于它做过一些或大或小的扩展,或者合入几个PR,不过一些中小公司也不会要求你实际动手过,能讲出来已经不错。另外,模型部署或优化层面的经历也需要,CUDA只是工具,要最终落地到模型部署上面来才是正儿八经的KPI,现在面试都流行造火箭,CUDA单个技能已经不太能作为就业的唯一钥匙。

再从需求上来说,这个方向的圈子不大,能去的公司在cuda目前就业情况怎样? - 知乎回答中已经较为完备,招人的数量从我的视角来看,约面的一大堆,抛开约面公司的headcount多少,至少工作机会还是不少的,芯片公司的需求尤其大

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 0:30:25

让卫星在空中“换脑”:ZYNQ在轨重构技术实现太空智能进化

2025年7月,一颗业余无线电卫星在太空中突然“学会”了新的视觉技能,这不是科幻,而是我们团队用ZYNQ MPSoC实现的部分可重构计算创造的奇迹。 当这颗名为“智能立方星一号”的卫星在500公里轨道上飞行时,地面站上传了一个新的“大脑模块”——一个专门用于红外弱小目标跟踪的…

作者头像 李华
网站建设 2026/3/31 8:18:09

ue metahuman绑定教程

b站绑定衣服&#xff1a; https://www.bilibili.com/video/BV16LZmYnEMm https://www.bilibili.com/video/BV1nvkDBSEvb

作者头像 李华
网站建设 2026/4/10 17:18:31

安鹏精密实测:NVH路测中,如何零开发搞定CAN信号同步?

虹科PCAN方案助力NVH信号采集优化面对NVH&#xff08;噪声、振动与声振粗糙度&#xff09;测试中CAN信号采集的壁垒&#xff0c;是投入成本自主研发&#xff0c;还是寻找现成解决方案&#xff1f;安鹏精密的工程师在真实路测中找到了答案 —— 通过部署虹科PCAN-MicroMod FD设备…

作者头像 李华
网站建设 2026/4/9 12:23:48

React Native for OpenHarmony:Pressable —— 构建下一代状态驱动交互的基石

Pressable —— 构建下一代状态驱动交互的基石 引言&#xff1a;从“反馈”到“状态”的范式跃迁一、Pressable 的核心哲学&#xff1a;状态即一切1.1 核心状态参数1.2 与 TouchableOpacity 的对比 二、多状态协同&#xff1a;打造沉浸式交互体验2.1 按下与悬停的协同2.2 禁用状…

作者头像 李华
网站建设 2026/4/15 4:06:27

不同小波基分解层数的小波变换信号去噪声附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。&#x1f34e; 往期回顾关注个人主页&#xff1a;Matlab科研工作室&#x1f447; 关注我领取海量matlab电子书和…

作者头像 李华
网站建设 2026/4/6 1:30:18

看完就会,从抓包到接口测试的全过程解析

一、为什么抓包 1、从功能测试角度 通过抓包查看隐藏字段 Web 表单中会有很多隐藏的字段&#xff0c;这些隐藏字段一般都有一些特殊的用途&#xff0c;比如收集用户的数据&#xff0c;预防 CRSF 攻击&#xff0c;防网络爬虫&#xff0c;以及一些其他用途。这些隐藏字段在界面…

作者头像 李华