news 2026/1/8 15:27:18

命运的齿轮开始转动:一名普通工程师 AI 转型一年

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
命运的齿轮开始转动:一名普通工程师 AI 转型一年

一名普通工程师 AI 转型一年,这是我对 2025 年 AI 技术学习与实践的一次完整复盘。

一转眼2025已又到尾声,去年11月一次偶然的事件似乎正在悄悄改变我的职业规划,命运的齿轮开始转动,从此开启了魔幻之路,从一名普通码农,升级为架构师,负责公司 AI 产品线。

那是一个普通的周末,车子开去保养,在休息室偶遇一位长辈,做了基建工程 30 几年了,做的很大,但是他正在尝试换行业,说当下环境工程不好做,回款难,很累,不打算再了,所以投了小千万到一家 AI 科技公司,一直介绍该科技公司的产品,回家后的我逐步陷入沉思,心想着是不是再不深度了解下 AI 这个行业也许后面真的要被淘汰了,虽然作为一名互联网打工仔,日常工作中早就使用各AI工具来提高工作效率,但仅仅是停留在使用的阶段,对其原理就是一张白纸,所以打算从硬件到软件通过实践的方式入门 AI,因此开始尝试低成本组装AI深度学习服务器,毕竟要学 AI 首先硬件就是个不小的门槛。从此刻开始在心里立下了一个小目标:我要进入AI行业。

因此有了《3500元组装一台 AI 深度学习服务器?》,当我将这篇文章和过程视频发布到各大平台后,得到最多的几条评论是“组了一台垃圾”、“电费都不够”,但只有我自己知道,因为它,我成长了。

2024.12-2025.01 尝试硬件选购到组装

1、知道了主板、内存、CPU、GPU、电源怎么选,怎么搭配;
2、知道了Nvidia各系列GPU差异;
3、知道了什么是FP32、FP16、BF16、FP8、FP4;
4、知道了BMC,原来有些还要单独购买芯片插上才能用;
5、知道了如何更新GPU、BMC的固件;
6、知道了PICE通道数原来是有限制的;
7、遇到主板不亮和CPU不兼容的情况;
8、遇到电源问题;
...

折腾过程除了文字记录还同步了视频记录,当然这也耗费了大量时间。

2025.02-2025.03 尝试安装系统驱动到环境配置

1、学会了怎么用 Ubuntu 系统,怎么安装程序以及常用的各种命令;
2、知道了 CUDA、cuDNN、PyTorch 是干嘛的,它们之间有什么关系;
3、GPU ECC 无法关闭问题怎么解决;
4、各版本驱动与 GPU 之间的差异性,例如 M40 只有在特定驱动下才能通过命令关闭 ECC;
5、各版本 CUDA 与 GPU 之间的差异性,例如 CUDA 11.4 无法支持多卡,11.8 支持多卡并行;
6、vLLM 官方是不支持 M40,通过修改 vLLM 源码,让它适配 M40,知道了有 TensorCore 这个东西;
7、知道了 Anaconda、venv、uv的区别;
8、成功用 LLama-Factory 微调了一个 Qwen2 1.5B 小模型;
...

依稀记得那是微调成功一个模型激动了一晚上,在这期间还花了 500 买了一台:R720,这是人生第一台服务器,由于特别想知道服务器到底有什么区别,是什么样的构造,到手后才知道服务器真的好重好重!才知道了 Raid 卡,知道了 Raid0、Raid1、Raid5、Raid10 有什么区别,怎么配置,才知道了原来硬盘出了 SATA、M.2 还有 SAS,但最后它也就静静的摆在一旁,因为能上两张双宽的 PCIE GPU,所以偶尔会拿来当测试机。

2025.03 组装双卡 4090 炼丹炉

经过近 4 个月的折腾,对于 AI 的硬件、环境软件已经有了一定了解,3 月份买了两张 RTX 4090,那时一张 1.8W,组了第一台实至名归的“炼丹炉”,还好是 3 月买的,4 月开始显卡价格直线上涨,5 月份就涨到了 2.1W,开始深入尝试 AI 生态各种开源框架,例如:那时大名鼎鼎的 KTransformers 部署 DeepSeek-R1 671B,安装部署 Stable Diffusion,毕竟那时它还能和 ComfyUI 对抗一下,安装部署 ComfyUI,发现确实自由度比 Stable Diffusion 高太多了,安装部署 Dify,搭建了第一个工作流,第一个智能体。

2025.05 AMD MI50 ROCm 体验

大船靠岸,AMD MI50 强势来袭,32G 大显存让我垂涎欲滴,加上 B 站各大博主的测评让我蠢蠢欲动,但其实我是想试下 AMD 的 ROCm 生态与 Nvidia CUDA 生态到底有哪些区别,差距真的很大吗?带着疑问我买了 4 块 MI50 32G,为了让 AMD 平台更加纯粹,又买了一台二手 G292-Z20,这是我的第二台服务器,支持 8 卡 PICE 4.0 的性能猛兽,搭载一颗普通的 EPYC 7402P CPU,但足够我测试用,用了 2 个月测试了各 AI 框架在 MI50 上的性能,从各版本 ROCm 版本的测试,到模型输出乱码并解决,再测能跑多大的模型,什么样的量化版本,生图性能如何,能不能微调模型,能微调多大的模型等等。

2025.07 从低代码转向手搓 Python

深度使用了 Dify 四个月后,因为社区版的各种限制已经满足不了,开始考虑转向 LangChain,但对于 Python 不太熟悉,还是得先硬着头皮啃一些书,加上 Vibe Coding 的加持,边学变干。

此时年初疯涨的显卡价格开始回落,RTX 3090 从 4 月份的 8999 降到 5999,于是我买了一张回来,与 RTX 4090 做对比测试。

2025.08 Tesla V100 SMX2 体验

Tesla V100 的大船又靠岸了,16G 版本只要 500 元,但它是 SXM2 版本的,虽然市面上出了很多转接卡版本,有通过 PCIE 的,有通过 8654 接口的,但我还是喜欢更存粹的原生板载 NVLink,经过一番查找我知道了有 C4130、C4140 这两兄弟,1U服务器,预算有限,因此先下手 C4130,第三台服务器到手,市面上多数是 PCIE 版本的,我买的也是,到手后要对它升级,升级为支持 SXM2 NVLink 版本的配置 K,但戴尔官方是无法查询到升级所需的备件号,于是只能通过查阅各种资料,最终经过不懈的尝试下终于将这台 C4130 配置 C 成功升级为 配置 K,搭载 4 块 V100-SMX2 16G,NVLink 性能拉满。

2025.10 算力再升级

由于自己还有研究一些视觉识别方面的训练,4 块 V100-SMX2 16G 经过 2 个月的使用逐渐满足不了我了,打算升级为 V100-SMX2 32G 的版本,刚好价格也从 2900 多降到 2400 左右,买回来后安装在 C4130 上居然出现了风扇满载 GPU 性能无法全部释放的情况,经过搜索资料研究后发现这是由于戴尔硬件层的关系,C4130 最高只支持 V100 SXM2 16G,强上不在支持列表中的 GPU 最终会受到限制,性能减少75%或更多,同时风扇会全速运转出现啸叫的情况,除非你有能力去逆向修改戴尔底层基板管理控制器的能力,最后又入了一台 C4130 的大哥 C4140,终于如愿以偿,实现算力自由,可以无所顾忌地深入研究 CV 和 NLP 两个方向。

有人会说了,为什么我选择自建而不是云?其实如果是短期或者需要公网IP,云是合算并且可行的,但对于我这种长期需要且自用的情况,4 卡V100 32G 如果在各大云平台租一个月就要 1.5W 左右,自己买一台不到 2 个月就回本了。

2025.11 搭建独立小机房

由于 GPU 服务器的噪音特别大,放在书房导致书房已经无法正常使用了,经过一番考虑,决定将大阳台分出一块空间做一个独立小机房,开始研究阳台承重、隔音、通风,所以前期规划已经将承重、噪音、温度、湿度等因素充分考虑进去。

由于服务器都是近1米的长度,只能使用深 1.2 米的服务器机柜,但这种机柜都是 42U 的,太高了也太重了,再加上可使用的空间有限,如果使用机柜上架和下架都是个问题,又想到了最近很火的 DIY 铝合金,但定制架成本太高,还得先通过软件制图,增加了学习成本,所以最后简单的选用可调层板高度的成品不锈钢架,连导轨都省了,整体质量还比较轻,经测算加上服务器的重量不超过150KG,与内嵌阳台承重每平方250KG相差甚远,足够安全。

阳台没有网口布线,走明线不好看,网上看到有透明的光纤线走明线,用热熔胶固定即可,可以做到基本隐形,不仔细看看不出来,果断买回来开始布线,加上两个 A/B 光纤收发器。

但由于没有经验,不知道这玩意容易断,线是走的很漂亮,网却不通,后续刷视频看有经验的人都用红光笔打上后再接,早知道一开始就直接买了,这玩意不到 20 元。

又买了光纤线重新布线,这次终于成功通网了,因为自用训练而已,所以对带宽没有要求,普通千兆宽带,能远程连接控制就行了。

2025.12 写在最后

回想近一年的折腾,虽然花了不少钱,但至少不再是那位可以被随时被AI替代的普通码农,不能算完全,但半只脚已经稳稳踏入了 AI 这个行业,除了AI硬件方面知识的积累,再到 AI 软件生态的 LangChain + LangGraph 的 Agent 开发,手搓 Python + FastAPI 的基础工具开发,完成了年初给自己立下的那个小目标。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/30 22:43:09

Markdown转HTML发布技术文章|Miniconda-Python3.10环境实操

Markdown转HTML发布技术文章|Miniconda-Python3.10环境实操 在当今数据科学与人工智能快速发展的背景下,技术写作早已不再是单纯的“写文档”。一篇高质量的技术文章不仅需要清晰的逻辑和准确的表达,更要求内容中嵌入的代码能够真实运行、结果…

作者头像 李华
网站建设 2025/12/30 22:42:52

GitHub热门镜像推荐:Miniconda-Python3.10支持PyTorch GPU加速

Miniconda-Python3.10 镜像:构建高效 AI 开发环境的现代实践 在深度学习项目频繁迭代、跨团队协作日益紧密的今天,一个常见的场景是:你在本地训练好的模型,到了同事或服务器上却因为“包版本不一致”“CUDA 不匹配”“缺少某个系…

作者头像 李华
网站建设 2025/12/30 22:39:28

使用Miniconda-Python3.10镜像部署PyTorch模型训练任务

使用Miniconda-Python3.10镜像部署PyTorch模型训练任务 在AI项目开发中,最让人头疼的往往不是写模型代码,而是环境配置——明明本地跑得好好的,换台机器就报错“ModuleNotFoundError”,或者CUDA版本不兼容导致GPU无法使用。这种“…

作者头像 李华
网站建设 2025/12/30 22:38:42

Java计算机毕设之基于Spring Boot的二手车销售管理系统的设计与实现基于Spring Boot与MySQL的二手车销售管理系统的设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2025/12/30 22:36:42

微爱帮监狱服刑人员家属实名认证接口

一、基础身份认证// 1. 三要素基础核验 class BasicIdentityAuth {public function verifyIdentity($name, $idCard, $mobile) {// 使用公安三要素接口(示例)$result $this->callPublicSecurityApi([name > $name,idcard > $idCard,mobile >…

作者头像 李华
网站建设 2026/1/8 17:30:37

Java Executor框架:从接口设计到线程池实战

Java Executor框架深度解析:从接口设计到线程池实战为什么需要Executor框架?在传统的Java多线程编程中,我们通常直接创建和管理Thread对象,这种方式虽然简单直接,但存在明显问题:线程创建和销毁开销大、缺乏…

作者头像 李华