Datawhale干货
作者:Andrej Karpathy
就在刚刚,Andrej Karpathy发了一条推文。
这条推文迅速浏览过60万,点赞近万。
这位前特斯拉AI总监,OpenAI联合创始人,分享了过去几周大量使用 Claude 编程的一些随想。
其中,Karpathy直言“有点伤自尊”,引发网友共鸣:
让我们来看他的经验与分享。
一、编程工作流 (Coding Workflow)
鉴于 LLM(大语言模型)编程能力的最新提升,我和许多人一样,经历了一个极速的转变:从 11 月份的“80% 手写 + 自动补全,20% 使用 Agent”,迅速变成了 12 月份的“80% Agent 编写,20% 人工编辑 + 修补”。
也就是说,我现在真的主要是在用英语编程,有点不好意思地告诉 LLM 该写什么代码……用文字描述。这确实有点伤作为程序员的自尊,但这种以大型“代码动作(Code Actions)”来操作软件的能力,其净效用实在太大了。特别是当你适应了它、配置好环境、学会如何驾驭它,并搞清楚它能做什么、不能做什么之后。
这无疑是我 20 年编程生涯中基本工作流发生的最大变化,而这一切仅仅发生在几周之内。我预计这种情况正在发生在大约两位数百分比的工程师身上,而在大众认知中,意识到这一点的人可能还停留在低个位数的百分比。
二、IDE、Agent 蜂群与易错性 (IDEs/Agent Swarms/Fallability)
在我看来,目前关于“不再还需要 IDE”的炒作,以及“Agent 蜂群”的炒作都言过其实了。
模型绝对还是会犯错的。如果你真的在乎你的代码,你还是得在一个大大的 IDE 窗口里,像鹰一样死死盯着它们。错误的类型已经变了——它们不再是简单的语法错误,而是微妙的概念性错误,就像是一个稍微有点粗心、急躁的初级开发人员会犯的那种。
最常见的错误类别是模型替你做出了错误的假设,并且在没有检查的情况下就基于这些假设继续跑偏了。 它们不会管理自己的困惑,不寻求澄清,不暴露不一致性,不展示权衡(Tradeoffs),该反驳的时候不反驳,还有点过于谄媚。
虽然在 Plan模式下情况有所好转,但我们确实需要一种轻量级的内联 plan 模式。它们真的很喜欢把代码和 API 搞得过于复杂,抽象臃肿,而且完事后不清理死代码。它们可能会用 1000 行代码实现一个低效、臃肿、脆弱的结构,然后得靠你说:“呃,你不能直接这么做吗?”,接着它们就会说:“当然可以!”并立刻把它削减到 100 行。它们偶尔还会存在副作用,修改或删除它们不喜欢或没完全理解的注释和代码,即使这些部分与手头的任务无关。
尽管我在CLAUDE.md里尝试通过指令修复这些问题,这些现象依然存在。但尽管有这些毛病,这仍然是一个巨大的净提升,很难想象还能回得去纯手工编程的日子。
太长不看版(TLDR):每个人都有自己的开发流,我目前的是——左边 Ghostty 终端里开几个 Claude Code (CC) 会话,右边开着 IDE 用来审视代码 + 手动编辑。
坚韧性 (Tenacity)
看着一个 Agent 坚持不懈地攻克难题是非常有趣的。它们从不疲倦,从不气馁,只是不断地尝试,而人类可能早就放弃或是改日再战了。
看着它在一个问题上挣扎很久,然后在 30 分钟后大获全胜,这真是一种“切身感受到 AGI(通用人工智能)”的时刻。你会意识到,“耐力”是工作的核心瓶颈,而有了 LLM 在手,这个瓶颈被极大地拓宽了。
速度提升 (Speedups)
很难确切衡量 LLM 辅助带来的“速度提升”。毫无疑问,我感觉做原本计划要做的事情快多了,但主要效应其实是我做了很多原本没打算做的事:
我可以编写各种以前觉得“不值得花时间写”的东西。
我可以处理以前因为知识/技能盲区而无法触及的代码。
所以,这当然是速度提升,但更多可能是一种维度的扩展。
杠杆作用 (Leverage)
LLM 极其擅长循环迭代直到达成特定目标,这就是大部分“AGI 魔法”的所在。
不要告诉它怎么做,给它成功标准,然后看它发挥。
让它先写测试,然后通过测试。
把它和一个浏览器 MCP 工具放在一个循环里。
先写出极大概率正确的朴素算法,然后要求它在保持正确性的前提下进行优化。
将你的方法从命令式(Imperative)转变为声明式(Declarative),让 Agent 跑更长的循环,从而获得更高的杠杆率。
乐趣 (Fun)
我没预料到,有了 Agent 之后,编程感觉更有趣了。因为大量“填空式”的苦差事被移除了,剩下的更多是创造性的部分。我也不那么容易卡壳了(卡壳一点都不好玩),而且我感到更有勇气,因为几乎总能通过与它协作找到某种取得进展的方法。
我也看到了相反的观点;LLM 编程将把工程师分化为两类:一类是本质上喜欢写代码(Coding)的人,另一类是本质上喜欢构建产品(Building)的人。
能力退化 (Atrophy)
我已经注意到,我手动写代码的能力正在慢慢萎缩。在两耳之间的大脑里,生成(写代码)和鉴别(读代码)是两种不同的能力。很大程度上是因为编程涉及大量琐碎的语法细节,所以即使你写起来很费劲,你依然可以很好地 Review 代码。
垃圾泛滥之年 (Slopacolypse)
我正准备迎接 2026 年——这可能是 Github、Substack、Arxiv、X/Instagram 以及所有数字媒体上的“垃圾内容大爆发(Slopacolypse)”之年。除了真实、实际的改进之外,我们还将看到大量的“AI 生产力的表演/作秀(Productivity Theater)”。
疑问 (Questions)
我脑海中浮现的一些问题:
“10倍工程师”会发生什么变化?——即平均水平与顶尖工程师之间的生产力比率。这个比率很有可能会大幅增长。
有了 LLM 加持,通才(Generalists)会日益胜过专才(Specialists)吗?LLM 极其擅长“填空”(微观层面),但在“宏观战略”(Macro)上还不行。
未来的 LLM 编程感觉像什么?像是玩《星际争霸》?玩《异星工厂》?还是演奏音乐?
社会中有多少部分是被“数字知识工作”所瓶颈的?
总结:这让我们处于何种境地?
LLM Agent 的能力(尤其是 Claude 和 Codex)在 2025 年 12 月左右跨越了某种连贯性的阈值,并在软件工程及紧密相关领域引发了一场相变。
“智能”部分突然感觉比其他部分领先了一大截——包括集成(工具、知识)、对新组织工作流的需求、流程以及更广泛的传播。
随着整个行业消化(Metabolize)这种新能力,2026 年将是高能量的一年。
推文地址:
https://x.com/karpathy/status/2015883857489522876
一起“点赞”三连↓