大家好,我是玄姐。
PS:
Harness 工程干货直播,欢迎点击预约,直播见。
Steve Yegge 表示,使用 AI 编程智能体(Agent)的人“生产力是如今使用 Cursor 和聊天的工程师的 10 到 100 倍,大约是 2005 年谷歌员工的 1000 倍。”
这是一个真实的数据。我亲眼见证过,也亲历过。但当人们听到这个数据时,往往会得出错误的解释:认为是模型更好了,Claude 更聪明了,参数更多了。然而,实现 2 倍效率和 100 倍效率的人,使用的是相同的模型。差距不在于模型智能,而在于架构,而且它的核心原理写在一张索引卡上就能装下。
一、基座即产品 (The harness is the product)
2026 年 3 月 31 日,Anthropic 意外地将 Claude Code 的完整源代码发布到了 npm 仓库。整整 51.2 万行代码。我读了它。它印证了我在 YC 一直在教授的一切:真正的秘密不在于模型本身,而在于包裹模型的那层“外壳”。
实时代码库上下文。提示词缓存。专用工具。最小化上下文膨胀。结构化会话记忆。并行子智能体。这些都没有让模型变得更聪明,但它们都在正确的时间为模型提供了正确的上下文,而不是让它淹没在噪音中。
这个包裹层被称为“基座”(Harness)。每一位 AI 构建者都应该问这样一个问题:哪些东西应该放进基座,哪些应该留在外面?答案有着特定的形态,我称之为:薄基座,厚技能 (Thin harness, fat skills)。
五个核心定义
瓶颈永远不在于模型的智能。模型已经懂得了如何推理、信息合成和编写代码。它们失败是因为它们不理解你的数据,你的数据模式(Schema)、你的约定俗成,以及你所面临问题的特定形态。以下五个定义能够解决这个问题。
1. 技能文件 (Skill files)
技能文件是一个可复用的 Markdown 文档,用于教导模型如何做某事。它不规定“做什么”,那是用户提供的。技能提供的是“过程”。
大多数人忽略了一个关键的洞察:技能文件的运作方式就像方法调用 (Method call)。它接收参数。你通过传入不同的参数来调用它。相同的过程,根据你传入的内容,会产生截然不同的能力。
想象一个名为 /investigate (调查) 的技能。它包含七个步骤:划定数据集范围、建立时间线、对所有文档进行日志化摘要(Diarize)、合成信息、正反双方辩论、引用来源。它接收三个参数:目标(TARGET)、问题(QUESTION)和 数据集(DATASET)。将它指向一名安全科学家和 210 万封电子取证邮件,你得到的是一位医学研究分析师,在判定是否有一名吹哨人被噤声。将它指向一家空壳公司和联邦选举委员会(FEC)的文件,你得到的是一位法务调查员,在追踪协调一致的竞选政治献金。
相同的技能。相同的七个步骤。相同的 Markdown 文件。技能描述的是一个判断过程。而调用则为它提供了上下文世界。
这不是提示词工程(Prompt Engineering)。这是软件设计,将 Markdown 作为编程语言,将人类判断作为运行时(Runtime)。事实上,Markdown 是比僵化的源代码更完美的能力封装形式,因为它用模型原生的思考语言来描述过程、判断和上下文。
2. 基座 (The harness)
基座是运行大语言模型(LLM)的程序。它只做四件事:在一个循环中运行模型、读写你的文件、管理上下文,以及强制执行安全策略。仅此而已。这就是所谓的“薄(Thin)”。
反模式则是“厚基座,薄技能”。你肯定见过这种现象:40 多个工具定义吃掉了一半的上下文窗口;动辄需要 2 到 5 秒 MCP(模型上下文协议)往返延迟的“上帝工具”;将每一个服务端点都变成一个独立工具的 REST API 包装器。三倍的 Token 消耗,三倍的延迟,三倍的失败率。
你真正需要的是快速且功能专一的定制工具。一个可以在 100 毫秒内完成每次浏览器操作的 Playwright CLI,而不是一个需要 15 秒才能完成“截图-查找-点击-等待-读取”的 Chrome MCP。那是 75 倍的速度提升。软件开发不必再像以前那样“金贵”。只需要构建你确切需要的东西,仅此而已。
3. 解析器 (Resolvers)
解析器是上下文的路由表。当出现任务类型 X 时,优先加载文档 Y。
技能告诉模型“怎么做”。而解析器告诉模型“何时加载什么”。一位开发者修改了一个提示词。如果没有解析器,他们会直接将代码发布。有了解析器,模型会先读取 docs/EVALS.md,上面写着:运行评估套件,比较得分,如果准确率下降超过 2%,则回滚并调查。开发者甚至不知道评估套件的存在。解析器在正确的时刻加载了正确的上下文。
Claude Code 内置了解析器。每个技能都有一个描述字段,模型会自动将用户意图与技能描述进行匹配。你永远不需要记住 /ship 的存在。描述本身就是解析器。
坦白说:我的 CLAUDE.md 曾长达两万行。记录了我遇到过的每一个怪癖、每一种模式、每一次教训。这简直荒谬至极。模型的注意力因此严重退化。Claude Code 甚至直接告诉我需要删减它。最终的解决方案大概只有 200 行,仅仅是指向各个文档的指针。解析器在关键时刻加载正确的文档。两万行的知识按需获取,而不会污染上下文窗口。
4. 隐性空间 vs. 确定性空间 (Latent vs. deterministic)
你系统中的每一步都要么属于隐性空间,要么属于确定性空间。混淆这两者是智能体设计中最常见的错误。
隐性空间(Latent space)是智能所在的地方。模型在这里阅读、解释、决策。这关乎判断、合成和模式识别。
确定性空间(Deterministic)是信任所在的地方。相同的输入,必然产生相同的输出。每一次都如此。例如 SQL 查询、编译代码、算术运算。
LLM 可以为 8 个人安排晚宴座位,并综合考虑他们的性格和社交动态。但如果你让它为 800 个人安排座位,它会幻觉出一张看起来合理但完全错误的座位表。这就是把“确定性问题”(组合优化)强行塞进了“隐性空间”。最糟糕的系统总是在这两条边界上放错了任务。最好的系统则对此界限分明、毫不妥协。
5. 日志化摘要 (Diarization)
日志化摘要是让 AI 在真正的知识工作中发挥作用的关键步骤。模型阅读关于某个主题的所有信息,并写出一份结构化的档案,从数十或数百份文档中提炼出的一页判断。
没有任何 SQL 查询能产生这个结果。没有任何 RAG(检索增强生成)流水线能产生这个结果。模型必须实际去阅读,在脑海中容纳矛盾,注意到何时发生了什么变化,并合成出结构化的情报。这就是数据库查询和分析师简报之间的区别。
二、架构体系
这五个概念组合成了一个简单的三层架构。
顶层是“厚技能”:编码了判断力、过程和领域知识的 Markdown 流程。这里蕴含了 90% 的价值。
中间是一个“薄 CLI 基座”:大约 200 行代码。JSON 进,文本出。默认只读。
底层是你的应用程序:查询数据库、读取文档、搜索、时间线,这是确定性的基础。
这个原则是具有方向性的。将“智能”推向顶层的技能中。将“执行”下沉到底层的确定性工具中。保持基座的轻薄。当你这样做时,模型的每一次迭代升级,都会自动提升每一个技能的水平,而确定性层则保持着绝对的可靠。
三、会学习的系统
让我向你展示这五个定义是如何协同工作的。这不是理论,这是我们在 YC 正在构建的实际系统。
2026 年 7 月,大通中心。创业学校(Startup School)里有 6000 名创始人。每个人都有结构化的申请表、问卷答案、1对1导师交流的文字记录,以及公开信号:X 上的帖子、GitHub 提交记录、显示他们交付速度的 Claude Code 对话记录。
传统方法:一个 15 人的项目团队阅读申请,凭直觉做出判断,更新电子表格。在处理 200 个创始人时这很有效。但面对 6000 人时就会崩溃。没有哪个人类能够在工作记忆中容纳那么多份个人资料,并敏锐地察觉到:对于“AI 智能体基础设施”群组,最合适的三位候选人分别是拉各斯的一位开发者工具创始人、新加坡的一位合规工具创始人和布鲁克林的一位 CLI 工具创始人,因为他们在 1 对1 交流中用不同的言辞描述了同样的痛点。
模型却可以做到。以下是它的工作原理。
1.数据丰富 (Enrichment)
一个名为 /enrich-founder 的技能提取所有数据源,运行数据丰富,进行日志化摘要(Diarize),并突出显示创始人“所说的”与他们“实际构建的”之间的差距。确定性层负责处理 SQL 查询、GitHub 统计、在演示 URL 上运行浏览器测试、抓取社交信号、进行 CrustData 查询。定时任务每晚运行。6000 份档案,永远保持最新。
日志化摘要的输出能捕捉到任何关键字搜索都找不到的信息:
创始人:Maria Santos
公司:Contrail (contrail.dev)
自称:“AI 智能体的 Datadog”
实际构建:80% 的代码提交都在计费模块。她实际上正在构建一个伪装成可观测性工具的 FinOps 工具。
这种差距“自称”与“实际构建”,需要阅读 GitHub 提交历史、申请表和导师交流记录,并同时在脑海中容纳这三者。没有任何向量嵌入的相似度搜索能发现这一点。没有任何关键字过滤器能发现它。模型必须阅读完整的档案并做出判断。(这是放置在隐性空间中进行决策的完美案例!)
2.匹配 (Matching)
这是“技能作为方法调用”大放异彩的地方。对同一个匹配技能进行三次调用,得出三种完全不同的策略:/match-breakout 接收 1200 名创始人,按行业偏好聚类,每个房间 30 人。这是向量嵌入加上确定性分配。/match-lunch 接收 600 人,进行跨行业的随机缘分匹配,每桌 8 人,不重复,由 LLM 发明主题,然后由确定性算法分配座位。/match-live 处理当前在大楼里的任何人,最近邻向量匹配,200毫秒延迟,1对1配对,排除已经见过面的人。
而且,模型做出了聚类算法永远做不到的判断:“Santos 和 Oram 都在做 AI 基础设施,但他们不是竞争对手,Santos 做的是成本归因,Oram 做的是流程编排。把他们放在同一组。” 或者:“Kim 申请的是‘开发者工具’,但他的 1对1 记录显示他正在构建 SOC2 的合规自动化工具。把他移到金融科技/监管科技组。”
没有任何向量嵌入能捕捉到对 Kim 的重新分类。模型必须通读整份档案。
3.学习循环 (The learning loop)
活动结束后,一个 /improve 技能会读取 NPS 问卷调查,对那些平庸的反馈进行日志化摘要,不是那些糟糕的,而是那些“还行(OK)”的,即系统勉强起作用但不够好的地方并提取模式。然后,它提出新规则并将其重写回匹配技能中:
当参会者自称做“AI 基础设施”
但初创企业有 80% 以上的代码是计费代码时:
→ 分类为金融科技,而不是 AI 基础设施。
当同一组中的两名参会者
已经互相认识时:
→ 惩罚这种接近度。
优先考虑建立全新的社交联系。
这些规则会被写回技能文件。下一次运行就会自动应用它们。技能重写了它自己。
7月份的活动:12% 的“还行”评分。下一次活动:4%。技能文件学会了“还行”到底意味着什么,系统在没有任何人重写代码的情况下变得更好了。
同样的模式适用于任何地方:检索、阅读、日志化摘要、计数、合成。然后:调查、研究、日志化摘要、重写技能。
如果你想知道 2026 年最有价值的循环机制是什么,那就是这些。我们可以将它们应用到现存的所有学科和知识工作领域中。
四、Skills 技能是永久的升级
我最近发布了一条我在 OpenClaw 上使用的指令推文,引起的共鸣超出了我的预期:
你不被允许做一次性的工作。如果我要求你做某事,而且这属于未来会再次发生的事情,你必须:第一次在 3 到 10 个项目上手动完成。向我展示输出。如果我批准了,将其编码成一个 Skills 技能文件。如果它应该自动运行,就把它加到定时任务里。检验标准是:如果我必须为同一件事向你请求两次,你就失败了。
一千个赞和两千五百次收藏。人们以为这是一种提示词工程技巧。其实不是。这就是我一直在描述的架构。你编写的每一项技能都是对你系统的永久升级。它永不退化。它永不遗忘。它会在你睡觉时于凌晨 3 点运行。当下一个新模型发布时,每一项技能都会瞬间变得更好,隐性步骤中的判断力得到了提升,而确定性步骤仍然保持完美的可靠性。
这就是你如何实现 Yegge 所说的 100 倍生产力。靠的不是一个更聪明的模型。而是厚技能、薄基座,以及将一切流程成文的纪律。
系统会产生复利。构建一次,它将永远运行。
PS:
Harness 工程干货直播,欢迎点击预约,直播见。
好了,这就是我今天想分享的内容。如果你对构建企业级 AI 原生应用新架构设计和落地实践感兴趣,别忘了点赞、关注噢~
—1—
加我微信
扫码加我👇有很多不方便公开发公众号的我会直接分享在朋友圈,欢迎你扫码加我个人微信来看👇
加星标★,不错过每一次更新!
⬇戳”阅读原文“,立即预约!