薄 Harness，厚 Skills-开发者社区

大家好，我是玄姐。

PS：

Harness 工程干货直播，欢迎点击预约，直播见。

Steve Yegge 表示，使用 AI 编程智能体（Agent）的人“生产力是如今使用 Cursor 和聊天的工程师的 10 到 100 倍，大约是 2005 年谷歌员工的 1000 倍。”

这是一个真实的数据。我亲眼见证过，也亲历过。但当人们听到这个数据时，往往会得出错误的解释：认为是模型更好了，Claude 更聪明了，参数更多了。然而，实现 2 倍效率和 100 倍效率的人，使用的是相同的模型。差距不在于模型智能，而在于架构，而且它的核心原理写在一张索引卡上就能装下。

一、基座即产品 (The harness is the product)

2026 年 3 月 31 日，Anthropic 意外地将 Claude Code 的完整源代码发布到了 npm 仓库。整整 51.2 万行代码。我读了它。它印证了我在 YC 一直在教授的一切：真正的秘密不在于模型本身，而在于包裹模型的那层“外壳”。

实时代码库上下文。提示词缓存。专用工具。最小化上下文膨胀。结构化会话记忆。并行子智能体。这些都没有让模型变得更聪明，但它们都在正确的时间为模型提供了正确的上下文，而不是让它淹没在噪音中。

这个包裹层被称为“基座”（Harness）。每一位 AI 构建者都应该问这样一个问题：哪些东西应该放进基座，哪些应该留在外面？答案有着特定的形态，我称之为：薄基座，厚技能 (Thin harness, fat skills)。

五个核心定义

瓶颈永远不在于模型的智能。模型已经懂得了如何推理、信息合成和编写代码。它们失败是因为它们不理解你的数据，你的数据模式（Schema）、你的约定俗成，以及你所面临问题的特定形态。以下五个定义能够解决这个问题。

1. 技能文件 (Skill files)

技能文件是一个可复用的 Markdown 文档，用于教导模型如何做某事。它不规定“做什么”，那是用户提供的。技能提供的是“过程”。

大多数人忽略了一个关键的洞察：技能文件的运作方式就像方法调用 (Method call)。它接收参数。你通过传入不同的参数来调用它。相同的过程，根据你传入的内容，会产生截然不同的能力。

想象一个名为 /investigate (调查) 的技能。它包含七个步骤：划定数据集范围、建立时间线、对所有文档进行日志化摘要（Diarize）、合成信息、正反双方辩论、引用来源。它接收三个参数：目标（TARGET）、问题（QUESTION）和数据集（DATASET）。将它指向一名安全科学家和 210 万封电子取证邮件，你得到的是一位医学研究分析师，在判定是否有一名吹哨人被噤声。将它指向一家空壳公司和联邦选举委员会（FEC）的文件，你得到的是一位法务调查员，在追踪协调一致的竞选政治献金。

相同的技能。相同的七个步骤。相同的 Markdown 文件。技能描述的是一个判断过程。而调用则为它提供了上下文世界。

这不是提示词工程（Prompt Engineering）。这是软件设计，将 Markdown 作为编程语言，将人类判断作为运行时（Runtime）。事实上，Markdown 是比僵化的源代码更完美的能力封装形式，因为它用模型原生的思考语言来描述过程、判断和上下文。

2. 基座 (The harness)

基座是运行大语言模型（LLM）的程序。它只做四件事：在一个循环中运行模型、读写你的文件、管理上下文，以及强制执行安全策略。仅此而已。这就是所谓的“薄（Thin）”。

反模式则是“厚基座，薄技能”。你肯定见过这种现象：40 多个工具定义吃掉了一半的上下文窗口；动辄需要 2 到 5 秒 MCP（模型上下文协议）往返延迟的“上帝工具”；将每一个服务端点都变成一个独立工具的 REST API 包装器。三倍的 Token 消耗，三倍的延迟，三倍的失败率。

你真正需要的是快速且功能专一的定制工具。一个可以在 100 毫秒内完成每次浏览器操作的 Playwright CLI，而不是一个需要 15 秒才能完成“截图-查找-点击-等待-读取”的 Chrome MCP。那是 75 倍的速度提升。软件开发不必再像以前那样“金贵”。只需要构建你确切需要的东西，仅此而已。

3. 解析器 (Resolvers)

解析器是上下文的路由表。当出现任务类型 X 时，优先加载文档 Y。

技能告诉模型“怎么做”。而解析器告诉模型“何时加载什么”。一位开发者修改了一个提示词。如果没有解析器，他们会直接将代码发布。有了解析器，模型会先读取 docs/EVALS.md，上面写着：运行评估套件，比较得分，如果准确率下降超过 2%，则回滚并调查。开发者甚至不知道评估套件的存在。解析器在正确的时刻加载了正确的上下文。

Claude Code 内置了解析器。每个技能都有一个描述字段，模型会自动将用户意图与技能描述进行匹配。你永远不需要记住 /ship 的存在。描述本身就是解析器。

坦白说：我的 CLAUDE.md 曾长达两万行。记录了我遇到过的每一个怪癖、每一种模式、每一次教训。这简直荒谬至极。模型的注意力因此严重退化。Claude Code 甚至直接告诉我需要删减它。最终的解决方案大概只有 200 行，仅仅是指向各个文档的指针。解析器在关键时刻加载正确的文档。两万行的知识按需获取，而不会污染上下文窗口。

4. 隐性空间 vs. 确定性空间 (Latent vs. deterministic)

你系统中的每一步都要么属于隐性空间，要么属于确定性空间。混淆这两者是智能体设计中最常见的错误。

隐性空间（Latent space）是智能所在的地方。模型在这里阅读、解释、决策。这关乎判断、合成和模式识别。

确定性空间（Deterministic）是信任所在的地方。相同的输入，必然产生相同的输出。每一次都如此。例如 SQL 查询、编译代码、算术运算。

LLM 可以为 8 个人安排晚宴座位，并综合考虑他们的性格和社交动态。但如果你让它为 800 个人安排座位，它会幻觉出一张看起来合理但完全错误的座位表。这就是把“确定性问题”（组合优化）强行塞进了“隐性空间”。最糟糕的系统总是在这两条边界上放错了任务。最好的系统则对此界限分明、毫不妥协。

5. 日志化摘要 (Diarization)

日志化摘要是让 AI 在真正的知识工作中发挥作用的关键步骤。模型阅读关于某个主题的所有信息，并写出一份结构化的档案，从数十或数百份文档中提炼出的一页判断。

没有任何 SQL 查询能产生这个结果。没有任何 RAG（检索增强生成）流水线能产生这个结果。模型必须实际去阅读，在脑海中容纳矛盾，注意到何时发生了什么变化，并合成出结构化的情报。这就是数据库查询和分析师简报之间的区别。

二、架构体系

这五个概念组合成了一个简单的三层架构。

顶层是“厚技能”：编码了判断力、过程和领域知识的 Markdown 流程。这里蕴含了 90% 的价值。

中间是一个“薄 CLI 基座”：大约 200 行代码。JSON 进，文本出。默认只读。

底层是你的应用程序：查询数据库、读取文档、搜索、时间线，这是确定性的基础。

这个原则是具有方向性的。将“智能”推向顶层的技能中。将“执行”下沉到底层的确定性工具中。保持基座的轻薄。当你这样做时，模型的每一次迭代升级，都会自动提升每一个技能的水平，而确定性层则保持着绝对的可靠。

三、会学习的系统

让我向你展示这五个定义是如何协同工作的。这不是理论，这是我们在 YC 正在构建的实际系统。

2026 年 7 月，大通中心。创业学校（Startup School）里有 6000 名创始人。每个人都有结构化的申请表、问卷答案、1对1导师交流的文字记录，以及公开信号：X 上的帖子、GitHub 提交记录、显示他们交付速度的 Claude Code 对话记录。

传统方法：一个 15 人的项目团队阅读申请，凭直觉做出判断，更新电子表格。在处理 200 个创始人时这很有效。但面对 6000 人时就会崩溃。没有哪个人类能够在工作记忆中容纳那么多份个人资料，并敏锐地察觉到：对于“AI 智能体基础设施”群组，最合适的三位候选人分别是拉各斯的一位开发者工具创始人、新加坡的一位合规工具创始人和布鲁克林的一位 CLI 工具创始人，因为他们在 1 对1 交流中用不同的言辞描述了同样的痛点。

模型却可以做到。以下是它的工作原理。

1.数据丰富 (Enrichment)

一个名为 /enrich-founder 的技能提取所有数据源，运行数据丰富，进行日志化摘要（Diarize），并突出显示创始人“所说的”与他们“实际构建的”之间的差距。确定性层负责处理 SQL 查询、GitHub 统计、在演示 URL 上运行浏览器测试、抓取社交信号、进行 CrustData 查询。定时任务每晚运行。6000 份档案，永远保持最新。

日志化摘要的输出能捕捉到任何关键字搜索都找不到的信息：

创始人：Maria Santos
公司：Contrail (contrail.dev)
自称：“AI 智能体的 Datadog”
实际构建：80% 的代码提交都在计费模块。她实际上正在构建一个伪装成可观测性工具的 FinOps 工具。

这种差距“自称”与“实际构建”，需要阅读 GitHub 提交历史、申请表和导师交流记录，并同时在脑海中容纳这三者。没有任何向量嵌入的相似度搜索能发现这一点。没有任何关键字过滤器能发现它。模型必须阅读完整的档案并做出判断。（这是放置在隐性空间中进行决策的完美案例！）

2.匹配 (Matching)

这是“技能作为方法调用”大放异彩的地方。对同一个匹配技能进行三次调用，得出三种完全不同的策略：/match-breakout 接收 1200 名创始人，按行业偏好聚类，每个房间 30 人。这是向量嵌入加上确定性分配。/match-lunch 接收 600 人，进行跨行业的随机缘分匹配，每桌 8 人，不重复，由 LLM 发明主题，然后由确定性算法分配座位。/match-live 处理当前在大楼里的任何人，最近邻向量匹配，200毫秒延迟，1对1配对，排除已经见过面的人。

而且，模型做出了聚类算法永远做不到的判断：“Santos 和 Oram 都在做 AI 基础设施，但他们不是竞争对手，Santos 做的是成本归因，Oram 做的是流程编排。把他们放在同一组。” 或者：“Kim 申请的是‘开发者工具’，但他的 1对1 记录显示他正在构建 SOC2 的合规自动化工具。把他移到金融科技/监管科技组。”

没有任何向量嵌入能捕捉到对 Kim 的重新分类。模型必须通读整份档案。

3.学习循环 (The learning loop)

活动结束后，一个 /improve 技能会读取 NPS 问卷调查，对那些平庸的反馈进行日志化摘要，不是那些糟糕的，而是那些“还行（OK）”的，即系统勉强起作用但不够好的地方并提取模式。然后，它提出新规则并将其重写回匹配技能中：

当参会者自称做“AI 基础设施”
但初创企业有 80% 以上的代码是计费代码时：
→ 分类为金融科技，而不是 AI 基础设施。

当同一组中的两名参会者
已经互相认识时：
→ 惩罚这种接近度。
优先考虑建立全新的社交联系。

这些规则会被写回技能文件。下一次运行就会自动应用它们。技能重写了它自己。

7月份的活动：12% 的“还行”评分。下一次活动：4%。技能文件学会了“还行”到底意味着什么，系统在没有任何人重写代码的情况下变得更好了。

同样的模式适用于任何地方：检索、阅读、日志化摘要、计数、合成。然后：调查、研究、日志化摘要、重写技能。

如果你想知道 2026 年最有价值的循环机制是什么，那就是这些。我们可以将它们应用到现存的所有学科和知识工作领域中。

四、Skills 技能是永久的升级

我最近发布了一条我在 OpenClaw 上使用的指令推文，引起的共鸣超出了我的预期：

你不被允许做一次性的工作。如果我要求你做某事，而且这属于未来会再次发生的事情，你必须：第一次在 3 到 10 个项目上手动完成。向我展示输出。如果我批准了，将其编码成一个 Skills 技能文件。如果它应该自动运行，就把它加到定时任务里。检验标准是：如果我必须为同一件事向你请求两次，你就失败了。

一千个赞和两千五百次收藏。人们以为这是一种提示词工程技巧。其实不是。这就是我一直在描述的架构。你编写的每一项技能都是对你系统的永久升级。它永不退化。它永不遗忘。它会在你睡觉时于凌晨 3 点运行。当下一个新模型发布时，每一项技能都会瞬间变得更好，隐性步骤中的判断力得到了提升，而确定性步骤仍然保持完美的可靠性。

这就是你如何实现 Yegge 所说的 100 倍生产力。靠的不是一个更聪明的模型。而是厚技能、薄基座，以及将一切流程成文的纪律。

系统会产生复利。构建一次，它将永远运行。

PS：

Harness 工程干货直播，欢迎点击预约，直播见。

好了，这就是我今天想分享的内容。如果你对构建企业级 AI 原生应用新架构设计和落地实践感兴趣，别忘了点赞、关注噢~

—1—

加我微信

扫码加我👇有很多不方便公开发公众号的我会直接分享在朋友圈，欢迎你扫码加我个人微信来看👇

加星标★，不错过每一次更新！

⬇戳”阅读原文“，立即预约！