news 2026/5/8 18:32:48

我组建了一个虚拟产研团队,7个成员全是 AI

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
我组建了一个虚拟产研团队,7个成员全是 AI

AI在软件开发中已从辅助编码延伸至项目管理。Harness Engineering提出构建类团队的AI协作系统,Cowork Forge正是该理念实践,通过分工明确的AI代理完成需求到交付全流程,实现高效人机协同,让开发者聚焦更高阶决策。

当 AI 开始像一个真实团队一样协作,软件开发的方式正在被重新定义。

一、一个产品经理的深夜

凌晨一点,小张还在公司加班。小张作为产品经理,刚把「任务模块」的需求初稿交给研发,就知道后面的路并不轻松:

要反复打磨 PRD、对齐模糊需求,参与技术评审,来回沟通修改方案;需求临时调整,还要及时同步前后端与测试。上线前更要全程跟进联调、测试与 bug 修复,像总指挥一样在各个环节来回协调,不敢有半点松懈。

他也尝试过 AI开发工具,编码效率确实有所提升,但无法支撑从需求落地、方案设计的完整流程。大量繁琐的沟通、对齐与推进工作,最终还是要小张和团队亲自扛下来

问题到底出在哪里?

小张的经历不是个例。即使有了 AI 编程助手,大多数开发者的工作方式并没有本质改变。我们仍然在扮演"项目经理"的角色,协调各个阶段的工作,确保信息不丢失、决策不矛盾、进度不偏离。

AI 可以帮我们"写代码",但 AI 帮不了我们"做项目"。

这让我想起一个比喻:AI 编程工具就像是给建筑师配了一个特别厉害的画图员——他画图很快,但建筑该怎么设计、结构该怎么布置、材料该怎么选,这些决策还是要建筑师自己来做。

如果有一个工具,能帮我们"做项目"而不仅仅是"写代码"呢?

二、AI 编程工具的"最后一公里"

在过去两年里,AI 编程领域经历了爆发式增长。GitHub Copilot 从"新奇玩具"变成了许多开发者的"标配",Cursor 等 AI 原生编辑器也在快速迭代。但如果你问这些工具的用户一个简单的问题:

"从你有一个想法,到它变成可运行的代码,中间还需要你做什么?"

答案往往是:很多

你仍然需要把想法整理成需求文档,仍然需要做技术设计,仍然需要规划任务优先级,仍然需要协调各个环节的依赖关系。AI 工具只在"编码"这个环节帮了忙,但编码只是软件开发的一小部分。

这不是工具的能力问题,而是架构范式问题

让我们用一个表格来看看传统 AI 工具和真实开发需求之间的差距:

这就好比让一个全能运动员去踢整场足球赛——他可以踢前锋、中场、后卫甚至守门员,但他无法同时出现在所有位置。足球比赛的复杂度需要的是专业化分工,而非全能化堆砌

同理,产品经理需要用户视角和商业思维,架构师需要系统思维和技术深度,工程师需要实现细节和编码能力。这些是不同的"思维模式",很难在一个模型中同时达到最优。

我们需要一种新的架构范式。


三、Harness Engineering:让 AI 像"团队"一样工作

在 AI 工程领域,有一个越来越受关注的概念叫Harness Engineering

它的核心思想是:与其追求一个"超级模型",不如构建一个"超级编排系统"——通过结构化的任务分解、角色分工和流程编排,让多个专业化组件协同完成端到端的复杂工作。

这不是什么全新的发明。在人类组织中,我们早就用这种方式解决复杂问题:公司有部门分工,项目有角色分工,流水线有工序分工。Harness Engineering 只是把同样的智慧应用到了 AI 系统设计中。

传统 AI 工具 vs Harness 架构

在 Harness 架构下,每个 Agent 扮演一个专业角色,有自己的"职责范围"和"工具箱"。编排器负责任务的流转、上下文的传递、以及人机协作的协调。

这就像是组建了一个虚拟团队:有产品经理、架构师、工程师、测试工程师……他们各司其职,但共享同一个项目上下文,协同完成从"想法"到"交付"的全过程。

但这带来一个关键问题:这个"团队"该怎么协作?

软件开发不是流水线——需求可能在编码阶段发现漏洞,设计可能在测试阶段证明不可行。如果只是简单的"传递"模式,信息会在传递中失真,问题会在延迟中被放大。

我们需要的不只是"分工",还需要"反馈"。


四、Cowork Forge:一个真实的实践样本

带着上面的问题,我们来看一个具体的实践 —— Cowork Forge。

Cowork Forge 是一个开源的 AI 多智能体协作平台。用 Harness Engineering 的理念,提供由AI驱动的"从想法到代码"端到端解决方案

在深入技术细节之前,让我们先看一个真实的场景。

4.1 硅基团队带着你跑完整个项目。

假设我是一个产品经理,我想做一个"任务管理 API"。我对 Cowork Forge 说:

"我想做一个任务管理的 REST API,支持创建任务、更新任务状态、查询任务列表。"

首先,系统进入了需求采集阶段。一个"需求 Agent"开始和我对话,确认细节:任务需要哪些字段?状态有哪些取值?需要用户认证吗?几轮对话后,它生成了一份结构化的需求规格文档,并暂停等待我确认。

确认后,系统自动进入PRD 生成阶段。这次是一个"产品 Agent"在工作,它基于需求规格,生成了一份完整的产品需求文档——包括功能描述、用户故事、非功能需求、边界条件处理。同样,生成完毕后暂停,等我确认。

然后是架构设计阶段。"架构 Agent"登场了。它分析了需求,选择了技术栈(Axum + Turso),设计了数据模型和 API 接口,输出技术设计文档,生成架构图。接下来是实施计划阶段、"编码阶段"、"检查阶段"、"交付阶段"。每个阶段都有专门的 Agent 在工作,每个关键节点都有人工确认的"门"。

7位数字牛马团结协作产品Agent的创意IDEA

产品Agent的Features PRD设计Agent给的设计规范

最终,我得到了完整的PRD 文档、技术设计文档、实施计划、可运行的代码、测试报告、交付Showcase。整个过程中,我只做了两件事:提供了最初的想法,以及在几个关键节点做反馈。

这和常用的基于CLI/IDE的AI开发工具体验完全不同。前者 帮我"写代码",但 Cowork Forge 帮我"做项目"。

4.2 核心架构设计

让我们剥开表象,看看 Cowork Forge 的架构设计。

整体架构工作流程(低分辨率)工作流程(高分辨率)

核心设计有三个关键点:

第一,专业化分工。

每个阶段由专门的 Agent 负责,有自己的"指令集"和"工具集"。需求 Agent 擅长澄清模糊需求,设计 Agent 懂得架构权衡,编码 Agent 熟悉代码实现。这种专业化确保了每个环节的输出质量。

第二,Actor-Critic 模式。

这是 Cowork Forge 最有意思的设计之一。每个阶段不是"生成即结束",而是"生成 → 审查 → 迭代"。

具体来说,当一个 Actor Agent 完成生成后,会有一个 Critic Agent 来审查输出。Critic 会检查:需求是否遗漏?设计是否合理?代码是否有明显 bug?如果发现问题,会触发重新生成,并附带具体的改进建议。

这就像是每个角色都有一个"影子搭档",负责挑刺和改进。这种设计大大提高了输出的可靠性。

第三,人在回路(HITL)。

虽然有了 Actor-Critic 模式,Cowork Forge 仍然在关键决策点保留了人工确认的"门"。

为什么?因为有些决策是 AI 无法代替的——比如产品方向的取舍、架构方案的选择、关键实现的确认。AI 可以执行,但人类负责方向。

这是一种"监督式自主",而非"完全自主"。它追求的不是"无人值守",而是"人机协同最优"。

4.3 可定制的"团队配置"

一个有趣的问题是:如果每个团队的开发流程都不一样,这套系统能适配吗?

Cowork Forge 的答案是:配置驱动,而非代码硬编码

系统引入了三层可定制机制:

Flow 定制:开发流程本身可以定义。默认的七阶段流程适合大多数项目,但你可以创建自己的流程模板——比如"快速原型流程"只包含需求、设计、编码、交付四个阶段;"企业级流程"可能在设计之后增加一个安全审查阶段。流程配置以 JSON 格式定义,无需修改代码。

Agent 角色编辑:每个 Agent 的"人设"可以调整。你可以修改 Agent 的指令模板、调整其使用的工具集、甚至指定不同的模型参数(比如让编码 Agent 用更强的推理模型)。这让 Agent 能够适配团队的编码规范和技术偏好。

兼容Skill生态:兼容skill.io的SKILL标准,它可以注入额外的工具、提示模板和上下文知识。比如,你可以导入一个"React 开发技能包",里面包含了 React 组件的最佳实践、常用工具函数、项目模板等。Skill 基于 agentskills.io 标准,支持从本地目录或远程仓库导入。

这种设计的核心思想是:把"怎么工作"的控制权还给用户

系统提供了合理的默认值,但不强制你接受。你可以根据团队的习惯、项目的特点、技术的偏好来调整——就像你可以根据项目需要,调整真实团队的分工和流程一样。

4.4 Memory:多 Agent 协调的"共享大脑"

在多 Agent 系统中,有一个核心挑战:Agent 之间如何"共享记忆"?

这不是简单的"存储"问题。想象一个真实团队:产品经理做的决策,工程师需要知道;架构师的技术选型,测试工程师需要理解;上一个迭代的踩坑经验,下一个迭代需要规避。这些"共享记忆"是团队协作的基础。

在 Agent 工程化领域,这被称为Memory 系统——它承载了多 Agent 协调所需的各种记忆形态:

Feedback 记忆:用户在某个阶段给出的反馈("这个设计太复杂了"、"这个接口命名不清晰"),会被记录并传递到后续阶段。当编码 Agent 工作时,它会"记得"用户对设计的偏好,避免重蹈覆辙。

环境上下文记忆:项目的技术环境——语言、框架、数据库、依赖版本——会被自动检测并注入到每个 Agent 的上下文中。这确保了所有 Agent 都在"同一个世界"里工作,不会出现设计 Agent 选了 PostgreSQL,编码 Agent 却按 MySQL 写 SQL 的情况。

项目知识记忆:这是跨迭代的知识沉淀。架构决策及其理由、设计模式的使用场景、已知问题及规避方法……这些会被自动提取并持久化存储。当你三个月后回来继续开发,系统仍然"记得"当初为什么选择这个技术栈、有哪些坑需要避开。

迭代知识记忆:每次迭代结束后,系统会自动生成本次迭代的知识快照——包括实现的功能、遇到的问题、解决的方法、遗留的技术债务。这些知识会成为下一次迭代的"起点"。

更厉害的是,Cowork Forge 具备项目 Codebase 级知识自动生成能力。系统会分析整个代码库的结构、模块划分、关键算法、数据流向,自动生成一份"代码地图"。这份知识不是简单的代码注释,而是对整个项目的结构化理解——当你问"这个项目的认证模块在哪里",系统能直接告诉你答案。

Cowork Forge 知识架构项目级认知 (Codebase Knowledge)经验记忆 (Iteration Memory)

这是真正的"项目级"AI,而非"会话级"AI。

4.5 开放的 Agent 生态,外挂你喜欢的Coding Agent

在软件开发领域,有一件事是确定的:每个开发者都有自己的偏好。

有人习惯用 Claude Code 的深度推理,有人喜欢 OpenAI Codex 的多模态能力,有人偏爱 Code Flicker 的流畅体验,还有人对某个小众工具情有独钟。这些工具各有特色,没有哪个能在所有场景下都称得上"最佳"。

那么问题来了:如果 Cowork Forge 的"编码阶段"只能用内置的 Coding Agent,开发者岂不是被绑定了?

这正是 Cowork Forge 在设计时重点考虑的问题。

Cowork Forge自身实现了Built-in Coding Agent,同时也兼容 ACP (Agent Client Protocol) 协议,这是一个由JetBrains和Zed Industries发起的行业标准协议,业内几乎所有主流Coding Agent都支持,让 Cowork Forge 能够"外接"任何支持该协议的 Coding Agent 工具。

具体来说,编码阶段的执行逻辑是这样的:

Cowork Forge 不试图"取代"你习惯的工具,而是做一个"编排者"——它负责流程调度、上下文管理、知识沉淀、结果验证,而具体的编码工作可以交给你最顺手的工具来完成。


五、与现有工具的差异

聊到这里,你可能会问:这和 GitHub Copilot、Cursor 有什么区别?

让我用一个比喻来说明:

Copilot 是"副驾驶",你需要自己开飞机。

它能帮你操作一些控制,提醒你注意仪表盘,甚至在你疲惫时接手一会儿。但航线是你定的,飞行计划是你做的,遇到突发情况还是得你来决策。

Cowork Forge 是"自动驾驶系统",你只需设定目的地。

它会自己规划航线、检查天气、计算油耗、调整高度。你只需要在起飞前确认计划,飞行中偶尔监控,降落时验收结果。当然,如果遇到特殊情况,你随时可以接管。

更准确地说,它们不是竞争关系,而是互补关系。Copilot 帮你在"微观"层面提升效率,Cowork Forge 帮你在"宏观"层面解放生产力。

理想的工作流可能是:用 Cowork Forge 完成项目的框架搭建和文档生成,再用 Copilot 在日常编码中提升效率。


六、项目导入:即能让旧项目"开口说话",也是项目重构/逆向移植的利刃

如果你手头有一个已经存在的项目——可能是半年前做的,可能是别人交接的,甚至可能不是用 Cowork Forge 创建的——系统能帮上忙吗?

答案是:可以。

Cowork Forge 提供了一个强大的项目导入与逆向分析功能。它能够对任意现有项目进行"逆向工程",自动生成高保真的需求文档和技术设计方案。

具体来说,当你导入一个项目后,系统会:

第一步:项目扫描与检测

系统会分析目录结构、配置文件(package.json、Cargo.toml、requirements.txt 等)、依赖关系,自动识别技术栈和项目类型。它还会读取 README、现有文档、关键源文件,建立对项目的初步认知。

第二步:逆向分析

接下来,系统会调用一个专门的"项目分析 Agent",基于扫描到的信息,进行深层次的逆向推理:

  • 这个项目的原始需求是什么?解决了什么问题?
  • 项目的技术架构是如何设计的?为什么这样设计?
  • 有哪些功能模块?它们之间如何协作?
  • 有哪些技术债务已知问题

第三步:文档生成

最终,系统会生成四份核心文档:

文档

内容

idea.md

项目概述、背景动机、核心功能、目标用户

prd.md

功能需求详情、非功能需求、约束条件

design.md

技术架构、模块设计、数据模型、接口定义

plan.md

当前实现状态、后续规划、待完成事项

这个功能的价值在于:让"沉默"的代码"开口说话"

对于那些文档缺失、交接不完整的项目,这是快速建立认知的利器。对于那些想将现有项目纳入 Cowork Forge 工作流的团队,这是无缝迁移的入口。


七、自适应项目启动与实时预览

软件开发不只是"写代码",还包括"跑起来看效果"。

Cowork Forge 在这方面也有独到的设计:智能项目运行与实时预览

当你完成编码阶段后,系统可以自动启动项目并预览运行效果。但这里有一个挑战:不同项目的运行方式差异巨大—— React 项目用 `bun run dev`,Rust 项目用 `cargo run`,Python Flask 项目用 `python app.py`……系统怎么知道该怎么跑?

答案是大模型智能识别。

系统会分析项目的技术栈,自动推断正确的启动命令。它会读取 package.json 的 scripts 字段,解析 Cargo.toml 的配置,检查常见的入口文件……然后生成一个"运行计划"。

更聪明的是,系统还能根据运行过程中的反馈进行动态调整。比如,第一次启动失败了,系统会分析错误日志,判断是依赖没装还是端口冲突,然后尝试修复并重新启动。

运行状态的可视化

系统内置了一个实时的日志查看器,你可以看到:

  • 启动命令和参数
  • 实时的 stdout/stderr 输出
  • 运行状态(启动中、运行中、已停止)
  • 错误提示和诊断建议

对于 Web 项目,系统还提供了内置的应用预览——一个嵌入式的浏览器视图,让你无需切换窗口就能看到运行效果。

这看起来是一个"小功能",但它体现了 Cowork Forge 的理念:端到端,不只是从想法到代码,而是从想法到可运行的应用。


八、挑战与思考

当然,这种模式也面临不少挑战。

第一个挑战是上下文窗口。

一个真实项目的上下文可能非常庞大——需求文档、设计文档、代码库、历史决策……要把这些全部塞进 LLM 的上下文窗口,目前仍有技术瓶颈。

Cowork Forge 的解决方案是"智能裁剪"——通过向量检索和关键词匹配,只把与当前任务相关的上下文注入模型。同时,Memory 系统会将项目知识结构化存储,避免每次都传递原始文档。这是一种权衡,在大多数场景下有效,但在极端复杂的项目中可能仍有信息丢失。

第二个挑战是 Agent 协调。

多个 Agent 如何保持输出的一致性?如果设计 Agent 选择了一个架构方案,但编码 Agent 发现无法实现,该怎么处理?

Cowork Forge 通过"Memory 共享"和"Actor-Critic 模式"来缓解这个问题。所有 Agent 都能访问同一份项目知识,减少了信息不对称。Critic 机制则提供了"跨阶段校验"的能力。但完美的协调仍然是一个开放的研究课题。

第三个挑战是安全性。

让 AI 执行命令、修改文件,本身就带有风险。如果 AI 生成了一个危险的命令怎么办?

Cowork Forge 实现了多层安全机制:命令白名单、路径访问控制、工作区隔离、危险操作检测。系统会阻止 `rm -rf`、`sudo` 等高危命令,确保所有文件操作都在指定的工作区范围内。但这仍然是一个需要持续关注的领域。

设计哲学:不是追求"完全自主",而是追求"人机协同最优"。

关键决策保留给人类,执行交给 AI。这既是对当前技术能力的清醒认识,也是对软件开发本质的尊重——有些决策,本就该由人来拍板。


九、一人即团队

回到文章开头小张的故事。

如果他用了 Cowork Forge,那个凌晨一点的加班可能就不会发生。他只需要说"我想做一个用户任务管理模块",系统就会帮他完成从需求到代码的全部工作——甚至还包括运行预览。他要做的是在关键节点确认方向,而不是在每个细节上消耗精力。

一人即团队,这不再是一个口号,而是正在发生的现实。

当然,Cowork Forge 不是银弹。它有其适用范围和局限性。但它代表了一种新的可能性——一种让 AI 真正成为"生产力解放者"而非"代码生成器"的可能性。

如果你对 Harness Engineering、多智能体协作、人机协同设计感兴趣,不妨看看这个项目。它是开源的,代码在 GitHub 上,欢迎Star和PR。


项目地址:https://github.com/sopaco/cowork-forge


写在最后

AI 正在改变软件开发。但真正的变革不是"AI 写代码",而是"AI 做项目"。当 AI 开始像一个真实团队一样协作,开发者的角色也在悄然转变——从"执行者"变成"导演",从"写代码"变成"定方向"。

未来,即至。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 18:31:15

AI对信息安全的威胁

AI 对信息安全的威胁:历史、现状与未来完全手册 本文面向程序员、工程师、架构师、技术专家及技术负责人,提供 AI 信息安全威胁的系统化技术手册。内容涵盖历史背景、核心攻击类型(恶意软件、投毒、越狱、钓鱼等)、未来趋势及防御策略,图文并茂,适合日常查询与系统设计参…

作者头像 李华
网站建设 2026/5/8 18:29:39

Steedos Platform:基于元数据驱动的开源低代码开发平台深度解析

1. 项目概述:一个被低估的低代码开发平台如果你在开源社区里混迹过一段时间,尤其是关注企业级应用开发领域,那么“steedos/steedos-platform”这个项目标题大概率会出现在你的视野里。乍一看,它可能只是一个普通的GitHub仓库&…

作者头像 李华
网站建设 2026/5/8 18:29:34

番茄小说下载器终极指南:三步实现跨平台离线阅读自由

番茄小说下载器终极指南:三步实现跨平台离线阅读自由 【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版 项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 你是否曾在地铁通勤时因网络断断续续而无法流畅阅读小说&…

作者头像 李华
网站建设 2026/5/8 18:17:12

隐私计算框架Tensory:加密张量运算与机器学习安全实践

1. 项目概述与核心价值最近在开源社区里,一个名为kryptogrib/tensory的项目引起了我的注意。乍一看这个标题,它巧妙地融合了“Krypto”(加密)和“Tensor”(张量)这两个词根,直指其核心定位&…

作者头像 李华
网站建设 2026/5/8 18:17:09

使用Taotoken CLI工具一键配置多开发环境下的模型调用参数

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用Taotoken CLI工具一键配置多开发环境下的模型调用参数 基础教程类,面向需要在不同机器或为团队统一配置开发环境的…

作者头像 李华
网站建设 2026/5/8 18:13:10

薄 Harness,厚 Skills

大家好,我是玄姐。PS:Harness 工程干货直播,欢迎点击预约,直播见。Steve Yegge 表示,使用 AI 编程智能体(Agent)的人“生产力是如今使用 Cursor 和聊天的工程师的 10 到 100 倍,大约…

作者头像 李华