“卷不动了“？OpenAI Agent姗姗来迟，但功能强大到让所有程序员颤抖！-开发者社区

我们终于等到了 OpenAI 的智能体（Agent）了。

今天凌晨，Sam Altman 亲自带队发布了 ChatGPT 的通用型 Agent 模式。

比起当年 ChatGPT 带给所有人的震撼，姗姗来迟的 OpenAI Agent 少了很多惊喜，因为早在年初我们就见到了类似的产品形态——当时“一号难求”的 Manus，以及 Minimax、Kimi 等陆续发布的相似产品。

“起大早，赶晚集”，技术强大如 OpenAI，也难免有卷不过的时候。

OpenAI 的 Agent，您终于来了

这年头发布 AI 产品，“惊喜”和强大往往是两回事——毕竟是 Open AI。

在产品的直播演示里，这款 Agent 展示出的能力还是令人期待的——Agent 模式可以自己访问网页、调用终端、自动下单，执行从旅行规划、PPT 制作到图像生成与在线购物的整套流程。

据介绍，ChatGPT Agent 即日起向 Pro、Plus 和 Team 版用户开放，Enterprise 和 Education 版用户将于 7 月获得使用权限。Pro 版用户每月 400 次，Plus 和 Team 用户每月 40 次。

为了实现从“Chat”到“Agent”的表现，OpenAI 结合了 Operator（视觉层交互代理）和 Deep Research（多步骤网页推理）两项核心研究成果，一个是“手脚”一个是“大脑”来共同完成任务的拆解、思考、行动的闭环。

这需要三大模块工具的支持：1。文本浏览器（Text-based Browser）来处理密集型网页阅读任务，提取信息；2. 可视化浏览器（Text-based Browser），实现在图形界面中操作鼠标点击、输入、截图等；3. 终端工具（Terminal），来运行代码、生成文件、调用 API、与其他系统集成。

据 OpenAI 介绍，这款 Agent 不仅能执行，还能评估执行效果，并在每一步中动态选择最优路径。而用户可以随时插话调整指令，或临时接管任务进程。

其实拆解任务和优化任务一直是 Agent 的一个难点。我们可以把 Agent 想象成一个小团队，有产品、品牌、数据，现在用户作为老板下达了一个指令：给我设计一款年轻人喜欢的手机壳。然后大家开始分头行头，市场做调研、品牌做推广，数据盯反馈。

不过这个过程中，大家不免会有冲突，有逾矩，比如市场调研市场可以去发调查问卷，数据部也可以看大数据报告，到底谁来做最高效？所以好的 Agent 总是能自我优化，追求最快、最好。

Agent 这么火？它和 Chatbot 有啥区别？

ChatGPT Agent 和 ChatGPT 到底有什么区别？

基本的解释是：Agent 可以完成任务，Chatbot 可以完成对话。这个“任务”和“对话”到底有什么分别？

举个很简单的例子，我现在要决定今天中午吃什么，我可能会考虑类型、距离、口味，并在最后定一家外卖下单，这就是一个 Agent 式的任务；而一个 Chat 式的任务是，当我已经决定吃日料，我来问：最短距离哪家日料评分最高。

说白了 Agent 能完成的任务，更复杂、更高维、需要更多的工具。

比如，在 OpenAI 的演示里，操作员让 OpenAI Agent 挑一套适合参加婚礼的礼服和礼物。Agent 先用文本浏览器打开用户给的网页信息确认婚礼的日期、天气、位置，然后用可视化浏览器展示可选的礼服效果，之后再继续搜索礼物……

另一个操作员交代的任务是给团队一只叫 Bernie 的狗狗，也是团队吉祥物做一批笔记本贴纸，并且订购 500 份邮寄到相应的地址。

Agent 先是用终端工具 Imagen 生成动漫版图片，设计贴纸然后再访问 Sticker Mule 网站，把设计好的图上传到网站，填写了贴纸数量、尺寸等等，选择订购 500 分，任务最终停留在请求信用卡信息上。

做 PPT，也是一个很典型的 Agent 式任务。

OpenAI 团队演示了让 Agent 从 Google 云中提取分析评估数据并制作成 PPT，直接用图表展示结果。Agent 链接 Google 云 API 进行搜索，并读取相关内容信息，然后使用图像生成功能，在生成一次 PPT 后，Agent 进行了一次优化，生成了一张视觉上更流畅的 PPT。

咋就迟到了？

奥特曼想做 Agent 不是一天两天了。

其实 OpenAI 早就公布过自己的“五级路线图”，一级 Chatbots（聊天机器人）、二级 Reasoners（推理者）、三级 Agents（代理）、四级 Innovators（创新者）、五级 Orgnazations（组织者）。

Agents 作为第三级是整个 AI 进化路径中，让 AI 从工具属性跃升到创新属性中必经的一环。

只不过奥特曼不是第一个发出 Agent 产品的。

今年 3 月， Manus 推出通用 Agent 产品，当时一夜之间大家全都在“万能的朋友圈”求测试账号，一个账号甚至最高炒到了一百万。

Manus 借势 Agent 东风更快速推出产品的很大一部分原因是他们没有自研大模型，而是用 Claude 等底层基础大模型来实现产品功能，并将各类功能组合封装，当时业内也称 Manus 是一款“套壳”产品。

Manus 之外，MiniMax、Kimi、Perplexity AI 都更先发布了通用 Agent 形态的产品。

所以说，OpenAI 这把推出 Agent 其实是缺乏了先发优势的，从 ChatGPT 到 Agent，OpenAI 在行业中的位置也从“抢先跑”到了“赶班车”。

除了时间压力，OpenAI 还不能忽视两方面的竞争压力——生态竞争、成本竞争。

一直以来重闭源的 OpenAI 在今年接连受到来自各类竞品的打击。比如 Deepseek，训练成本是自己的二十分之一，性能表现却跟自己产品差不多，本来靠闭源 API 商业化做到全球第一的 OpenAI 眼看着英伟达、英特尔、亚马逊、微软、AMD 等等科技大厂全部接入 DeepSeek，这让奥特曼都直接公开反思“闭源策略可能是个失误”。

成本优势势必会带来生态优势，这样的商业规律并不会在 AI 市场上失效。

而即使 OpenAI 在产品上保持优势，那些“差不多，但便宜很多”的竞争对手的集体围剿也会让他体会“被瓜分”的痛——这一点，奥特曼可以和一直阴阳他的马斯克谈谈心。

关于 Agent 的想象力，才刚刚开头

要我说，人类对 Agent 的开发不足 1%。

Agent 的出现和成熟可以完全颠覆一代人。就像互联网的出现对 90 后的影响，AI 的出现将会影响整个阿尔法世代。

从商业化的角度来看，目前大家对 Agent 最多的讨论就是场景化的难度。因为达到了可以“行动”的 Agent 势必涉及到跨应用的调用，比如在上述贴纸订购的演示里，网购平台的调用权限就必不可少。

但在我看来，这就像当时我们无法想象淘宝怎么说服店家上线一样，AI 时代应用的互通只是时间问题。

作为在这种大势之下的用户，我们其实更应该思考的是 Agent 对我们，以及后代在生活方式的转变——

设想一下，七八岁的孩子们从校门涌出，下午四点父母们还在工作，门口接孩子们的不是爷爷奶奶，也是接入了 Agent 的机器人，Agent 是妈妈们训练出来的，到了家，Agent 早就打开了空调，房间的温度正好。等到快要七点的时候，Agent 开始指挥炒菜机器人做饭，等着下班的爸爸妈妈。

再设想一下，一个对星座塔罗感兴趣的上班族想要搞个占星副业，Agent 直接搜集各种语言的占星资料翻译成中文，提取摘要做成报告，顺便指定一份学习计划。然后开始搜集文案引流灵感、做成海报发布在社交账号帮忙揽客。

再看 OpenAI 的“五级路线图”，Agent 不仅是 AI 从思考到行动的拐点，更是 AI 从被动到主动的拐点，当 AI 从工具化逐渐拟人化，人类的命运也将彻底改写。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

GLM-4.6V-Flash-WEB部署全攻略：单卡推理实现高效多模态应用