奥特曼同时亮出两张底牌:机器人团队重启,手机APP被他亲手干掉
6月1日,OpenAI做了两件事。
第一件:正式宣布成立OpenAI Robotics部门,由DALL-E和Sora的核心创建者Aditya Ramesh挂帅。
第二件:在Voice Hack Night活动上,一支团队现场演示了一款"Agentic操作系统"原型——手机上没有APP,没有应用商店,所有界面由AI实时生成。
一天之内,奥特曼同时向两个方向开炮:物理世界的机器人,数字世界的手机操作系统。两张牌摆上台面,目标是同一个——让AI从"回答问题"变成"替你做事"。
Ramesh带队:赌的是"大脑比身体值钱"
把DALL-E和Sora的创建者放在机器人部门VP的位置上,OpenAI下了一个很明确的注——机器人最难的部分不是硬件,是"大脑"。
Ramesh自己说:目标是将视频生成模型的智能带到物理世界。说白了就是,Sora学会了"理解"物理世界的运动规律,现在要把这种理解塞进机器人的控制回路。
2021年解散团队的核心瓶颈是什么?训练数据不够。5年后世界模型给了另一条路:不用从真实世界一点一点采集数据了,Sora这样的视频模型可以高效模拟物理场景,批量生成训练数据。
思路变了,结论也变了:数据瓶颈不是无解,是你之前的解法不够好。
跟Figure闹翻之后
2026年初,OpenAI跟人形机器人公司Figure的合作公开破裂。Figure说自己取得了"重大突破",要垂直整合,不需要外部AI了。
OpenAI的回应就四个字:那我自己做。
背后有个判断值得注意:当AI能力足够强,把物理世界的执行外包给硬件公司是不够的。你得同时捏着"大脑"和"身体",才能保证系统级的一致性和迭代速度。Figure、1X、Physical Intelligence……赛道已经很挤了。OpenAI直接下场,前合作伙伴全变竞争对手。
底牌二:没有APP的手机,UI实时生成
OpenAI Voice Hack Night上展示的"Agentic操作系统"原型,核心设计理念四个字:UI即系统。
传统手机的交互:点击APP图标 → 进入固定界面 → 在预设框架内操作。
这个原型:说话 → AI理解意图 → 端侧模型即时生成界面 → 复杂推理甩给云端GPT。
没有APP安装,没有应用商店,没有固定界面。你看到的每一个界面,都是AI根据你当前的意图实时画出来的。
技术架构拆解
根据现场演示,这套系统分三层跑:
端侧小模型负责实时生成UI。你说了什么,屏幕上立刻画出对应的操作界面。延迟目标毫秒级,所以不能用云端大模型——等网络往返一秒,用户体验就废了。
云端GPT负责重推理。端侧画好界面后,你要做的事如果需要深度思考(写一封措辞讲究的邮件、规划一个多日行程),这部分交给云端。
交互以语音为主,不是触屏点击。这是"Agentic"的核心——你告诉AI你要什么,AI替你做完,不用自己一步步操作界面。
2027年量产是目前的说法。但原型到量产之间隔着硬件适配、端侧模型压缩、电池续航、网络延迟一堆事。
两张牌为什么必须同时打?
机器人项目和手机操作系统项目表面上看风马牛不相及,但底层在干同一件事——让AI从"你问我答"变成"你说我干"。
ChatGPT回答问题是被动响应。Devin替你写代码、机器人替你搬箱子、手机替你叫车订餐,这是主动执行。
主动执行需要三个环节咬合:AI得先听懂你要什么(感知),再把目标拆成可执行的步骤(规划),最后真的动手干完(执行)。手机操作系统补的是"数字世界的执行"——AI替你操作各种线上服务。机器人补的是"物理世界的执行"——AI替你搬东西、开门、拧螺丝。
两个方向同时推,OpenAI想做的事很清楚:在"听懂→想清楚→干完"这条链路上,每个环节都有自己的产品。
对开发者的实际影响
手机端开发者该紧张了。"UI即系统"如果成真,传统APP开发模式直接掀桌。不用再为每个平台写原生代码、做UI适配、提交应用商店审核。你要做的事变成:训练AI理解你的服务,让AI在用户需要的时候自动生成交互界面。
机器人领域的开发者可以期待一件事:OpenAI Robotics很可能开放"AI大脑"的API接口。就像OpenAI API降低了语言模型的使用门槛,机器人API可能让任何硬件团队都能接入OpenAI的智能控制层。
还有一点值得所有人注意:2021年OpenAI解散机器人团队时,理由是"数据不够"。5年后他们换了思路——不是等真实世界的数据,而是用世界模型自己造数据。这个思路如果跑通,影响的不仅是机器人,是整个AI落地的数据瓶颈问题。
两张底牌同一天亮出来,赌的是一个判断:AI的下一站不是更聪明的聊天机器人,而是替你干活的智能体。数字世界和物理世界,两条路,同一个终点。