摘要
AI 竞争从“大模型之战”全面转向“Agent + 世界模型 + 生态体系”竞争。OpenAI 以 GPT-5.2 与迪士尼 IP 合作构建闭环生态,谷歌强化研究型智能体与搜索重构;国内以 LLaDA2.0 与智谱视频/语音技术形成差异化路径。世界模型开始重塑内容、游戏与机器人,Agent 进入长期自治阶段。模型能力趋同后,系统工程、版权合规与产业落地成为新的胜负手。
一、按“企业维度”聚合
OpenAI
新品/技术:
发布 GPT-5.2 系列(Instant / Thinking / Pro)
优势:长上下文、视觉理解、代码能力显著提升。
具体指标:
- 写代码、制表、做PPT延迟下降 37%–51%
- GDPval 职业任务胜出率 70.9%
- SWE-Bench Pro、AIME、GPQA 等测试领先
侧重能力:面向专业知识工作与长时段 Agent
推进 Agent 能力强化(上下文工程 Context Engineering 理论被强调)
- 核心:检索、短长记忆管理、工具调用、上下文过滤与排序。
与迪士尼三年战略合作
- OpenAI 以10 亿美元公司股权换取 200+ 迪士尼/漫威/星战角色授权
- 迪士尼成为主要客户,将使用 OpenAI API 构建产品
成人模式(企业私有部署)
- 场景:医疗、法律、金融
- 符合 EU AI Act 和中国深度合成管理条例
影响:
- 在模型能力上压制谷歌本轮发布,完成“复仇”叙事。
- 构建了影视/娱乐生态闭环(靠 Sora + IP 合规)。
- Agent 生态强化,向企业中台能力渗透。
谷歌(Google / DeepMind)
产品/技术发布:
新版 Gemini Deep Research Agent
- 基于 Gemini 3 Pro
- 具备长时任务规划、迭代搜索、自动补全知识缺口能力
- 针对复杂资料综调场景
- 公开Interactions API
- 新基准DeepSearchQA(900个因果链任务)
Gemini 3 Pro 性能提升(成本更低、与 GPT-5.2 对标)
AI 实验浏览器 Disco → 功能 GenTabs
- 自动将用户浏览行为生成定制 Web 工具
谷歌发布 FACTS 事实性基准
- 行业顶级模型事实性均 <70%
- Gemini3Pro 得分68.8%,居首
材料科学实验室合作(与英国政府)
Gemini TTS 2.5(情绪级语音、24语种、多角色)
影响:
- 试图在“深度智能体研究”“事实性评估”“搜索重构”三条线上确立行业规则。
- 通过 API 开放推动开发者生态。
智谱 AI(Zhipu)
新品/技术:
开源四项视频生成核心技术(SCAIL / RealVideo / Kaleido / SSVAE)
- 解决姿态控制、多主体一致性、实时生成、训练成本等关键问题
GLM-TTS 语音模型开源
- 3 秒样本克隆音色
- 多情感、多方言、低CER(RL版0.89%)
- SIM≈76
参与 LLaDA 2.0(扩散语言模型)联合研发
- 达到 100B 参数级
- 擅长代码生成、Agent任务
影响:
- 在视频生成与语音生成两大方向全面进入行业第一梯队。
- 开源生态加速巩固国内开发者基础。
蚂蚁集团
技术发布:
LLaDA 2.0 / LLaDA 2.0-flash(100B 扩散语言模型)
- 架构:可直接修改 token
- 在代码生成、Agent任务显著领先
- 训练结构采用大规模扩散语言架构
LLaDA 2.0-mini(16B + MoE)
影响:
- 扩散语言模型成为自回归模型之外新路径
- 推动行业形成“扩散LLM”的第二技术阵营。
Runway
技术发布:
Gen-4.5 视频模型升级
- 原生音频生成与编辑
- 多镜头编辑(multi-shot consistency)
GWM-1(首个通用世界模型)
- 三版本:Worlds / Robotics / Avatars
- 可生成可交互、可探索的连贯实时世界
- 大幅提升物理模拟能力
- 获得英伟达CEO点赞
影响:
- 世界模型进入“可生产级”“可交互级”阶段。
- 向游戏、影视、具身智能延伸。
Meta
主要事件:
高层内斗:
- Yann LeCun 离职
- 28 岁天才 Alexandr Wang 主导 Avocado 模型
调整资源重心:去元宇宙、向 AI
被指使用阿里千问模型蒸馏其内部模型 → 引发闭源化猜测
影响:
- 公司内部战略与文化冲突加剧。
- AI 战略向“更快落地、更强闭源、更强调效果”转移。
阿里 / 通义
技术发布:
Qwen3-Omni-Flash 多模态模型
- 实时、多模态、119种语言
- 对标 GPT-5.2 Instant
千问APP作业批改需求激增 70%
腾讯混元3D→MakerWorld 接入(阿里子公司)
影响:
- 向“全民AI教育工具”渗透
- 覆盖学习市场、办公市场、3D内容市场。
微软(Microsoft)
动向:
- CEO 宣布本周五将发布新智能体模型(下一代 Agent)
- 在印度投资 175 亿美元发展 AI 云计算
- 高度参与智能体与企业基础设施部署
影响:
- 与 OpenAI 的技术联盟可能强化 Agent 主导地位。
迪士尼(Disney)
动作:
- 与 OpenAI 合作:授权 200+ IP 给 Sora
- 10 亿美元投资 OpenAI
- IP 进入 AI 内容生态(短视频生成、粉丝创作、Disney+ 播出)
影响:
- 解决“AI生成内容的版权合规”重大行业难题。
- 传统媒体巨头进入生成式AI时代。
其他企业(简要)
- Meshy AI:图像 → A/T Pose 3D能力升级
- 1X Robotics(与 EQT):2026–2030 交付 1万台 Neo 人形机器人
- 佳都科技:信控智能体降低车均延误 19.64%
- Cohere:Rerank4 → 上下文窗口 32K,自学习增强企业搜索
- Cloudflare:VibeSDK 可自动生成部署全栈应用
- Astribot:Lumo-1 具身智能模型,抓取成功率约90%
二、按“能力维度”聚合(更利于做行业战略的视角)*
1. 大模型能力竞争(LLM)
代表企业:OpenAI、谷歌、阿里、蚂蚁、Meta、智谱、Cohere
核心能力趋势:
- 长上下文 + 高事实性(GPT-5.2、Gemini3Pro、Rerank4)
- 知识密集型任务突破(软件工程、数学、科学)
- 多语种、多模态实时性(Qwen3-Omni-Flash)
- 扩散语言模型成为新路径(LLaDA 2.0)
2. 世界模型 / 多模态生成能力
代表企业:Runway、WonderZoom、Octane、智谱
能力特点:
- GWM-1:可交互、可探索实时世界
- 多镜头视频一致性
- 大规模姿态控制、多人一致性
- 多尺度3D世界连续生成(WonderZoom)
- 影视级全局光照(Octane+Marble)
行业影响:
视频生成 → 世界模拟 → 具身智能训练。
3. Agent / 自主智能体能力
代表企业:OpenAI、谷歌、Medeo、Cohere、微软
能力特征:
- 上下文工程(6大模块:Agent/Query/Retreival/Prompt/Memory/Tools)
- 长时任务执行
- 自主规划 + 多轮检索
- 自动构建Web应用(GenTabs)
- 视频创作Agent(Medeo)
- 新智能体模型(微软即将发布)
4. 语音与TTS能力
代表企业:智谱、谷歌
能力指标:
- 3秒克隆音色(GLM-TTS)
- 多情感、多方言
- CER 0.89%、SIM 76.4
- Gemini TTS 2.5:情绪级语音、24语种、多人对话
5. 具身智能 / 机器人能力
代表企业:1X、星动纪元、Runway Robotics、Astribot、中国各高校
能力趋势:
- 机器人任务强化学习(iRe-VLA)
- 人形机器人规模化量产(1万台)
- 视觉-语言-动作统一模型(Lumo-1)
- 世界模型用于机器人训练(GWM-Robotics)
6. 视频生成与创作链路
代表企业:Runway、Seko、Medeo、Opus、智谱
能力:
- 多镜头一致插帧
- 实时生成 → 直播级平滑
- 一句话生成 100 集动画(Seko 2.0)
- 自动分镜、脚本、配音(Opus)
7. 搜索与信息处理能力
代表企业:谷歌、Cohere、OpenAI
能力项:
- Deep Research:自动搜索、自动综调
- DeepSearchQA:因果链任务
- Rerank4:32K上下文、自学习
- GPT-5.2:更高一致性与事实性
8. 产业应用能力
交通、教育、医疗、能源、政务、娱乐
案例:
- 智能信控系统减少19.64%车均延误(广州/重庆)
- AI作业批改需求上涨70%
- AI制药平台“AI孔明”
- Sora获得迪士尼授权→正向版权链路形成
- 数据中心上天(太空算力池)
三、总结性洞察
- 模型能力趋同 → 系统工程与生态竞争加速(上下文工程成为护城河)
- 世界模型成为下一场“平台级大战”(Runway 率先进入“可生产”阶段)
- 扩散语言模型崛起(LLaDA 2.0把扩散LLM推到百亿规模)
- Agent 将成为下一代操作系统(OpenAI、谷歌、微软开始核心竞争)
- 版权合规成为行业拐点(迪士尼-OpenAI合作树立范式)
- AI从工具 → 合作者 → 自主智能体的阶段切换正在加速。
更多内容关注公众号"快乐王子AI说"