GPT-5.5登场,定位“新型智能”
GPT-5.5刚刚降临,官方将其定位为“一种面向实际工作和智能体的新型智能”。这次奥特曼没亲自发声,而是请了一群早期测试用户当“嘴替”。其中一位英伟达工程师,在早期测试结束后短暂失去GPT-5.5访问权限时,称“失去GPT-5.5,就像被截肢”。
OpenAI与英伟达前所未有的合作
OpenAI与英伟达的合作是前所未有的。其一,GPT-5.5和英伟达GB200、GB300 NVL72系统是联合设计的,从训练到部署,模型和硬件双向奔赴。其二,推广Codex到英伟达全公司,奥特曼还晒出了与老黄的邮件。
合作成果显著,打破铁律
与GPT5.4相比,新模型在代码、知识工作、科学研究三个领域全面领先。综合测试Artificial Analysis Intelligence Index结果有两种解读:GPT-5.5获得相同分数比Claude Opus 4.7和其他模型消耗token更少;或消耗同样token,GPT-5.5完成任务更多。更令人意外的是,GPT-5.5打破了“更强更慢”的铁律,在真实生产环境中,它的逐token延迟和GPT-5.4相当,完成相同任务需要的token还更少,不过价格翻倍。
编程领域提升显著
截至发稿,Codex更新最新版已能用上GPT-5.5,上下文窗口也升级到400K。编程是GPT-5.5提升最猛的领域,上一代模型使用时需小心翼翼拆任务、纠偏,而GPT-5.5能自行拆解、执行、检查,用户只需看结果。OpenAI展示了Codex下GPT-5.5生成的3D动作游戏,在网页上可直接运行。在Terminal - Bench 2.0测试中,GPT-5.5拿到82.7%,高于GPT-5.4的75.1%和Claude Opus 4.7的69.4%。早期测试者Dan Shipper的实验也表明,GPT-5.5能独立做出和顶尖工程师一样的决策,高级工程师反馈其在推理和自主性上明显更强。
能力跃迁扩散至多领域
GPT-5.5在Codex里不仅能写程序,还能生成文档、整理表格、做PPT,更懂用户需求,会用工具并检查输出。OpenAI超85%的员工每周都用Codex干活。在知识工作基准测试GDPval上,GPT-5.5拿到84.9%,比Claude Opus 4.7高4.6个百分点;在FrontierMath Tier 4测试上,GPT-5.5 Pro拿下39.6%,Claude Opus 4.7是22.9%,差距接近一倍。科学家们也充分利用它,如波兰数学助理教授Bartosz Naskręcki用一句话11分钟就让代数几何可视化应用跑起来;免疫学教授Derya Unutmaz用GPT-5.5 Pro分析基因表达数据集,产出完整研究报告,原本这要花团队几个月时间。OpenAI认为它更像“研究伙伴”,早期测试者用它多轮批改论文、挑论证漏洞、提新分析方案。
数学领域做出原创贡献
GPT-5.5在数学领域有重大突破,它找到了Ramsey数的新证明路径,该证明被数学界严格的形式化验证工具Lean确认无误,一个AI在纯数学核心领域做出了被验证的原创贡献,这在一年前是不可想象的。
“更强却更快”的秘密
“更强却更快”是如何做到的呢?答案是OpenAI把整个推理系统推倒重来。GPT-5.5和英伟达相关系统联合设计,使智能水平大幅跃升。此外,GPT-5.5驱动的Codex系统分析数周生产流量数据,写出负载均衡的分区启发式算法,根据实际流量动态调整分块策略,token生成速度提升超20%。推理系统重构和模型自我优化叠加,带来了这样的结果。OpenAI称这是“迈向用计算机完成工作的新方式的一步”,但模型开始优化自身运行基础设施,这一步到底迈了多远呢?
模型发布数据预计加快
有了GPT-5.5,OpenAI预计接下来模型发布数据将加快。首席科学家Jakub Pachocki在与记者的电话会议上说,短期内有显著进步,中期有极其显著的进步,但他认为过去几年进展出乎意料地缓慢。