news 2026/4/11 1:59:56

大模型榜单周报(2025/12/20)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型榜单周报(2025/12/20)

1. 本周概览

本周大模型领域呈现显著变化,Google的Gemini 3 Flash模型系列表现突出,不仅在多个榜单新晋前列,还发布了新的高速低成本模型。OpenAI的GPT系列在编程和图像能力方面继续保持强势地位。xAI市场份额持续下降,而OpenAI份额则稳步上升。整体来看,新模型发布和性能优化仍是本周主要趋势。

2. 重点关注事件

  • OpenAI推出了其新一代图像模型 GPT Image 1.5,这一代模型具备更强的指令遵循,更精准的图像编辑,也能较好的保留细节,生成速度则来到上一代模型的4倍。目前屠榜了Artificial Analysis、LMArena 两大权威榜单。
  • Google本周发布了一系列新产品,包括高速、低成本模型 Gemini 3 Flash(该模型基于上个月发布的 Gemini 3,并被设为 Gemini 应用和搜索 AI 模式中的默认模型,目前在智能/成本上,成为了全球性价比最高的模型)和 T5Gemma 模型(首个多模态和长上下文的编码器-解码器模型,建立在 Gemma 3 的强大功能之上,使用了「适应(adaptation)」技术将已经完成预训练的仅解码器模型转换为编码器-解码器架构),进一步巩固了其在AI领域的领先地位。
  • 阿里通义万相 2.6 上线,成为国内首个具备角色扮演功能的视频模型。Wan 2.6 在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,同时提取音色、语速等声学特征,在生成阶段作为参考条件控制,实现从画面到声音的全感官全维度一致性保持与迁移。
  • 字节Seed本周也发布多项产品,推出了豆包视频生成模型Seedance 1.5 Pro(该模型采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生联合生成框架,它建立了一个双分支的DiT架构,通过深度跨模态信息交互机制,让视觉流和听觉流在潜在空间(Latent Space)里实时通信)和通用 Agent 模型 Seed1.8(具备强大的多模态能力,支持图文输入,能在信息检索、代码生成、GUI 交互及复杂工作流等场景中高效精准地完成任务,满足日益多元的技术需求)。

3. 榜单变化

模型调用量排名变化
  • Gemini 2.5 Flash 排名上升了 1 名到第 2,仅次于 Grok Code Fast 1
  • GPT-OSS-120B 排名上升了 1 名到第 4
  • DeepSeek V3.2 重回榜单前 10,位列第 8 名
公司市占率变化
  • Google 保持第 1 位置
  • OpenAI 在发布 GPT-5.2 之后市占率超过 xAI 来到第 2 位;Anthropic、DeepSeek 紧跟 xAI 之后
  • xAI 份额持续下降了(17.3% → 14.8%),三周内累计下降 22.9%
  • OpenAI 份额上升了 2.9%(14.8% → 17.7%)
编程调用量排名变化
  • Grok Code Fast 1 保持第 1 位置
  • GPT-5.2 跃升至第 2 位
  • Claude Sonnet 4.5、Claude Opus 4.5 排名第 3、4
  • MiniMax M2 排名保持第 5
  • Devstral 2 2512 排名由第 9 上升了 2 名
大语言模型(Text Arena)排名变化
  • gemini-3-flash 新晋榜单第 3 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜单第 7
  • gpt-5.2-high 和 gpt-5.2 分别排名 15、17位
编程能力榜单(WebDev Arena)排名变化
  • gemini-3-flash 新晋榜单第 5 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜单第 12
编程能力榜单(LiveCodeBench GSO Leaderboard)排名变化
  • GPT-5.2 新晋榜单第 1 位
  • GPT-5.1 排名第 6 位
图像编辑能力榜单(Image Edit Arena)排名变化
  • chatgpt-image-latest (20251216)新晋榜单第 1 名
  • gpt-image-1.5 新晋榜单第 3 位,超过 gemini-3-pro-image-preview-2k (nano-banana-pro)
  • reve-v1.1 新晋榜单第 8 名
文生图榜单(Text-to-Image Arena)排名变化
  • gpt-image-1.5 超过 nano banana pro,新晋榜单首位
  • flux-2-max 排名仅次于二者,新晋榜单第 3 名
图像编辑能力榜单 (Artificial Analysis Image Editing Leaderboard)排名变化
  • GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
  • FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
文生图榜单(Artificial Analysis Text to Image Leaderboard)排名变化
  • GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
  • FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
理科能力榜单(LLM Stats GPQA)排名变化
  • Gemini 3 Flash 新晋榜单第 4 名,得分 90.4%
前沿数学能力榜单(EPOCH AI FrontierMath)排名变化
  • GPT-5.2 的 xhigh 推理版本以 40.7% 的得分新晋榜单首位
  • Gemini 3 Flash 以 35.6% 的得分排名榜单第 5 位
多模态基准测试榜单(HLE)排名变化
  • GPT-5.2 新晋榜单第 3 名
GAIA 榜单排名变化
  • Microsoft AI Asia -Ads 发布的 HALO V1217-1 新晋榜首

4. OpenRouter排行榜

测评类型第一名第二名第三名
模型调用量Grok Code Fast 1Gemini 2.5 FlashClaude Sonnet 4.5
编程模型调用量Grok Code Fast 1GPT-5.2Claude Sonnet 4.5
公司市占率GoogleOpenAIxAI

各公司按不同能力领域排名汇总

测评类型领先公司
大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱
编程能力 LMArenaAnthropic、OpenAI、Google
编程能力 LiveCodeBenchOpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite(基于 Claude、Gemini、GPT、Qwen、DeepSeek 开发的开源系统排名靠前)
图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve
文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、Black Forest Labs、字节、Pruna AI
文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节
GPQA 榜单OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath 榜单OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam 榜单Google、OpenAI、Anthropic

📌关注我,第一时间掌握更多AI前沿资讯!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/9 22:27:23

Type-C接口跟USB接口有什么区别?

Type-C接口与USB接口(包括传统USB-A、USB-B等)在物理结构、功能特性、应用场景等方面存在显著差异。以下是详细对比分析: 一、物理结构差异 Type-C接口 双面可插:采用对称设计,正反面均可插入,解决了传统US…

作者头像 李华
网站建设 2026/4/10 22:26:24

线性表定义和基本操作

1.线性表的定义 线性表是具有相同数据类型的 n(n>0) 个数据元素的有限序列,其中 n 为表长,当n0时线性表是一个空表。(忘记数据元素概念的可以参考https://blog.csdn.net/XinxingZh/article/details/155854415?fromshareblogdetail&s…

作者头像 李华
网站建设 2026/3/30 15:41:35

第10000辆尊界S800量产下线,车主为李连杰

12月16日,尊界S800第10000台下线仪式在安徽合肥尊界超级工厂举行。活动现场还举行了尊界S800车主交付仪式,项兴初、余承东向车主代表交付新车钥匙,将现场气氛推向高潮。这第10000辆尊界S800的车主,是功夫巨星李连杰。作为江汽集团…

作者头像 李华
网站建设 2026/4/8 9:35:32

《社会机器学习》

《社会机器学习》目录 第一章绪论、第二章机器学习理论已略 第3章 社会聚类学习 3.1 问题背景3.2 社会网络特征结构发现3.3 社会网络的超图模型 3.3.1 超图的基本概念3.3.2 模型要素与特征 3.4 HCH 方法 3.4.1 HCH 方法的基本思想3.4.2 超边的相似性3.4.3 超边的融合3.4.4 划分…

作者头像 李华
网站建设 2026/4/3 20:41:45

自然改写不标红:6个AI论文工具排名,助力学术降重无忧

开头总结工具对比(技能4) �� 为帮助学生们快速选出最适合的AI论文工具,我从处理速度、降重效果和核心优势三个维度,对比了6款热门网站,数据基于实际使用案例:工具名称处理速度降重幅…

作者头像 李华