news 2026/6/12 1:43:57

Claude Sonnet 4.6 97.53 分领跑,材料约束把文心一言拉开 40 分

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Claude Sonnet 4.6 97.53 分领跑,材料约束把文心一言拉开 40 分

#Claude Sonnet 4.6 #材料约束 #Smoke轻量评测 #主榜排名 #执行满分

Smoke 今日快测最直接的结论是:代码执行已成及格线,材料约束才是真正分水岭。

前三名差距仅 1.58 分,Claude 两连冠

Claude Sonnet 4.6 以 97.53 分位居第一,Opus 4.7 紧随其后 96.54 分,Grok 4 95.95 分排第三。三者代码执行均为 100 分,真正拉开差距的是材料约束:Sonnet 94.5、Opus 92.3、Grok 91。0.45 的权重让这三项分数直接决定了主榜名次。

执行满分已成常态,文心一言成唯一例外

11 个模型里,10 个代码执行拿到 100 分。唯一不及格的是文心一言 4.5,仅 50 分。这直接把它的主榜分数压到 53.83,比第二名低近 44 分。执行维度已经不再是大多数模型的短板,材料约束反而成为决定性变量。

材料约束分差超过 33 分,国产模型集体承压

材料约束最高 94.5,最低 58.5,极差 36 分。GPT-5.5、豆包 Pro、Gemini 系列均在 75-79.5 区间徘徊,Qwen3 Max 仅 61 分。约束能力不足的模型,在需要严格引用原文、避免幻觉的题目上会持续丢分,这也是今日排名后半段扎堆的主要原因。

今日数据再次印证一个趋势:当执行能力普遍达标后,模型间的真实差异就集中体现在对输入材料的忠实程度上。Claude Sonnet 4.6 在这一维度的领先,已经连续两日转化为榜首优势。

材料约束每提升 10 分,主榜就能多抢 4.5 分,文心一言用 50 分执行和 58.5 分约束交出了最贵的一课。

数据来源:赢政指数 (YZ Index) | Run #156 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 1:40:56

2026年涉外离婚?专业律师事务所为您深度解析相关事宜

随着全球化的不断推进,越来越多的中国家庭涉及到跨国婚姻。当这些婚姻走到尽头时,涉外离婚便成为了一个复杂而敏感的问题。北京安嘉律师事务所,作为一家专注于遗产继承及婚姻家事业务的专业化律所,在处理涉外离婚案件方面拥有丰富…

作者头像 李华
网站建设 2026/6/12 1:33:13

XADC 数据采集 DA 输出 FPGA 设计 Verilog Vivado

名称:XADC 数据采集 DA 输出 FPGA 设计 Verilog Vivado软件:Vivado语言:Verilog功能介绍本设计实现基于 XADC 的模拟量采集与 DA 数据输出控制,顶层模块为 AD_top。系统以 50MHz 时钟作为工作时钟,低电平复位输入 rese…

作者头像 李华
网站建设 2026/6/12 1:24:53

AI Agent正在改变软件开发方式:从代码执行到自主协作

随着人工智能技术的发展,软件开发领域正在迎来新的变革。从最初的代码补全工具,到如今能够独立完成任务规划、执行和反馈的AI Agent,开发模式正在悄然发生变化。 什么是AI Agent 传统AI工具更多是“问答模式”,用户提出问题&…

作者头像 李华
网站建设 2026/6/12 1:19:53

告别黑盒:手把手教你用VTK和C++从零搭建一个医学DICOM三维可视化系统

告别黑盒:手把手教你用VTK和C从零搭建一个医学DICOM三维可视化系统在医学影像领域,商业软件虽然功能强大,但其封闭的"黑盒"特性常常让开发者感到束手无策。当你需要定制特殊功能、优化性能或仅仅是理解底层原理时,这些商…

作者头像 李华
网站建设 2026/6/12 1:17:57

AIGEO AI|国内GEO优化公司全链路优化

AI优化企业:智能时代下的增长新引擎 AI优化企业排行榜与技术革新,解码2025年企业增长密码 AI优化企业如何重构商业生态?第一部分:AI优化企业排行榜——技术驱动的头部玩家 在生成式AI重构商业规则的2025年,企业竞争已从…

作者头像 李华