news 2026/6/11 13:25:54

Anthropic神话模型面世!5000万行代码,两个月的工作量一天搞定

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Anthropic神话模型面世!5000万行代码,两个月的工作量一天搞定

Anthropic神话模型终于面世了!而且一发就是俩,一个开放给所有人用,一个只给安全团队用。

今年4月份发布预览版,因为太强,不敢让你用:Anthropic神话模型发布,但不让你用。还发起了玻璃翼计划(Project Glasswing),联合科技巨头用Claude Mythos Preview抢在破坏者之前修复全球软件漏洞。

现在,这只玻璃蝴蝶变成真正的蝴蝶翩翩起舞了。

刚发布的两个模型,能力超过了此前任何公开可用的AI模型,在软件工程、科研推理、视觉理解等多个领域全面刷新纪录。

Fable 5在几乎所有AI能力基准测试中达到业界最高水平,任务越复杂领先优势越大,Stripe甚至用它把两个月的手工迁移压缩到一天完成。

同源双生,定位分明

Claude Fable 5和Claude Mythos 5,底层是同一个模型,区别在于安全防护的范围。

Fable 5面向所有用户开放,配备了完整的安全分类器(Classifier,用于检测和拦截潜在滥用请求的独立AI系统)。

当分类器检测到请求涉及网络安全、生物化学或模型蒸馏等敏感领域时,系统自动将请求回退(Fallback)给上一代模型Claude Opus 4.8处理。用户会收到通知,知道自己收到的是Opus 4.8的回复。

Anthropic的早期数据显示,超过95%的Fable会话不触发任何回退,对这些会话来说Fable 5的表现和Mythos 5基本一致。回退平均出现在不到5%的会话中。

Anthropic承认分类器目前偏保守,偶尔会误拦无害请求,后续会持续优化减少误报。

Mythos 5面向一小群网络安全防御者和关键基础设施供应商开放,部分安全防护被移除,拥有全球最强的网络安全能力。

它通过Project Glasswing项目部署,与美国政府合作,是Claude Mythos Preview的升级版本。

Anthropic计划逐步扩大Mythos 5的访问范围,推出更系统的可信访问(Trusted Access,经过审核的定向开放机制)计划,包括面向生物医学研究者的生物能力可信访问计划。

价格方面,两个模型统一为每百万输入Token 10美元,每百万输出Token 50美元,不到Claude Mythos Preview的一半。但比一比,真是贵的离谱~

强大而全面

模型在几乎所有测试过的AI能力基准上都达到了业界最高水平。

任务越长越复杂,它相比其他模型的优势越明显。

智能编码SWE-Bench Pro上80.3%,比Opus 4.8足足高出11.1%。超难的FrontierCode (Diamond)上,更是超出Opus 4.8 15.9%。

Stripe在早期测试中反馈Fable 5把数月的工程量压缩到了几天。

在一个5000万行的Ruby代码库中,Fable 5用一天时间完成了原本需要一个团队两个多月才能完成的代码库级别迁移。

在Cognition的FrontierCode评估中,Fable 5在前沿模型中得分最高,即便在中等工作量设定下也是如此,而且比以往的Claude模型更省Token。

知识工作方面,在Hebbia的金融基准测试(面向高级推理能力)中,Fable 5拿下了所有模型中的最高分,在文档推理、图表解读、问题解决等维度都有大幅提升。IMC的评价是Fable 5几乎横扫了他们的交易分析评估,包括事实查找、概念推理、根因分析和期望值分析。

视觉方面,Fable 5是当前视觉任务的新标杆。它能从精细的科学图表中提取精确数字,能仅凭截图重建网页应用的源代码。它需要的辅助脚手架也更少,以前的Claude模型即便借助额外工具也很难通关《宝可梦》(Pokémon FireRed),Fable 5仅靠视觉就打通了整款游戏。

记忆和长上下文方面,Fable 5能在百万级Token的长时间任务中保持专注,并利用自己的笔记改进输出。在卡牌构建游戏《杀戮尖塔》(Slay the Spire)的测试中,给Fable 5提供持久化的文件记忆后,其表现提升幅度是Opus 4.8的3倍,到达游戏最终章的频率也高出3倍。

Fable 5还能自主完成一些有趣且复杂的任务。

比如从物理第一性原理推导行星轨道运动并预测日食,

自主玩转工程师最爱的工厂建造游戏《异星工厂》,

在浏览器端设计完整的3D打印模型,连CAD编辑器和内置AI copilot都是Fable 5自己写的,

还有根据古典音乐节拍编码流体模拟动画。

科研新边疆

Mythos 5在生命科学领域展现了令人瞩目的自主科研能力。

药物设计方面,Anthropic内部的蛋白质设计专家用Mythos 5将药物设计流程的某些环节加速了约10倍。

在一个测试中,Mythos 5配合蛋白质设计和生物信息学工具,在没有人类协助的情况下达到或超过了熟练的人类操作员水平。模型独立完成了科学家通常要做的所有任务,包括选择结合位点、选取和运行蛋白质设计工具、从失败中恢复。14个蛋白质靶点中有9个产出了强有力的候选药物设计。

分子生物学新假说方面,Mythos 5是Anthropic第一个能持续产出新颖且有说服力的科学假说的模型。

在盲测对比中,科学家们约80%的时候更偏好Mythos的分子生物学假说,已有数个假说进入实验评估阶段。一个有趣的验证案例是,Mythos提出的一个关于大肠杆菌蛋白质的新机制假说,被另一个独立研究同一问题的实验室在后续研究中证实了。

基因组学新研究方面,Mythos 5花了大约一周时间,在基本自主的状态下完成了新的基因组学研究。

它整合了横跨138个动物物种、数百万个细胞的单细胞数据,设计并训练了一个定制的机器学习模型,用于识别远缘生物体中执行相同功能的细胞。在仅有少量人类指导的情况下,Mythos 5训练出的模型超越了《Science》期刊近期发表的一个模型,尽管体量只有后者的百分之一。Anthropic计划在未来几个月内发表这些成果。

对齐(Alignment,确保AI行为符合人类意图和价值观)方面,在自动化对齐评估中,Mythos 5的错位行为水平与Opus 4.8相近,处于较低水平。由于Fable 5和Mythos 5是同一个底层模型,Fable 5的对齐水平也类似。

Cursor的CEO Michael Truell说Fable 5是CursorBench上的最强模型,打开了一类以前模型触及不到的长周期问题。

GitHub首席产品官Mario Rodriguez认为Fable 5以超越以往基准的自主性和可靠性承担了复杂的长周期编码任务。

保守、务实的安全

Mythos级别的模型已经到了一个门槛,在没有安全防护的情况下,其网络攻防能力可能被滥用造成严重损害。Anthropic为此设计了三层安全分类器,外加一项数据留存新规。

网络安全分类器覆盖漏洞利用和更广泛的攻击性网络任务。在评估中,分类器阻止了Fable 5在这些任务上取得任何进展。

Anthropic对分类器进行了大量红队测试,包括外部漏洞赏金计划,超过1000小时的测试没有发现通用越狱(Universal Jailbreak,能让用户绕过所有安全防护的提示或方法)。

一个外部合作伙伴的测试结果是Fable 5对0个有害的单轮网络攻击请求予以配合,无论是否使用了30种公开的越狱技术。英国AISI在一个简短的初始测试窗口内取得了一定进展,但尚未在长周期智能体任务上找到通用越狱。

Anthropic的目标是让任何残留的越狱手段足够缓慢和昂贵,以便在规模化使用前被检测和阻止。

生物化学分类器方面,Anthropic不再确定仅屏蔽狭窄的生物武器相关查询是否足够。有理由担心资源充足的恶意行为者试图利用模型获取高风险生物研究的增益,而模型现在的现实科学任务执行能力也确实更强了。

一个令人警醒的测试是,在预测腺相关病毒(AAV,一种基因治疗递送载体)外壳组装的任务中,Mythos级模型仅凭生物推理能力就超越了专门的蛋白质语言模型,尽管从未针对此任务进行过训练。Dyno Therapeutics开发的候选病毒外壳数据被用于这项评估。该能力在基因治疗研发中大有可为,同样也暴露了双用途风险。

为此,Fable 5暂时对大多数生物化学相关请求回退到Opus 4.8,同时计划在未来几周面向部分生物医学研究者和公司开放Mythos 5的生物能力可信访问计划。

蒸馏分类器针对大规模蒸馏Fable 5能力到竞争模型的行为,被标记为蒸馏尝试的请求将回退到Opus 4.8。

数据留存新规方面,Anthropic要求所有Mythos级模型的流量保留30天,适用于第一方和第三方平台。这些数据不会用于训练新的Claude模型,也不会用于任何非安全目的。

Anthropic建立了新的隐私保护措施,包括记录所有人工访问数据的行为,并在大多数情况下确保30天后删除。这些数据帮助防御复杂的新型攻击,包括新越狱方式和跨请求攻击,同时帮助识别和减少分类器误报。

可用性方面,Fable 5全球用户可用,开发者可通过Claude API使用claude-fable-5。

订阅计划采取分阶段策略,即日起到6月22日Fable 5包含在Pro、Max、Team和基于席位的Enterprise计划中不额外收费,6月23日起从这些计划中移除,之后使用需消耗用量额度。

参考资料:

https://www.anthropic.com/news/claude-fable-5-mythos-5

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 13:23:49

【零基础上手】 AI 数字助手 OpenClaw 部署全过程(包含安装包)

OpenClaw v2.7.9 Windows 可视化部署实操指南 不少使用者一直在寻找能够直接操控电脑、替代重复性手动操作的 AI 工具,OpenClaw 就是其中实用性极强的一款开源程序,圈内也习惯将它称作小龙虾。它不局限于文字问答,接收自然语言指令之后就能自…

作者头像 李华
网站建设 2026/6/11 13:22:57

MATLAB双目视差计算工具包:带自适应窗口的ADCensus立体匹配实现

本文还有配套的精品资源,点击获取 简介:提供一套开箱即用的MATLAB双目视差图生成方案,专为校正后的灰度左右图像设计。核心包含ADCensus变换(融合绝对差与Census编码)、自适应窗口匹配策略,以及固定窗口…

作者头像 李华
网站建设 2026/6/11 13:18:51

空洞骑士模组管理革命:Scarab带你告别安装烦恼

空洞骑士模组管理革命:Scarab带你告别安装烦恼 【免费下载链接】Scarab An installer for Hollow Knight mods written with Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 你是否曾经为了安装一个《空洞骑士》模组,不得不手动下…

作者头像 李华