6 月 9 日,Anthropic 发布 Claude Fable 5,并把 Claude Mythos 5 继续放在更受限的 trusted access 范围里。很多团队看到这种消息,第一反应是把模型名替换掉,赶紧跑一轮基准测试。但如果你真在做接入、评测、上线决策,我更建议先改评测脚本,再谈是否切流量。因为这次变化不只是“更强”,而是能力、护栏、成本和回退语义一起变了。
先改的不是模型名,而是观测字段
从 Anthropic 这次公开信息和 6 月 9 日 release notes 来看,Claude Fable 5 适合更长、更复杂的任务,同时默认支持 1M context、128k 输出上限,并且某些高风险请求会触发保护逻辑,转给 Claude Opus 4.8 处理。官方还提到,这类转交平均触发不到 5% 的 session。对工程团队来说,这意味着“返回了答案”已经不够,日志里至少要多记三类信息:是不是发生了 refusal 或 fallback、长任务后半程的质量是否漂移、同一任务的 token 成本是否和旧模型明显不同。
如果你的评测脚本现在只保存model、latency、success三个字段,很多关键差异会直接丢掉。比如一个长任务最后答得还不错,但其实中途已经被回退过;又比如前 20 分钟表现很好,后 40 分钟开始丢步骤。没有更细的记录,你最后只能得到一个虚假的“平均分”。
真正该重排的是任务顺序
过去测模型,常见顺序是先跑短任务,再看多轮对话,最后才补几个长任务。Claude Fable 5 这种模型不适合用这个老顺序。更稳的做法,是先拿代码迁移、长文档抽取、复杂表格整理这类持续时间更长的任务去打样,再回头看短任务是否还有必要补。因为 Anthropic 这次强调的恰恰是长链路软件工程、知识工作和视觉任务能力,真正的风险也更容易在长链路里暴露出来。
这里我会把测试拆成三层。第一层看长任务连续性,观察后半程是否还稳定。第二层看成本结构,尤其是上下文拉长之后输入输出 token 的变化。第三层才看回退与拒答处理,确认系统遇到保护逻辑时不会把异常吞掉。很多团队之所以把新模型用乱,不是因为不会调接口,而是因为上线前根本没按真实任务顺序测。
147AI 适合放在对照层,不适合拿来替代原生规则
这类评测里,147AI 更适合作为多模型对照入口。你可以把同一批样本同时跑 Claude、GPT、Gemini,统一保留结果、失败样本和成本记录,后面复盘会轻松很多。但它不应该被写成“换个入口就解决一切”的万能层。尤其是 Claude 原生能力、保护逻辑和接口边界,还是要按 147AI 的 API 接口文档以及 Anthropic 自己的文档来区分,不要把 OpenAI 兼容请求和 Claude 原生 Messages 场景混成一件事。
所以,Claude Fable 5 值得追,但别把第一步做成“替换 model id”。先把评测脚本改到能看见长任务、回退和成本,再谈是否放量。这一步做对了,后面接入才是工程决策;做错了,再强的模型也只会把问题藏得更深。