当前位置: 首页 - 学院 - 资讯 - 其他资讯 - 正文

Opus 4.8上线,AI 首次学会说「我不确定」了

2026-06-26 17:25:38 来源:互联网 作者:xzzj

近日,Anthropic 正式发布 Claude Opus 4.8.与上一代 Opus 4.7 仅相隔六周,这是 Anthropic 旗舰模型最激进的迭代节奏。虽然 Anthropic 自评此次更新只是「适度但明显的提高」,但核心亮点在于:AI 首次学会了主动承认自己的不确定性。

Opus 4.8上线,AI 首次学会说「我不确定」了

1、更快的节奏,更诚实的模型

Anthropic 从 Opus 4.5 开始保持约每两个月一次迭代,六周一个版本在大模型行业属最激进速度。

在标准 benchmark 上,Opus 4.8表现稳步推进。SWE-bench Pro 从 64.3% 提升至 69.2%,SWE-bench Verified 从 87.6% 到 88.6%。多学科推理(Humanity's Last Exam)使用工具达 57.9%,知识工作 GDPval-AA 以 1890 Elo 领先 GPT-5.5.

唯一被 GPT-5.5 压过的项目是终端编程(Terminal-Bench 2.1),GPT-5.5 为 78.2%,Opus 4.8 为 74.6%。

Opus 4.8上线,AI 首次学会说「我不确定」了截图

2、会说「我不确定」的 AI

Opus 4.8 在编程任务中漏报代码缺陷的概率比 4.7 降低约四倍。

对齐评估中,亲社会特质达到新高,欺骗、配合滥用等不对齐行为发生率大幅下降,接近 Claude Mythos Preview。

Cursor CEO 评价:工具调用效率更高,用更少步骤达到同样智能水平。法律 AI 公司 Casetext 称 Opus 4.8 在法律代理基准上创纪录,首个整体突破 10% all-pass 标准。

Devin CEO 指出 4.8 修复了 4.7 的注释冗余和工具调用问题,对自主工程工作流至关重要。

Opus 4.8上线,AI 首次学会说「我不确定」了截图

3、真正改变工作的功能

Dynamic Workflows(动态工作流):Claude Code 支持一次会话派出数百个并行子代理协同完成任务,最多 1000 个子代理、16 个并发,可完成数十万行代码的代码库级迁移。

Effort Control(努力控制):用户可手动选择 AI 回复投入的「思考力」档位,Opus 4.8 默认设为 high,编码 token 消耗与 4.7 相当但性能更好。

Fast Mode(快速模式):速度提升至 2.5 倍,价格降至三分之一。

Opus 4.8上线,AI 首次学会说「我不确定」了截图

4、Mythos 的影子

在发布 Opus 4.8 的同时,Anthropic 再次提及 Claude Mythos,预计「未来几周内」向所有客户开放。

Opus 4.8 的对齐表现已接近 Mythos Preview,这可能意味着 Anthropic 正在为更强大模型的安全释放做预热准备。

Opus 4.8 保持了定价不变:每百万输入 token 5 美元、输出 25 美元。API 标识为 claude-opus-4-8.已在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 全面可用。

Anthropic 选择了以「模型人格」——诚实、可靠、知进退——作为核心卖点,而不是靠单一的跑分碾压来制造话题。