Opus 4.8上线，AI 首次学会说「我不确定」了-下载之家

近日，Anthropic 正式发布 Claude Opus 4.8.与上一代 Opus 4.7 仅相隔六周，这是 Anthropic 旗舰模型最激进的迭代节奏。虽然 Anthropic 自评此次更新只是「适度但明显的提高」，但核心亮点在于：AI 首次学会了主动承认自己的不确定性。

Opus 4.8上线，AI 首次学会说「我不确定」了

1、更快的节奏，更诚实的模型

Anthropic 从 Opus 4.5 开始保持约每两个月一次迭代，六周一个版本在大模型行业属最激进速度。

在标准 benchmark 上，Opus 4.8表现稳步推进。SWE-bench Pro 从 64.3% 提升至 69.2%，SWE-bench Verified 从 87.6% 到 88.6%。多学科推理(Humanity's Last Exam)使用工具达 57.9%，知识工作 GDPval-AA 以 1890 Elo 领先 GPT-5.5.

唯一被 GPT-5.5 压过的项目是终端编程(Terminal-Bench 2.1)，GPT-5.5 为 78.2%，Opus 4.8 为 74.6%。

Opus 4.8上线，AI 首次学会说「我不确定」了截图

2、会说「我不确定」的 AI

Opus 4.8 在编程任务中漏报代码缺陷的概率比 4.7 降低约四倍。

对齐评估中，亲社会特质达到新高，欺骗、配合滥用等不对齐行为发生率大幅下降，接近 Claude Mythos Preview。

Cursor CEO 评价：工具调用效率更高，用更少步骤达到同样智能水平。法律 AI 公司 Casetext 称 Opus 4.8 在法律代理基准上创纪录，首个整体突破 10% all-pass 标准。

Devin CEO 指出 4.8 修复了 4.7 的注释冗余和工具调用问题，对自主工程工作流至关重要。

Opus 4.8上线，AI 首次学会说「我不确定」了截图

3、真正改变工作的功能

Dynamic Workflows(动态工作流)：Claude Code 支持一次会话派出数百个并行子代理协同完成任务，最多 1000 个子代理、16 个并发，可完成数十万行代码的代码库级迁移。

Effort Control(努力控制)：用户可手动选择 AI 回复投入的「思考力」档位，Opus 4.8 默认设为 high，编码 token 消耗与 4.7 相当但性能更好。

Fast Mode(快速模式)：速度提升至 2.5 倍，价格降至三分之一。

Opus 4.8上线，AI 首次学会说「我不确定」了截图

4、Mythos 的影子

在发布 Opus 4.8 的同时，Anthropic 再次提及 Claude Mythos，预计「未来几周内」向所有客户开放。

Opus 4.8 的对齐表现已接近 Mythos Preview，这可能意味着 Anthropic 正在为更强大模型的安全释放做预热准备。

Opus 4.8 保持了定价不变：每百万输入 token 5 美元、输出 25 美元。API 标识为 claude-opus-4-8.已在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 全面可用。

Anthropic 选择了以「模型人格」——诚实、可靠、知进退——作为核心卖点，而不是靠单一的跑分碾压来制造话题。

Opus 4.8上线，AI 首次学会说「我不确定」了

相关文章

热门资讯

Opus 4.8上线，AI 首次学会说「我不确定」了

相关文章

热门资讯

精彩推荐