过去一周,大模型行业像被按下了二倍速快进键。OpenAI推出GPT-5.1、

基地科技切片 2025-11-25 17:12:03

过去一周,大模型行业像被按下了二倍速快进键。OpenAI 推出 GPT-5.1、Google 发布 Gemini 3 Pro,结果昨天半夜杀出来的 Claude Opus 4.5 又让所有人措手不及。 Opus 4.5首次把编程、智能体执行和计算机操作三件事做到同一档顶峰:在最难的软件工程基准 SWE-bench Verified 上,Opus 4.5 拿下 80.9% 全球第一,超过 Gemini 3 Pro(76.2%) 和 GPT-5.1(77.9%)。在 ARC-AGI-2 上,64k 得分 37.6%,进入第一梯队;在多语言代码评测中,8种语言里有7个第一。更夸张的是:在 Anthropic 自家严格的工程笔试中,Opus 4.5 在限定两小时内的得分超过历史上所有人类候选人。如果说性能是惊喜,那价格就是暴击,整体费用直接削掉七成。直接从“慎用”的昂贵模型,变成可以全天候挂着跑长任务的主力引擎。

0 阅读:2
基地科技切片

基地科技切片

感谢大家的关注