
基准的数字跃升。 SWE-Bench Pro 58.4分,超越Claude Opus 4.6(57.3分)和GPT-5.4(57.7分),是国产开源模型在这一基准上的历史最高分。在Terminal-Bench和NL2Repo两项代码评测的综合平均中,GLM-5.1取得全球第三、国产第一、开源第一的排名。 &nbs
相关搜索
nbsp; 编程和自主执行,目前确实是AI行业竞争最密集的赛道。但需要清醒认识到,就在GLM-5.1发布的同一天,Anthropic推出了Mythos Preview——SWE-Bench Pro拿到77.8分,领先GLM-5.1近20分。Mythos暂不公开,但它标定了行业能力的当前天花板,也说明竞争对手的储备远比已发布的产
当前文章:http://183zflp.hengtaoqi.cn/lvgm/23o7.ppt
发布时间:13:38:33

