Anthropic新旗舰Claude Opus 4.8多项核心能力全球第一

admin AI新闻 2026-05-31 25

5月30日世界杯2026直播平台, 快科技传出消息, 5月28日, Anthropic推出了最新的旗舰大模型,名为Claude Opus 4.8。

参照SuperCLUE最新的中文测评情况开云正版app下载开云app在线入口, 这款模型于代码生成方面拿到全球第一, 在幻觉控制领域同样取得全球第一, 在科学推理这一范畴也获得全球第一。

在代码生成这一方面看来, Opus 4.8获取到了83.58分, 于成绩上领先第二名超出2分, 相较于上一代4.7版本而言, 提升幅度超过4.5分, 在软件工程相关的子任务里同样占据首位地位, 无论是独立写代码还是网页开发, 表现水平都十分稳定。

幻觉控制得分是87.48, 处于同样的全球首位, 相较于前代提升幅度超过了6分, AI胡乱编造答案的情形大幅降低,回答变得更加可靠开运真人app下载苹果版,开运真人app下载, 在专业场景中使用起来更加令人安心。

科学推理取得了77.19分的成绩, 这点还是全球排名第一的, 和4.7版本比起来升高了将近9分, 理科进行计算、逻辑展开推导的能力显著变强了。

Anthropic新旗舰Claude Opus 4.8多项核心能力全球第一-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

首先, 综合智能指数是73.93分, 它和GPT - 5.5、Gemini 3.1 Pro Preview处于同一第一梯队。其次, 其推理速度基本保持一样水平, 再者, API价格并未发生改变, 最后, 它仍然属于高性能然而性价比偏低的那种档位。

然而, 它还是存在少许稍小破绽, 智能体任务规划方面有所降低, 数学推理方面也有一定程度的下滑, 指令遵循方面同样出现了些许下降, 其中指令遵循分数降低比较显著, 不过对于日常运用而言影响不算大。

从中整体去看, Opus 4.8着重强化了代码, 以及诚实度, 还有科学推理这方面, 针对开发者而言, 对科研人员来说是十分友好的, 它属于目前综合能力最均衡的旗舰模型当中的一个。

Anthropic新旗舰Claude Opus 4.8多项核心能力全球第一-第2张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

本文地址： http://aoersenchina.com/post/844.html