5月30日世界杯2026直播平台, 快科技传出消息, 5月28日, Anthropic推出了最新的旗舰大模型,名为Claude Opus 4.8。
参照SuperCLUE最新的中文测评情况开云正版app下载开云app在线入口, 这款模型于代码生成方面拿到全球第一, 在幻觉控制领域同样取得全球第一, 在科学推理这一范畴也获得全球第一。
在代码生成这一方面看来, Opus 4.8获取到了83.58分, 于成绩上领先第二名超出2分, 相较于上一代4.7版本而言, 提升幅度超过4.5分, 在软件工程相关的子任务里同样占据首位地位, 无论是独立写代码还是网页开发, 表现水平都十分稳定。
幻觉控制得分是87.48, 处于同样的全球首位, 相较于前代提升幅度超过了6分, AI胡乱编造答案的情形大幅降低,回答变得更加可靠开运真人app下载苹果版,开运真人app下载, 在专业场景中使用起来更加令人安心。
科学推理取得了77.19分的成绩, 这点还是全球排名第一的, 和4.7版本比起来升高了将近9分, 理科进行计算、逻辑展开推导的能力显著变强了。

首先, 综合智能指数是73.93分, 它和GPT - 5.5、Gemini 3.1 Pro Preview处于同一第一梯队。其次, 其推理速度基本保持一样水平, 再者, API价格并未发生改变, 最后, 它仍然属于高性能然而性价比偏低的那种档位。
然而, 它还是存在少许稍小破绽, 智能体任务规划方面有所降低, 数学推理方面也有一定程度的下滑, 指令遵循方面同样出现了些许下降, 其中指令遵循分数降低比较显著, 不过对于日常运用而言影响不算大。
从中整体去看, Opus 4.8着重强化了代码, 以及诚实度, 还有科学推理这方面, 针对开发者而言, 对科研人员来说是十分友好的, 它属于目前综合能力最均衡的旗舰模型当中的一个。

标签: Anthropic ClaudeOpus4.8 代码生成 幻觉控制 科学推理
还木有评论哦,快来抢沙发吧~