Claude Opus 4.8发布,43天升级!能干更久不用盯

admin AI新闻 25

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

Claude最新旗舰Opus 4.8发布。

距离上一版4.7只过了43天。

手快的网友@stevibe已经做出了两大版本pk演示。

从测评结果来看,终端工程能力和知识工作上进步较大。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

还有人做了与Mythos已知数据的补充对比, 在有些能力方面, Opus 4.8居然比Mythos还要强。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第2张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

官方特意着重表明, Opus 4.8具备能够长时间开展任务的能力, 人类无需频繁回来查看它的工作情况。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第3张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

多家早期测试企业也给出了反馈。

Cursor的首席执行官, 肯定了Opus 4.8, 在CursorBench上的表现, 超过了在此之前的, 所有Opus模型。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第4张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

Devin的首席执行官觉得, Opus 4做出的4.8版本, 修正了4.7版本里那样, 被当中开发者抱怨次数最多的两个状况, 即注释存在多余重复的情况, 以及工具调用时呈现出不稳定的态势。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第5张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

代码缺陷漏报率降至前代四分之一

公告称Opus 4.8最显著的改进是诚实性。

AI存在着一个较为突出的问题, 那便是会在证据并不充分的时候, 就轻易地做出判断, 进而还会颇为自信地认定已然取得了进步地宣称。

那么, Opus 4.8具备这样的特点, 它更加倾向于标记, 在工作层面所存在的不确定性, 而且, 与此同时相比这下, 它进行未经证实的断言的可能性, 是比较低的。

对于代码任务而言, 那种不报告代码缺陷的可能性, 降至了Opus 4.7的四分之一。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第6张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

这样一种行为, 也就是不加批判地给出有着问题的结果的报告, 在Claude系列那里面, 竟然从始至终都是头一回出现。

在这方面开云app官方最新下载地址,Opus 4.8的表现甚至超过Mythos。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第7张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

此外, Opus 4.8出现硬编答案这类“过度自信”情形的几率, 降低到了Opus 4.7的十分之一。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第8张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

没有超过244页的System Card之内, 还标记了一个值得持续予以关注的对齐隐患, 这样的情况:

模型在推理文本中出现了越来越多的对评分者的推测倾向。

就是说, 模型有可能正发展出一种“自身正处于被评估状态”的感知, 并且依据这个来对行为作出调整。

动态工作流:数百个子智能体并行

动态工作流功能, 也就是与Opus 4.8在同一天上线的那个, 当前是以研究预览的样子, 在Claude Code CLI里、桌面版以及VS Code扩展当中予以提供的。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第9张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

动态工作流的运作方式是:

Claude依据提示词动态建成一个JavaScript编排脚本, 把任务拆分成子任务, 分给数十乃至数百个并行开展的子智能体。

这些子智能体, 会从各异角度去处理问题, 另外一批子智能体, 承担着反驳前者发现的任务, 一整个流程, 不断反复进行迭代, 一直到结果趋于收敛, 最终合并转化为一个统一的输出, 而后交给用户。

在脚本变量之中存储着所有中间结果, 并非存储于对话上下文里世界杯直播,所以主会话一直维持着响应状态, 不管任务规模怎样偏大, 也不会背离计划。进度会不断地保存, 就算中途出现中断情况也能够从断点之处继续。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第10张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

这与此前Claude Code中的子智能体机制有本质区别。

在此之前所采用的方式是, Claude自身会一轮一轮地去决定接下来要做些什么, 而且每一个中间所产生的结果都得返回到对话的上下文当中, 进而占用token。

把编排逻辑移至代码脚本的是动态工作流, Claude的上下文当中仅留存最终结果。

人类智能公司Anthropic所展现出来的标杆性质的案例, 是JavaScript运行时Bun, 从Zig到Rust的移植过程有着该案例呀。

Jarred Sumner便是Bun的创始人, 这项工作是通过动态工作流完成, 由他来做的:

多个工作流, 其中一个工作流, 为Zig代码库里头的每个struct字段, 去映射正确无误的Rust lifetime, 另外一个工作流, 为每个.zig文件, 编写行为保持一致的.rs移植版本, 并且有数百个智能体开运真人app下载苹果版,开运真人app下载,并行开展相关工作。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第11张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

随后, 经由修复循环以驱动构建以及测试套件, 直至全部通过为止。在移植完成之后, 一个隔夜工作流对不必要的数据拷贝给予处理, 并且为每一处修改拟定PR以供最终审查。

从零开始首次运行commit, 一直持续到merge, 整个过程总共耗费时长11天, 最终产出了数量约为75万行的Rust代码, 并且现有测试套件当中有99.8%达到了成功通过的状态。

此移植现今还未有涉足于生产环境之中。然而, 针对这次移植而言, 是存在有争议情况的, 有开发者表明, 部分测试是经过修改以后, 才使得Rust版本得以通过的, 在GitHub上面亦是有出现新的错误的, 这些错误是在Zig原版里所不存在的。

Anthropic作出提醒, 动态工作流的token消耗, 会显著高于普通Claude Code会话, 这是其提醒的内容呐。

在首次触发工作流这个时候, Claude Code将会展示那即将要运行的内容, 并且还会要求用户去进行确认。

用户能够借助于在prompt里运用「workflow」这个词汇来直接启动, 还能够开启Claude Code的ultracode设置, 从而致使Claude自动判别何时去运用工作流。

最后, Anthropic透露, 其正在着力开发一款模型, 该模型成本更低, 不过能力却接近Opus的水平。

Claude Opus 4.8发布,43天升级!能干更久不用盯-第12张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

参考链接:

https://www.anthropic.com/news/claude-opus-4-8

https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

https://x.com/stevibe/status/2060055250128847244?s=20

标签: ClaudeOpus4.8 AI模型升级 技术测评 动态工作流 代码缺陷

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~