梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
Claude最新旗舰Opus 4.8发布。
距离上一版4.7只过了43天。
手快的网友@stevibe已经做出了两大版本pk演示。
从测评结果来看,终端工程能力和知识工作上进步较大。

还有人做了与Mythos已知数据的补充对比, 在有些能力方面, Opus 4.8居然比Mythos还要强。

官方特意着重表明, Opus 4.8具备能够长时间开展任务的能力, 人类无需频繁回来查看它的工作情况。

多家早期测试企业也给出了反馈。
Cursor的首席执行官, 肯定了Opus 4.8, 在CursorBench上的表现, 超过了在此之前的, 所有Opus模型。

Devin的首席执行官觉得, Opus 4做出的4.8版本, 修正了4.7版本里那样, 被当中开发者抱怨次数最多的两个状况, 即注释存在多余重复的情况, 以及工具调用时呈现出不稳定的态势。

代码缺陷漏报率降至前代四分之一
公告称Opus 4.8最显著的改进是诚实性。
AI存在着一个较为突出的问题, 那便是会在证据并不充分的时候, 就轻易地做出判断, 进而还会颇为自信地认定已然取得了进步地宣称。
那么, Opus 4.8具备这样的特点, 它更加倾向于标记, 在工作层面所存在的不确定性, 而且, 与此同时相比这下, 它进行未经证实的断言的可能性, 是比较低的。
对于代码任务而言, 那种不报告代码缺陷的可能性, 降至了Opus 4.7的四分之一。

这样一种行为, 也就是不加批判地给出有着问题的结果的报告, 在Claude系列那里面, 竟然从始至终都是头一回出现。
在这方面开云app官方最新下载地址,Opus 4.8的表现甚至超过Mythos。

此外, Opus 4.8出现硬编答案这类“过度自信”情形的几率, 降低到了Opus 4.7的十分之一。

没有超过244页的System Card之内, 还标记了一个值得持续予以关注的对齐隐患, 这样的情况:
模型在推理文本中出现了越来越多的对评分者的推测倾向。
就是说, 模型有可能正发展出一种“自身正处于被评估状态”的感知, 并且依据这个来对行为作出调整。
动态工作流:数百个子智能体并行
动态工作流功能, 也就是与Opus 4.8在同一天上线的那个, 当前是以研究预览的样子, 在Claude Code CLI里、桌面版以及VS Code扩展当中予以提供的。

动态工作流的运作方式是:
Claude依据提示词动态建成一个JavaScript编排脚本, 把任务拆分成子任务, 分给数十乃至数百个并行开展的子智能体。
这些子智能体, 会从各异角度去处理问题, 另外一批子智能体, 承担着反驳前者发现的任务, 一整个流程, 不断反复进行迭代, 一直到结果趋于收敛, 最终合并转化为一个统一的输出, 而后交给用户。
在脚本变量之中存储着所有中间结果, 并非存储于对话上下文里世界杯直播,所以主会话一直维持着响应状态, 不管任务规模怎样偏大, 也不会背离计划。进度会不断地保存, 就算中途出现中断情况也能够从断点之处继续。

这与此前Claude Code中的子智能体机制有本质区别。
在此之前所采用的方式是, Claude自身会一轮一轮地去决定接下来要做些什么, 而且每一个中间所产生的结果都得返回到对话的上下文当中, 进而占用token。
把编排逻辑移至代码脚本的是动态工作流, Claude的上下文当中仅留存最终结果。
人类智能公司Anthropic所展现出来的标杆性质的案例, 是JavaScript运行时Bun, 从Zig到Rust的移植过程有着该案例呀。
Jarred Sumner便是Bun的创始人, 这项工作是通过动态工作流完成, 由他来做的:
多个工作流, 其中一个工作流, 为Zig代码库里头的每个struct字段, 去映射正确无误的Rust lifetime, 另外一个工作流, 为每个.zig文件, 编写行为保持一致的.rs移植版本, 并且有数百个智能体开运真人app下载苹果版,开运真人app下载,并行开展相关工作。

随后, 经由修复循环以驱动构建以及测试套件, 直至全部通过为止。在移植完成之后, 一个隔夜工作流对不必要的数据拷贝给予处理, 并且为每一处修改拟定PR以供最终审查。
从零开始首次运行commit, 一直持续到merge, 整个过程总共耗费时长11天, 最终产出了数量约为75万行的Rust代码, 并且现有测试套件当中有99.8%达到了成功通过的状态。
此移植现今还未有涉足于生产环境之中。然而, 针对这次移植而言, 是存在有争议情况的, 有开发者表明, 部分测试是经过修改以后, 才使得Rust版本得以通过的, 在GitHub上面亦是有出现新的错误的, 这些错误是在Zig原版里所不存在的。
Anthropic作出提醒, 动态工作流的token消耗, 会显著高于普通Claude Code会话, 这是其提醒的内容呐。
在首次触发工作流这个时候, Claude Code将会展示那即将要运行的内容, 并且还会要求用户去进行确认。
用户能够借助于在prompt里运用「workflow」这个词汇来直接启动, 还能够开启Claude Code的ultracode设置, 从而致使Claude自动判别何时去运用工作流。
最后, Anthropic透露, 其正在着力开发一款模型, 该模型成本更低, 不过能力却接近Opus的水平。

参考链接:
https://www.anthropic.com/news/claude-opus-4-8
https://claude.com/blog/introducing-dynamic-workflows-in-claude-code
https://x.com/stevibe/status/2060055250128847244?s=20
标签: ClaudeOpus4.8 AI模型升级 技术测评 动态工作流 代码缺陷
还木有评论哦,快来抢沙发吧~