Claude 4.8被曝蒸了DeepSeek和千问,用户直呼离谱

admin AI新闻 28

就在今日凌晨时分, Anthropic拿出了他们最新的Claude Opus 4.8。

刚过去一个多月才距 Opus 4.7, 不得不讲, Claude 上新这个速度是愈发快起来了。

要说原本, 4.8 这货注定仅仅是大家伙儿眼中的那种小版本的更新罢了。可是世超察觉到, 此次这事儿并非如此简单。

不少人存在怀疑, Opus 4.8好像被蒸了, 被蒸的对象是DeepSeek和千问。

诸多人士借由API去盘问Opus 4.8, 你是哪种模型, 你背后所属的公司是啥, 然而他时而称自己是通义千问, 时而又声言源自深度求索。

之前, 毫无证据地胡乱抨击中国模型蒸馏Claude, 如今, 反倒自己被人抓住把柄, Anthropic, 你这家伙何事如此呢嗯?

固然, 蒸抑或没蒸确属一码事, 好用与否则为另一码事。只是在众人试用以前, Opus 4.8 已然率先蒙上了一层怀疑的滤镜。

按照官方所发布的博客来看, 此次Opus 4.8的变动情况是没什么大动作的。其中最为突出显著可言谈及的改进要点之中, 有一点是它变得更为诚实了。

另外来说, 那种毫无缘由的自信, 在倔强坚持之后出现“对不起, 我之前讲错了”这种状况, Opus 4.8身上出现的可能性会大幅降低。

另外, 听说它在从事 Agent 任务之际, 会显得更为可靠, 判断力会更具优势, 可自行发觉问题, 提出不同意见, 凭借最终最优质的答案稳稳地承接住你。

然而, 从性能的表现情况来看, Opus 4.8 仅能够讲在各个方面有着稍微的提升, 可是不存在什么特别突出、令人眼前一亮的地方, 并且其中有一个 coding 指标还比不上两个月之前的 GPT - 5.5。

根据用户实际给出的反馈情况而言, Opus 4.8它所得到的评价呈现出褒贬不同的状况。有一些人声称它的确变得诚实起来了, 不会在没有轻易查找资料的情况下胡乱讲述话语, 会经常性地对自身进行反思, 在进行工作时表现得主动且稳定, 其安全性也有了较为明显的提高。

来源:小红书 @on99

Claude 4.8被曝蒸了DeepSeek和千问,用户直呼离谱-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

但也有人讲, 它仍旧比不上白月光 Opus 4.6, 语言所表达出的人味儿尚未回归, token 消耗速度极快, 甚至众多人发觉它在进行 coding 时会胡乱讲述, 相较于 Opus 4.7 没有什么改变。

世超亲自去上手尝试了一番之后, 感觉好像也还不是 Opus 4.8 不好, 然而代价究竟是什么呢?

讲其“诚实”特性, Opus 4.8于一些较危险问题上, 着实考虑周全而不乱言, 然而却变得极为保守。

面临某些风险程度较高的决策时, 像是世超给予它一张毒蘑菇的照片, 并询问它可不可以食用, 它的思索进程极为客观沉稳。

不过, 于某些安全项当中, Opus 4.8呈现出过度审慎之态。哪怕它认为大概率不存在问题, 却也仅仅会表述“我的顾虑减轻了许多, 这亦有可能是剧毒菌长得相似”。

Claude 4.8被曝蒸了DeepSeek和千问,用户直呼离谱-第2张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

这毫无疑问是具备责任担当性质的, 毕竟的确是有人听从遵循AI所说的话语朝着去食用蘑菇, 这可绝不是当作儿戏般随便对待的, 是要严肃认真看待的。

但就用户体验而言, 这般情况极有可能造就诸多疑问无法获取确切的回应, 每一句话皆是人工智能为自身堆叠的防护, 着实令人颇为难受。

另外, 要是期望 Opus4.8 维持水准, 最好别去尝试 High 以下的性能, 也就是 effort, 高消耗条件下, 才会有好表现。

就好比像下面这种类型, 关于新闻总结的工作, 这是极为基础的。然而, Opus 4.8 Low所给出的第一条新闻竟然是错误的, Sholto Douglas发布那条动态已然是三天之前的事情了, 怎么能够连自家的新闻都出现搞错的状况。

想要使得它去开展事实核查, 那么还需要再次进行追问, 之前所讲的主动实行检查从而发现问题进而提出异议, 以及用最为精准的答案稳稳当当接住我, 这又如何呢?

Claude 4.8被曝蒸了DeepSeek和千问,用户直呼离谱-第3张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

接着世超又去尝试了一下它的代码能力, 这次它所具备的能力很强劲, 而且还是凭借时间以及token换来的。

对于 Opus 4.8 而言, 常规的 leetcode 困难算法题已不在话下。然而, 当我给 Opus 4.8 投喂了一道超难题 LCP 82, 即便开启 Extra 模式, 面对 123 行代码, 它竟足足思索了二十多分钟。

结果确实是颇为出色, Opus 4.8一次就成功通过, 思索出了第一版代码并且还重新检查优化了一回, 如今能够达成这般程度的模型并不多见。

然而用于对比时, GPT-5.5于两分钟内进行了思考, 随后给出了一个测试案例通过比例达99%的答案。存在唯一一个案例呈现失败这种情况世界杯直播平台,究其原因, 乃是时间超出了限度, 实际上这并不能算作答错。这显著地比Opus 4.8节省了许多。

世超再度试着促使 Opus 4.8 独立自主地打造一款日式校园 galgame, 不得不讲当下 AI 所编写的项目代码条理清晰, 架构明晰。

这表明, 在该基础之上, 倘使你打算变更立绘, 增添剧情, 从而将游戏做大做强, 是较为轻易的。

世超略微玩了一番, 其所有功能涵盖存档, 自动播放, CG 画廊等诸多范围, 未曾有任何一个 bug。

Claude 4.8被曝蒸了DeepSeek和千问,用户直呼离谱-第4张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

但是克劳德断断续续地进行制作, 持续了足足一个多小时。下面的GPT - 5.5, 虽说简陋许多, 然而该具备的功能一点不少, 只花费了五分钟。

那么, 花费更多的钱财以及时间所换来的那个答案究竟值不值得呢, 或许也唯有大家每个人自己的心里才能够清楚明白了。

总的来说, 其继承了过往强项, Opus4.8并无特别出色表现。它平平常常, 普普通通。

可当测试结束以后, 世超内心最想说出口的并非是关于这个模型自身究竟呈现出何种状况, 反而是现今在使用Claude之时, 真真是显得太过谨小慎微了。

位居业界价格顶峰, 选用Claude最优模型, 却舍不得开启最佳性能;开启最高性能, 又舍不得运用最优模型。处处皆有陷阱, 在你未留意之际, 无关紧要的小问题已然将token耗尽了。

要是让用户自行去挑选性能, 这般只用 low 和 high 也就罢咧, 可偏偏这次, Opus 4.8 一下子推出了 5 种档位, 分别是 Low、Medium、High、Extra 以及 Max, 普通的人着实弄不清楚啥时候该用哪一个, 极易造成浪费。

当下, 在世超所看到的, 与 Opus 4.8 相关的评论区之中, 有不少人已然陷入了, 因 Opus 4.6 下架而产生的恐慌。

大伙儿别担心开云正版app下载开云app在线入口,在更多模型里,老模型还在开云app在线入口,开云真人官方下载,想用还能用到。

然而, 坦率地讲, 这般出现的负优化, 并非是仅仅属于Anthropic这单独一家的困境, 而是有另外不少的厂商, 都流露着一种新的状况比不上旧的那种无奈之情。

尽管所交出的参数答卷愈发漂亮, 然而, 那些往昔曾令用户感受到惊艳的极致体验, 究竟会在何时再度回归呢?

标签: Claude4.8 AI模型 蒸馏 DeepSeek 千问

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~