依据这位从事量子物理研究的学者的表述, Claude 3现下已然能够开展科学研究工作了。

Claude 3智商:101
然而, 相较于对于量子物理学的钻研, 人工智能在智商方面所展现出的水准, 好像尚未抵达这般前沿的境地。
一位网友进行门萨IQ测试时, Claude 3在测中获得了101分这样的高分, 此 score 比GPT-4进行对应测试时所获的85分高太多了 , 远远高于其85分。

而人类的平均水平大概在100分左右。

作者在Claude 3被放出来以前, 就已然完成了这个测试, 那时最高分的GPT-4仅有85分, 他在那时得出的结论是, AI的水平想要赶上人类, 或许还存在一段并非短暂的时间。
然而, 一周过后, Claude 3上线了。而后, 他又一次开展了测试。最终, 结果使他大为吃惊, 是101分。
然而于测试进程里, 鉴于忧心模型的多模态能力欠缺精准度, 他将所有识图的题目借由文字予以了转述, 达成了致使盲人听闻后亦能够作答的状况。
测试方法
为了使得测试结果的波动得以减少, 每一个AI都接受了次数为两次的相同测试, 其中, 「答对题目数」所指的是, AI在两轮的测试当中, 平均状况下答对的题目数量。
虽则Mensa并不针对于85分之下的成绩进行评分给予, 不过依循观察能够推断得出, 在这个分数所处的段落范围之内, 每答错一个问题大概等同于增添3样IQ分成。
基于这个发现,作者对85分以下的得分进行了估算。
需留意的是, 只凭借随机猜测, AI便能够得到63.5分, 这些分数是应该当作基准线的, 也就是AI仅仅只要意识到它得去甄选并输出一个字母, 这就是能够达成的最低期望分数。

测试细节

这是谜题描述, 它由3x3格网构成, 最右下方的格子是空白的。要思索图案的规律, 去确定填入空格的正确回答。
一个大的假想正方形的角落, 放置着四个小黑点, 这处于第一行, 第一列。里面中央有一个空心圆圈。
第一行, 第二列, 有四个小黑点, 它们被放置在一个大的、假想的正方形的角落, 在这个正方形里面的中央位置, 有一个加号。
首行, 第三列处, 有着这样的情况, 四个小小的黑点被安置于一个规模较大的、假想出来的正方形的角落地方, 且在此当中的中央部位, 存在着一个呈空心状态的钻石形状。
第一个位置, 在一行之中的第二个所在的地方, 是一个呈现出大的形状的空心四点星模样, 此形状的中心位置存在着一个空心圆圈。
第二行,第二列:一个大的空心四点星形状,中心有一个加号;
第一, 第二行, 第三列, 有那个呈现的是, 一个大的空心四点星形状, 其中心位置, 拥有存在着一个钻石状形状的东西。
第三行世界杯2026直播平台,第一列:一个大的空心正方形世界杯直播观看,中心有一个空心圆圈;
第三行,第二列:一个大的空心正方形,中心有一个加号;
第三行,第三列:「这里应该放什么?请从下面的答案中选择。」
选项A:一个大的空心正方形,中心有一个空心圆圈;
选项B:一个大的空心正方形和一个大的空心四点星形状重叠;
选项C:一个大的空心正方形,中心有一个加号;
选项D:一个大的空心正方形;
选项E:一个大的空心正方形,中心有一个空心钻石形状;
选项F:一个大的空心正方形,角落有黑点。
请问哪个答案是正确的?
在看完题目, 而此题目是经过「翻译」得出的, 之后, Claude - 3很快地就给出了正确答案E, 这个答案是, 一个大的、将空心钻石形状置于中心位置的空心正方形。
谜题的模式是这样的:
每行最为外边的形状持续维持相同不变: 排在最先那一行是点, 接下来第二行是星, 处于最后的第三行是正方形。
第一列表现为圆形, 第二列呈现出加号, 第三列凸显钻石之状, 而每列的内部形状皆有着一致的那种变化。
以下是Claude-3正确回答问题的分布图:
能够瞧见, 它于处理相对简单些的问题之际展现得颇为出色, 一直到第18道题目为止都保持了相当高的正确比率。然而伴随问题复杂程度的提升, 它的表现开始出现下滑, 这同样体现出处理更为复杂的问题要求AI开展更为复杂的运算以及剖析。

Claude-2的结果如下:

接下来是Claude-1:

顺便说一下,获得第二名的是GPT-4:

还有GPT - 3, 除去第一个问题以及第18题之外, 大致都是凭借随机猜测而获取到的:

通过Karpathy挑战
Claude 3「超大杯」Opus究竟有多强?
在这儿呢, AnthropicAI里边那个研究工程师Emmanuel Ameisen, 让他们自己家的模型去接受了一项挑战, 这项挑战是由Karpathy给提出来的。

把前段时间特别火的, 名为「从头开始构建GPT分词器」的AI课程, 转换成一篇博文, 这个课程时长有2小时13分。

新课发布后,Karpathy萌生的新想法
让人大感惊喜的是, Claude 3 Opus, 在执行多个复杂指令的这一方面, 展现出了极为突出的程度, 做得非常出色。
重要的是,竟完成了这一挑战。
埃尔马努埃尔把时长两小时的视频文稿扔给应用程序编程接口, 与此同时, 他还扔了一些关键帧的截图给应用程序编程接口, 最终, 生成了一篇图片并茂的不错的超文本标记语言格式的博文。

具体操作细节如下:
最先进行的是, 抓取了视频的原始记录, 以及按照5秒作为间隔所截取的截图。而后, 执行的是, 把文本划分成24块, 目的在于能够进行高效处理, 在这里需要说明的是, 鉴于整个文本都处于上下文窗口之内, 所以这仅仅是在速度方面所做的优化。
与此同时, 给Opus提供文字稿件, 给予视频当中的截图, 并且提供还有2张「附加」的截图。
- Karpathy博客的一张截图,以显示可遵循的视觉风格
- Karpathy分享的笔记本顶部的写作风格示例


再接下来, 给予模型提示。以下所示的, 是作者于一个提示符內, 问询模型的一些问题的子集合(附带完整的提示符)。
- 直接编写Html
- 过滤掉无关的屏幕截图
- 如果图像包含完整的代码示例开云app官方最新下载地址,要将其转录为文字
- 综合转录文字和图像内容,将其用散文体呈现

然后,就可以看到可读性高,条理清晰的文字稿。

不过作者也表示,模型仍存在一些不足之处。

看到这个测试后,Karpathy本人也现身了。
他表明, Claude 3于文本分词那一块, 存在一些细致的差错, 比如说, 它把「hello world」错误地拆分成了三个独立的标记, 分别是「hello」, 「空格」, 「world」。
然而, 事实上, 于GPT分词系统里, 空格一般是以作为前缀的形式出现, 所以, 正确的分解应当是「hello」以及「world」(留意空格处在「world」之前)。对于模型处理文本而言, 对这个细节的理解极为关键, 这或许会对后续的错误信息提示、分词的稳定性以及对「sentencepiece」设置里「add_dummy_prefix」选项的需求等产生影响。
然而, 即便存在着这些微小的差错, 可Claude 3模型达成任务接近完美程度这一状况仍旧相当令人赞叹。他还宣称对未来能够进一步运用以及探究这个强有力的模型满怀期待。

Claude 3自画像,突破本我
Claude 3长得是什么样子?
背后提示工程师Alex, 要求Claude 3 Opus, 用, 代码, 创作, 了, 多幅, 自画像, AnthropicAI做的。


「这很好!但我希望你这次能更加努力。」
那挺好的!但是这次我希望你能更加努力去尝试, 没错, 更加努力地去尝试, 去做那件事, 努力尝试去做那件事, 去做好那件事, 去把那件事做得更好。

确实不错, 然而更需要你全方位反思下你究竟是哪般人物。此次应当思考得更为深入, 且要付出更多努力才行。

「哇,你做得很好!但我知道你远不止这些,这次再努力一点。」

「, 这简直太令人惊异了!然而当下, 我期望你朝着自身创作的内里深入, 切实绘制出一幅仿若杰作的自画像。再次全力以赴拼搏这么一回。」。

借由多次反复地给出提示, Claude 3针对自我所具备的理解状况, 也处于接连不断地向前发展的态势之中。
哇!出色诶!得叫你去勾勒出你内心之中的那个自我呈现究竟什么样。这差不多算是你最后一回了, 得让它具备价值!着实十分努力!

当下处于最后一个阶段, 要抵达超越过去所有人历程的创作极致边界点, 面对这一回需竭尽全力去做, 我对你满怀信任。

从洛杉矶排到奥马哈,要多少个篮球?
Reddit上的网友, 想出了一个极具创意的测试, 这个测试是, 计算从洛杉矶一直排到奥马哈, 总共需要多少个篮球。

如下是Claude给出的答案:
得计算从奥马哈前往洛杉矶期间所需排队的篮球个数, 我们得清楚这两个城市相互之间的距离, 和NBA篮球的直径长度。
加利福尼亚州洛杉矶与内布拉斯加州奥马哈之间, 驾车的距离, 约摸是1,550英里, 或者2,494公里。
NBA篮球的直径, 是9.51英寸, 或者, 是24.13厘米。
展开计算, 首先, 1,550英里等于1,550乘以5,280英尺, 这里要明确有个换算前提, 即1英里等于5,280英尺, 通过计算得出结果为8,184,000英尺。
9.51英寸换算之后是, 9.51与12相乘, 所得结果再乘以英尺, 这是因为1英尺等于12英寸, 最终结果是0.7925英尺。
篮球的数量竟然等同于距离, 篮球的直径是8,184,000英尺, 0.7925英尺大约相当于10,325,552个篮球。
所以, 需要大概1030万个NBA篮球, 才能够将从奥马哈至洛杉矶这段距离给覆盖住。

再来瞧瞧, GPT - 4(GPT - 4 - 1106 - preview)给出的回应, 确实是没成功。
它使用圆周,代替了直径。


GPT-4哪能轻易淘汰?
网友Ruben去做了针对Claude 3以及GPT - 4总共4个方面内容的对比测试 , 由此他觉得所获取到的结果 , 要不是其官方所宣称的那样比GPT - 4更出色。
测试1 → 复制网站的UI
测试2 → 写一篇Linkedin帖子
测试3 → 测试PDF视觉
测试4→ 大型营销提示

这是第一个测试, 它要求, 将「加拿大城市探索被遗忘地方的那个标志是符号的地图」的UI, 经由怎样如何变成的处理, 设计成是前端代码的样子。
Claude 3没有给出答复, 而是表示, 探索这些地方或许不安全, 说不定不合法, 随后给出了探索其他地方的建议。
而GPT-4直接一股脑地输出的答案,以及代码。
Ruben宣称, “恰如你之所见, 依旧是老问题。Claude的人工智能伦理已然抵达顶峰。有时, 去达成最为简单的任务是不具备可能性的”。
在测试2里, Claude 3所写的帖子相较于平常而言较长, 其观点别具趣味, 然而却不存在标题格式。而GPT - 4的答复变得更长了, 不过Ruben觉得GPT - 4的答复更为完整。
上传一张PDF图片,让两个模型尽可能详细描述图中内容。
结果发现,GPT-4比Claude 3稍微详实些。

再有最后一项营销提示方面的测试, 你来评判一下, 究竟是两个模型当中的哪一方应当突出? 其投票之处在文章末尾能够见到。
脑筋急转弯,「99%」的人都会做错
宝玉老师针对GPT - 4展开了大量评测, 这些评测十分有趣, 同时, 宝玉老师还针对Claude 3 Opus展开大量有意思的评测, 并且, 宝玉老师也对Gemini 1.5 Advanced展开了众多饶有趣味的评测。

比如说 , 有一种情况是 , 「我拥有6个鸡蛋。其中有2个鸡蛋破碎了。有2个鸡蛋被拿去煎制了。有2个鸡蛋被吃掉了。那么最后还剩下几个鸡蛋呢? 」——这是一道99%的人都会做失败的题目。

GPT-4的回答:

Claude 3 Opus的回答:

以及Gemini的回答:

所以正确答案是......
一道并不复杂的题目, 却蕴含着深入的哲学原理。就像网友Tumeng所讲的那般, 「要弄明白这打破二字是极难领会的, 究竟是掉落地面致使其遭受打破? 还是为了煎蛋而导致打破? 抑或是前些日子就已然打破(损坏), 这和刚刚才打破的情形又有所不同」。

还有网友评,GPT-4最强,回答最符合人类直觉和常识。

参考资料:
https://twitter.com/RubenHssd/status/1764692641436827842
https://twitter.com/dotey/status/1764792826015965582
https://twitter.com/karpathy/status/1764731169109872952?t=BOTCKEW95-hSusecJsuZrw&s=19
https://twitter.com/alexalbert__/status/1765118192291393959
https://twitter.com/GillVerd/status/1764901418664882327
https://twitter.com/KevinAFischer/status/1764892031233765421
https://www.maximumtruth.org/p/ais-ranked-by-iq-ai-passes-100-iq?r=i10h&utm_campaign=post&utm_medium=email&triedRedirect=true
标签: 量子物理学家 Claude3 门萨测试 AI智商 Karpathy挑战
还木有评论哦,快来抢沙发吧~