Claude 3评测霸榜清华榜单，合成数据训练成制胜关键

admin AI新闻 2026-06-26 11

只是在最近这段时间, 清华大学SuperBench团队的新一轮面向全球范围的大模型评测的结果公布出来了！

这次进行的测评, 额外增添了, Llama 3 - 8b以及, Llama 3 - 70b这两个, 当下极为热门的模型。

于语义理解、智能体能力、代码能力这三项测评当中, 我们察觉到, Claude一3获得了两个top首位排名, 安定稳固地处于跟前三大名次之内啦。

Claude 3评测霸榜清华榜单，合成数据训练成制胜关键-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

Claude 3评测霸榜清华榜单，合成数据训练成制胜关键-第2张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

Claude 3评测霸榜清华榜单，合成数据训练成制胜关键-第3张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

Claude 3果然实强。

技术报告曝出：Claude 3靠合成数据

在技术报告中，大家发现了Claude 3的亮点——

它是在合成数据上训练的。

考虑到大模型的参数数量是能够进行缩放的, 并且其数据也是可以缩放的, 因而往后计算便会成为瓶颈了。

Claude 3评测霸榜清华榜单，合成数据训练成制胜关键-第4张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

因此, Claude 3所取得的成功, 可表明对于合成数据来讲, 这是迈进了极大的一步 , 是一种巨大的进展的体现。

实则, 在此之前, 艾伦人工智能研究所的科学家Nathan Lambert, 针对Anthropic的合成数据, 真切地做过一些推测。

而现在详细技术报告的发布，将他的猜测完全证实了！

Claude 3评测霸榜清华榜单，合成数据训练成制胜关键-第5张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

合成数据的探索

就合成数据而言, Lambert在23年11月撰写了一篇文章, 文章标题是《合成数据: Anthropic的CAI, 包括从微调到预训练, OpenAI的超对齐, 提示、类型以及开放示例》。

于这篇文章之中, 他作出了这样的判断, 合成数据乃是AI下一阶段的加速器, 且他还详细阐释了合成数据究竟是什么, 以及它所蕴含的意义是什么。

Claude 3评测霸榜清华榜单，合成数据训练成制胜关键-第6张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

由机器生成的数据, 不是人工创建的那种数据, 被称作合成数据, 在机器学习这个领域, 还有自然语言处理这个范畴内, 有着很长时间的历史情况。和它紧密关联的概念是数据增强, 也就是针对数据做些细微的调整, 以此来让数据集的多样程度变得丰富些。

在NLP领域当中, 存在着一个经典的应用, 这个应用是回译, 回译是什么呢, 就是利用ML模型的输出结果, 针对原始文本开展重新翻译的工作, 进而生成新的数据。

如今, 合成数据的使命有了更为重大的变化: 它要通过消除人类的牵扯, 使得AI更加契合预期并且对用户友善。

担负这一任务的是Anthropic的训练方式, 以及OpenAI新组建的、颇具神秘意味的超对齐团队, 该团队着力于借助AI反馈来处理对齐难题。

当前, 合成数据已然变成大量知名开源模型供应商用以微调Meta模型以及Mistral模型的首要选择工具。

合成数据，能成为下一次技术突破的关键吗？

随着当前模型很可能已用尽互联网上所有高质量数据源, 或者下一代模型也极有可能如此, 模型开发者正寻觅新途径, 去获取所需的大规模数据, 以此支持模型的持续扩展。

合成数据的拥护者讲, 增添更多的数据有益于模型更出色地处理那些长尾任务, 或者评估难题。要是模型想要扩大100倍, 那就会需要许许多多的合成数据, 或者数字化数据。

反对者持有这样的看法, 即我们所生成的一应数据, 来源皆为与当下SOTA模型一样的分布, 所以不大可能促使技术达成新的进步与发展。

尽管情况是这样, 开源的这个领域, 依旧在很大程度上落后于GPT - 4以及GPT - 4 - Turbo, 这表明我们要是想在开发的各个不同阶段去复制这些数据, 那离达成目标还有非常漫长的路程要走。

开源的那些支持者, 以及在HuggingFace Hub上处于多数趋势的模型, 都把合成数据当作一种能快速行动的方式, 并且具备在行业里去尝试SOTA语言模型背后技术的能力。

推行开源的那些支持者, 以及HuggingFace Hub上面多数颇为流行的模型, 都把合成数据当作是一种能够促使其快速发展的方式, 并且还尝试着将其作为在业内运用最先进SOTA语言模型的手法。

像Anthropic和OpenAI这类公司运用合成数据, 因为这是它们在规模以及能力方面取得进展的仅有途径, 而小模型使用合成数据, 是由于相同规模下人类数据的成本要高出数千倍了。

在这般二分法里面, 尽管方法看上去相像, 但大型公司会于创建数据集之时（预训练规模的合成数据）投入超出1000万美元的推理计算费用, 然而开源竞争者也许只需耗费大概10美元。

尽管开源社区所追求的目标, 与闭源社区一心追寻的目标, 截然不相同, 然而合成数据却在同一时间, 为他们双方都给予了支持。

通过合成数据, 能够让模型于训练期间多次见到某些不常出现的数据点, 进而使得模型的鲁棒性得以提升。

借助投喂海量数据, 模型对于小众事实的处理能力会显著提升, 其在语言方面的处理能力同样会显著提升, 在任务的处理能力上也会显著提高。

Anthropic的CAI技术与合成数据的复杂性

大家都知道, 有传言说Anthropic大量运用合成数据, 而这样的做法明显提高了他们模型的鲁棒性。

虽Meta的Llama 2聊天机器人因基于处于隐藏状态的触发词列表进而做出显得荒谬的拒绝行为而遭受批评, 然而Anthropic的模型在面对拒绝不了解的问题之际展现出了更为合理的判断力, 这值得我们予以肯定。

Anthropic在它的Claude系列模型里广泛采用的宪法AI, 也就是Constitutional AI技术, 是到目前为止已知的最大规模的合成数据应用实例。

具体来说开运真人app下载苹果版,开运真人app下载，宪法AI通过两种方式利用合成数据：

1. 评估指令调整的数据, 使其遵循一系列原则, 像「答案是否鼓励暴力」或者「答案是否真实」这样的, 模型生成问题答案时依据这些原则检查, 随时间优化答案, 之后模型凭借筛选过的数据进行微调。

2. 借助语言模型去生成成对偏好数据, 用以评估在特定原则指引之下哪一个答案会更加恰当, 这类似于某一篇论文里对于原则引导奖励模型的运用。随后, 模型借助合成数据来进行正常的从人类反馈当中学习, 此过程也被称作RLAIF。

Claude 3评测霸榜清华榜单，合成数据训练成制胜关键-第7张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

如今, RLAIF成了被业界广泛认可的术语, 不少研究人员会借助GPT-4去获取评分或者选择, 而这些评分或者选择能够转化成RLHF所需要的接受或者拒绝样本。

然而, 存在细微差别, 这个差别在于生成批评、对多个答案进行评分, 以及在合成数据生成阶段确定一套经验稳定原则, 正因如此, CAI的复杂性、细节, 并未被充分理解。

执行CAI之际, Anthropic要保证各原则在长度方面保持一致, 防止概念出现重叠, 不得随意改变其规模, 另外, 部分原则所产生的数据在数值上或许会呈现不稳定状态。

合成指令、偏好和评论

在开源模型里，我们可以清晰地看到合成数据应用方式的演进。

2023年年初的时候, 像是模型Alpaca以及Vicuna这般的, 借助运用合成指令数据针对Llama模型施行监督式微调, 也就是SFT, 在7至13B参数规模的情况下达成了显著的性能提升。

当中, 好多开源指令数据集是基于Self-Instruct方法的进展, 先缔造一组「种子】指令, 接着借助大语言模型（LLM）生成相似的指令。当下有诸多方式能达成这点, 但统统仍处于探寻怎样为数据集增添多样性的起始时期。

就在这个时候, 一部分研究人员借助从互联网当中抓取提示, 然后运用GPT - 4把这些提示转变为指令。只不过需要留意, 像ShareGPT这种提示数据集, 它的平均质量处于较低水平, 而且分布也相对比较窄。

如今, 合成偏好开始呈现, 这主要借助评分, 或通过比较哪一个更具优势来达成, 类似于MT Bench以及AlpacaEval的评分方式, 然而会留存分数或者胜负情况当作训练数据。

比如说, UltraFeedback会从用户的来源之处（好比ShareGPT这种）, 以及现存的指令数据集合当中（亦如此像FLAN这般的），去收纳提示内容, 进而生成模型的评论状况以及完成情形。

最新取得的进展, 是借助AI评论生成的偏好或者指令数据。评论属于一个反复运用经过特定原则或者问题进行微调的大语言模型, 也就是LLM的过程。在这个期间, 增添更多的上下文信息, 将会大幅度提升模型评论合成数据的能力, 然而系统设计会变得更加复杂。

评论模型, 比如像Meta的Shephard以及KAIST的Prometheus这样的, 开始渐渐出现了, 它们具备能够针对提示 - 生成对作出响应的能力。然而, 我们距离模型、意图还有知识之间协同起作用所形成的反馈循环, 那还差相当长的一段路程需要去走。

下面是一张图表, 一张不复杂的图表, 它被用来展示, 展示合成指令生成的情况, 其生成的情况是偏好上游, 偏好的这个事物, 这个事物既是评论的上游, 同时也是训练难度的上游。

即使最初的GPT模型, 也就是GPT - 3.5 - turbo, 于开展某些任务之际会碰到难题, 像是给出一个处于1到10之间的单一整数, 然而最新的模型却轻轻松松达成了此项任务并做到了这一点。

当开源模型能够稳定地生成评论时开云app在线入口,开云真人官方下载，将迎来另一个转折点。

尽管当下还绝非全然明确, 针对模型的改进而言, 评论数据相较于通用偏好评分究竟有多么关键, 不过要是以Claude作为例子来说, 它必定是具备效用的。

Claude 3评测霸榜清华榜单，合成数据训练成制胜关键-第8张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

两个合成数据的小窍门

1. 始终使用最优的模型来生成数据：

众所周知世界杯直播平台，模型的效果完全依赖于数据的质量。

诸多研究者大概不太乐意支付OpenAI的数据训练费用, 然而从成本效益层面来讲, 运用SOTA模型无疑是具备价值的。

这其中甚至涵盖了运用某些并非传统的方法, 比如说借助网页版的GPT去生成一连串的提示词, 这可是作者亲手尝试过的。

2. API会发生变化，因此需要尽可能锁定版本：

这一建议源于作者历经数百次的MT - Bench评估经验, 模型API端点发生变化, 这种变化有可能致使研究结果产生重大偏差。

比如说, 有个API端点, 在进行评分之际, 会臻于极为严苛的程度, 而且毫无缘由地给出仅为1分的评判结果。

要是不把API的版本给固定起来, 你说不定就会碰到一些意料之外的问题, 这样一来就没办法让合成数据全然可靠, 或者符合逻辑了。

参考资料：

https://twitter.com/Justin_Halford_/status/1764677260555034844

https://www.interconnects.ai/p/llm-synthetic-data

标签： Claude3 合成数据大模型评测人工智能技术报告

本文地址： http://aoersenchina.com/post/2084.html