原创 关注大模型的 机器之心
机器之心报道
机器之心编辑部
开源社区有福了。
说到做到开运真人app下载苹果版,开运真人app下载世界杯直播,马斯克承诺的开源版大模型 Grok 终于来了!
就在今天凌晨时分, 马斯克所拥有的旗下大模型公司xAI, 对外宣告正式开展开源行动, 所开源的是具备3140亿参数的混合专家, 也就是MoE模型「Grok - 1」, 还有该模型的权重, 以及该模型的网络架构, 没错。
这也使得Grok-1成为当前参数量最大的开源大语言模型。

封面图是依据Grok给出的提示, 借助Midjourney创作而成的, 呈现的是神经网络的3D插图, 其节点拥有透明的特性, 连接之处散发着光亮, 以粗细以及颜色各异的连接线来展现不同的权重。
这个当口, 马斯克肯定是不会忘掉去讥讽OpenAI一下的, 他说, 「我们想要搞清楚更多OpenAI的开放之处」。

返回至模型自身, Grok - 1 由起始处着手训练, 而且未针对任何特定应用开展(比如对话等方面的)精细化调整开云真人app官网登录app,与之呈相反态势的是, 于 X(原先的 Twitter)这个平台上可供使用的 Grok 那般庞大的模型是经过精细化调整之后的版本, 该模型的行为呈现与原始权重所对应的版本并非一致的情形。
Grok-1 的模型细节包括如下:
大量文本数据被用于基础模型的训练, 在此过程中, 并未针对任何具体任务开展微调。
3140亿参数的MoE模型, 在给定的token上, 其激活权重是25%。
2023年10月, 由JAX库与Rust语言构成特制训练堆栈, xAI据此自起始点展开训练。
xAI将遵守Apache 2.0许可证去把Grok - 1的权重与架构进行开源, Apache 2.0许可证规定用户能够不受限制地对软件加以使用、修改以及开展分发活动, 无论是供自身个人运作或者投入商用于任何场景。当项目发布仅仅经历短短的四个小时之时, 其已经收获了3.4k星标, 并且热度依旧在持续朝着上升方向发展。

项目的地址是, https://github.com/xai-org/grok-1。
这个存放相关内容的库里面存有用来加载以及运行Grok - 1开放权重模式的JAX示例性质代码,在去使用它之前, 用到该功能的人得保证预先就把checkpoint给拿下, 并且还得把ckpt - 0这个目录搁到那个被叫做checkpoint的里面然后, 去运行接着要给出的下面部分此类代码做相关测试:
通过pip工具安装, 依据requirements.txt文件进行安装, 之后运行用于执行有关操作的名为run.py的文件。
项目说明里着重表明 , 鉴于 Grok - 1 是个有较大规模 (314B 参数) 的模型 , 所以得要有具备充足 GPU 内存的机器方可运用示例代码去测试模型。除此之外 , 该存储库中 MoE 层的实现效率欠佳 , 当初选用此实现是为了防止要去自定义内核以验证模型的正确性。
可供用户运用的是Torrent客户端, 并且呢要依靠这个磁力链接去下载权重文件。
这是一串磁力链接代码, 其中包含了特定的哈希值, 还有多个不同跟踪器的链接地址。 它的格式是这样的, 先是“magnet:?xt”字段, 后面跟着“urn:btih”, 再接着是一串长长的哈希值, 那个哈希值由许多数字和字母组成, 然后又有“&tr”字段, 后面跟着不同的跟踪器链接, 有一个是通过“https”协议的网址, 另一个是“udp”协议的地址, 还有一个也是类似的“udp”协议地址并且带有端口号。
瞧见这, 有网友开始心生好奇, 那参数为 314B 的 Grok - 1 究竟得具备怎样的配置方可运行呢。针对此, 有人给出了答案: 或许需一台拥有着 628GB GPU 内存的机器(每个参数是 2 字节)。依此计算, 8 个 H100(每个为 80GB)便行了。

广受知晓的机器学习这项领域的研究者、那本名为《Python 机器学习》且销量可观有着很高人气的书籍的作者 Sebastian Raschka 作出这样的一番评论, 说道: 「Grok - 1 要比其他一般而言常常带有使用方面限制条件的开放权重模型在开源这一方面表现得更为突出些, 然而它所具备的开源程度是无法和 Pythia、Bloom 和 OLMo 相提并论的, 后面这几种模型可是附带了训练代码以及能够进行重复验证可加以重现的数据集的。」。

DeepMind从事研究相关工作的工程师Aleksa Gordié作出一种预测, 该预测表明, Grok-1所具备的能力应当会比LLaMA-2更具优势, 只是, 到目前这个阶段, 仍然无法确切知晓在多大程度上数据遭受了污染。另外还要说明的是, 这两者在参数量方面并非处于同一个级别。

还有一位推特用户, 其账号为@itsandrewgao, 对Grok-1的架构细节进行了详细分析, 并且做出了以下几点总结。

首先, Grok - 1有着8个专家的混合状, 其中2个处于活跃状态, 它具备860亿激活参数, 这一数值比 Llama - 2 70B更多, 在嵌入方式上, 它采用的是旋转嵌入, 而非那个固定位置嵌入。

tokenizer 的词汇大小是 131,072, 这类似于 GPT - 4 是 2 的 17 次方, 其嵌入大小为 6,144, 也就是 48 乘以 128, 还有 64 个 transformer 层, 每层都有一个解码器层, 其中包括多头注意力块和密集块, 每个块的键值大小是 128。

用于查询的多头注意力块, 有48个head, 用于键/值(KV)的有8个, KV大小是128。带加宽因子8及隐藏层大小32768的密集块(密集前馈块), 每个token从8个专家里选择2个。

旋转位置嵌入的大小是6144, 它跟输入嵌入的大小是一样的。上下文的长度为8192个tokens, 精度是bf16。

此外还提供了一些权重的 8bit 量化内容。

尽管如此, 我们依旧期望, xAI官方能够尽早披露, 更多有关于Grok-1的模型详细情况, 具体内容。
Grok-1 是个什么模型?能力如何?
Grok, 一款大型语言模型, 是马斯克xAI团队于去年11月推出的。在去年11月的官宣博客中(可参见《马斯克xAI公布大模型详细进展, Grok只训练了2个月》), xAI进行了如下写道:
Grok是AI, 该AI仿照《银河系漫游指南》设计, 它能回答几乎任何问题, 更难得的是什么呢, 它甚至还能够建议你去问什么样的问题!
Grok在回答问题之际, 稍微带着点儿诙谐以及叛逆, 之所以如此, 是因为要是你厌恶幽默的话, 那就千万别去使用它!
Grok 具备一项独特且基础的优势, 那便是, 它能够借助 X 平台切实及时地知晓世界。并且, 它可以回应那些被绝大多数其他 AI 系统驳回的尖锐问题。
Grok依旧是处于极为早期阶段的测试版产物, 这是经由两个月训练所获致的最优成效, 正因如此, 祈望凭借您的协助, 它能于测试期间快速提升。
xAI宣称, Grok-1的研制历程持续了四个月, 在这四个月当中, Grok-1历经了数次迭代。
公布了xAI创立的消息之后, 他们训练了一个LLM原型, 这个原型有330亿参数, 它叫Grok-0, 这个早期模型在标准LM测试基准上 的能力接近LLaMA 2 (70B), 不过却只使用了一半的训练资源。其后, 他们针对模型的推理能力, 进行了重大改进, 他们又针对模型的编码能力, 进行了重大改进, 最终, 他们开发出了Grok-1, 这是一款相较于从前更为强大的SOTA语言模型, GroK-1在HumanEval编码任务里, 达到了63.2%的成绩, GroK-1在MMLU中, 达到了73%。
xAI针对Grok - 1开展了一系列评估, 运用了一些标准机器学习基准, 这些基准旨在对数学和推理能力予以衡量。

在这些基准测试里头, Grok - 1展现出了强劲的性能, 它超过了其计算类别里的所有别的模型, 其中涵盖GPT - 3.5以及Inflection - 1。只有像GPT - 4那样运用大量训练数据和计算资源来训练的模型才能够超越它。xAI表明, 这呈现出了他们在高效训练LLM方面所取得的快速进展。
可是, xAI 还宣称, 鉴于那些基准能够在网上搜寻到, 所以他们没办法排除模型有可能无意间在那些数据上开展了训练。于是, 他们在把数据集搜集完成以后, 依据去年 5 月底(就是数据截止日期过后)公布的 2023 年匈牙利全国高中数学期末考试题目, 针对他们的模型(还有 Claude - 2 和 GPT - 4 模型)进行了人工打分。结果, Grok 通过考试的成绩是 C 级, 占比 59%, Claude - 2 取得了与其相近的成绩, 占比为 55%, 然而, 取得 68%成绩的 GPT - 4 获得了 B 级。xAI 表明, 他们未曾专门针对这一考试去准备、调配模型。

以下这张表格, 呈现出了Grok - 1的更多讯息, 其源自在2023年11月发布的博客, 其中部分信息, 或许存在着更新的情况:
细节方面, Grok - 1 属于自回归模型, 其构建基于Transformer , xAI 借助大量来自人类以及早期 Grok - 0 模型的反馈对该模型做了微调, 初始状态的 Grok - 1 具备处理 8192 个 token 上下文长度的能力, 此模型于 2023 年 11 月被发布。
作用预期: Grok-1 会化作 Grok 背后的那个引擎, 被运用到自然语言处理的任务当中, 这些任务涵盖了以下种种, 即问答, 还有信息检索, 以及创意写作, 再有编码辅助。
存在这么一个局限性, Grok - 1在信息处理这块展现出比较出色的表现了, 可是呢也至关重要让人类去检查Grok - 1的工作情况以此来保证准确性, Grok - 1所属的语言模型它并没有自成一家独立去搜索网络的那种能力, 在Grok当中去部署搜索类工具和数据库能够使得模型的能力与真实性获得更强力量, 虽然说可以去获取外部的信息源的相关信息, 可令人无奈的是这个模型还是会不经意间产生幻觉。
还木有评论哦,快来抢沙发吧~