
就在昨天的那个深夜时分, Google出人意料地发布了具有重大影响力的AI关键武器——Gemini。
多模态Gemini能够进行理解, 能够开展操作, 还能够实现不同类型信息的结合, 这些信息涵盖了文本, 涵盖了代码, 涵盖了音频, 涵盖了图像以及视频。
去年, GPT发布不到两周, Google就拉响「红色警报」应对挑战, 紧急上线Bard, 然而Bard首次亮相便出错, 一夜之间令Google市值蒸发1000亿美元。

在过去一年当中, 以大模型为基础构建的聊天机器人, 其单月访问数量已然超出20亿这一数值, 其中GPT处于显著的遥遥领先位置, Google Bard尽管位列第二, 不过将其跟几个与之具备竞争属性的产品一同归属到「其他」这一类别当中才更显得适宜。

图片来自:The Information
如此一来, Gemini 早已是被寄寓了要去赶超 GPT 的极大期望的, 不管到底是成功还是失败了的, 它都是 Google 往昔针对 AI 大模型拼尽全力、不顾一切所收获的成果。
能看、能说、能推理
发布的 Gemini 1.0, 总共正式宣布了三种不一样的规格, 分别是中杯, 大杯, 超大杯。
中杯:Gemini Nano —— 最高效的设备任务模型
大杯, 是Gemini Pro, 它是适用于广泛任务扩展情况的, 最佳的模型。
Gemini Ultra, 它作为超大杯, 指代的是一款模型, 这款模型是最大的, 并且它还是最能够胜任高度复杂任务的。

先使繁杂的参数信息被暂且抛开, 接下来用几个案例去全方面让你了解Gemini的能力。

当你随意地画出一只鸭子, 从线条弯曲到鸭子模样形成, Gemini 都能够精确识别。给鸭子画上一条波浪形状的线, 它可以领会你话中之话, 精确地找出鸭子在水中游动的场景答案。
它能够以一种符合人性特点的方式, 去模仿鸭子所发出的叫声, 就算是借助流畅自然说得十分标准的普通话, 将鸭子的叫法表达出来开云正版app下载开云app在线入口,那同样不在话下。

呆着没事干的时候, 能够找 Gemini 玩一场游戏, 你用手指去指向某一个区域, Gemini 便可以讲出那个区域对应的国家, 以及该国具有代表性的事物。

三个仙人归入洞中, 猜猜那纸球在哪个杯子的下面, 即便手速再怎么快, 也没办法躲开Gemini的“眼睛”。

纱线拿到手, 却毫无头绪, 别着急, Gemini那聪明的大脑, 在看到纱线的瞬间, 就已经把成品给你安排妥当了, 你只需要依照样子去做就可以啦。

仅识别图像, 那算得上的只是Gemini的基础水准, 而当看到乐器时, Gemini居然还能够生成契合环境氛围的音乐, 这可真是令人惊叹不已, 难道不是吗?
Gemini有着解决谜题的能力, 有着分析图像序列的能力, 有着解释魔术技巧的能力, 有着具备记忆的能力, 有着关于那逻辑的能力, 并且在这些方面中的每一项Gemini都有着精通的表现, 都有着样样俱全的体现。
Google 也发布了文字演示版本,若你不想看视频世界杯2026直播平台开云手机入口app下载开云app官方入口网站,可以访问 https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html 查看。
也许是这个视频太过令人震撼了, 部分网友对Google的这个视频存在着「造假」可能性提出质疑, 然而Gemini很快会在Google AI Studio中向公众开放, 到那个时候就能分辨真伪了。
多模态 Gemini VS GPT-4
依 Google 官方所展示的情况来看, 在从自然图像、音频以及视频理解起, 直至数学推理这一整个范围里, Gemini Ultra 的性能于 32 个被广泛运用的大型语言模型(简称为 LLM)所进行研究以及开发的学术基准测试当中, 超越了 30 个当下最为先进的成果。
以 Google 所公布的测试结果而言, 于文本领域, 在常规推理范畴, 在数学方面, 在代码等领域, Gemini 的表现近乎是全方位地超越并压制了 OpenAI 的 GPT-4, 是的。

测试AI模型知识以及解决问题能力其中一种最流行的方式是MMLU(大规模多任务语言理解), Gemini Ultra在这个测试里, 以90.0%的准确率成为首个超越人类专家的模型, 相对比来看, GPT-4只有86.4%的准确率。

新的MMMU基准测试涵盖了跨越不同领域的多模态任务, 其对多模态大模型的检验程度更为高, 然而超大杯Gemini Ultra一样得到了59.4%的高分。
谷歌首席执行官桑达尔·皮查伊, 在接受《麻省理工学院技术评论》采访时称, Gemini之所以备受关注, 一个关键缘由是, 它本质上是个多模态模型, 如同人一般, 它并非仅从文本里学习, 还能够借助视频、音频以及代码来学习。
Gemini在这方面对多模态特性花费时间精心打磨, 此多模态特性是其原生特性, Gemini 1.0具备同时识别以及理解文本、图像、音频等多种不同类型信息的能力, 其理解信息的能力更为强大, 针对回答与复杂主题相关联的问题也能够应对自如, 在多模态的SOTA测试里, Gemini于图像、视频、音频的多模态方面测试水准再次处于遥遥领先的态势。

代码, 作为检验大模型水平的重要指标这其中之一, Gemini 1.0, 其跨语言工作以及推理复杂信息的能力, 是它所具备的强项, 它能够理解像Python、Java、C++等这类高质量代码。两年之前, Google推出了AlphaCode, 这可是首个在编程比赛里达到竞争水平的AI代码生成系统。

现在, AlphaCode 有第二代推出了, 此乃由Gemini微调的竞争性编码模型, 在与原始AlphaCode于相同的平台上进行较量之际, AlphaCode - 2在人类竞争对手里的得分为87%, 而之前AlphaCode的得分仅仅只有46%。
AlphaCode-2 技术报告地址
:https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
在技术报告里头, Google DeepMind(也就是 AlphaCode 2 的出品者), 分享了好多好多, 关于推理的时候搜索、过滤以及重新排名系统的细节。英伟达的高级科学家 Jim Fan, 一个劲儿地夸赞, 这些最新的成果, 简直称得上是 Google 的 Q*(简单来说能理解成是 AI 的大突破)。

那位被雇佣的人工智能首席执行官阿尔曼, 大胆地做出一项预测: “双子座人工智能刚刚把生成式预训练变换器给杀死了!”。

有一点值得提及, 即Google宣称推出了到目前为止最为强大、最为高效、最为可扩展的TPU系统, 此系统名为Cloud TPU v5p。

Cloud TPU v5p
Gemini 1.0 的训练, 是在 Google 内部所设计的, 张量处理单元, 也就是 TPU, v4 和 v5e 的人工智能优化基础设施之上开展的。

身为Google Cloud首席执行官的Thomas Kurian, 针对自家所拥有的产品, 毫无保留、极为大方地予以夸赞声称: “Cloud TPU v5p这一产品形态乃是我们一直到目前为止, 在功能层面最为强大、于可扩展性方面最为突出的TPU加速器, 它在训练模型时展现出的速度要比它的前代产品快2.8倍。”。
手机大模型的新玩家
对于新技术而言, 破圈的重要媒介是手机, Gemini若要大规模进入大众社会,Pixel 8必定是不二之选。
Pixel 8 Pro身为首款内置人工智能的手机, 在高新技术民用化之途已树立起良好口碑, 就已上手Pixel 8 Pro的用户反馈而言, Google将AI与手机终端应用可谓结合得颇为出色。
基于此情形, Google对外宣布, 中杯名为Gemini Nano的大模型, 自今日起始, 会于Pixel 8 Pro上正式开展运行。

消息一经传出, 那位名为PassionateGenius CTO的Morimoto, 已然按捺不住内心急切渴望, 迫不及待地想要去体验一番在Pixel 8之上运行大型模型的那种情况了!
Pixel 8 Pro 是首款为 Gemini Nano 专门设计的智能手机, 后续更新会加入两项专属拓展功能, 一项是「记录器摘要」, 另一项是「Gboard 智能回复」。
即便网络连接不存在, 记录器能够获取手机对话录音、采访、演示等内容的摘要, 强悍的终端硬件对此功能予以支撑, 经过优化的侧端算法使得「断网不断线」得以达成。

智能回复功能, 类似我们挂断电话后的自动回复, 然而, 与传统的固定内容相较, Gemini Nano 能够识别来信内容, 依据不同语句生成相应回信, 其语言更为自然亲切, 有着明星运营团队在社交平台回复粉丝的那种即视感。

当前, 这两项功能仅支持英文文本识别, 然而转念思考, 对于我们这些本身便买不到Google像素手机的人而言, 似乎并无任何影响, 不过呢, 那些能够买到Pixel 8 Pro的非英语国家用户, 还得再耐心等待阵子。
而在生产力这一方面进行优化, 在大洋彼岸, Pixel最终赶上了国内现有的基本水平。
新机首发之际, 类似照片以及视频的AI编辑功能, 成了Google新机的代名词,如今持续优化的AI编辑优化之举, 能让手机增添一件“专业编辑器” 的新装。
一种全新的具备清洁功效的功能能够协助将扫描文档里存在的污迹去除掉, 还能把污渍清除, 并且可以除掉折痕。当下仅仅需要于相册之中滑动几下, 就能够把图片里面的污渍消除掉。

凭仗 Google Tensor G3 的强劲功能厉害之处, Pixel 8 Pro 里的视频增强模型呢, 能够于云端对颜色进行调整, 也能够在云端对照明予以调整, 还能够于云端把稳定性进行调整, 并且能够在云端将颗粒度进行调整。

从官方所展示出来的对比情况来看, 视频之上被增添了一层具有鲜明特质的滤镜, 其颜色变得更为饱满, 明暗之间的对比度也变得更高, 尤其是处于夜晚的暗光环境之下时, 这样的AI优化所产生的效果会更加明显。

于诸多之人而言, 相较于视频编辑, 图像美化可能是更受期待之事, 尤其是于拍摄动态物体之际, 画面若模糊, 事后翻阅时定会使人留存些许遗憾, 而升级后的AI编辑能够把Google照片里的模糊全然消除。
往后, 记录自家宠物那些闪耀的精彩瞬间时, 再也无需担忧那个由相机未能清晰聚焦所引发的焦虑状况啦。
除此之外, Google针对多设备之间的联动予以了升级, Pixel Watch可成为手机解锁的别样方式, 还能助力你对不需要的来电予以忽略, 或者在接听电话之前对对象以及通话缘由进行确认。

倘若你能够购得 Pixel 8 Pro, 又或者已然身为 Google 手机的用户, 那么尽可以试着查验一番这些新颖的功能, 究竞否会演变成你选购或持续运用 Google 的驱动力量。
自打今天起始, 借由全新升级过后的Gemini Pro版本, Bard会达成更具高级程度的推理、规划、理解等诸般功能, 它在超过 170 个的国家还有地区供给英文版本。
Sundar Pichai在接受《麻省理工学院技术评论》采访时还讲道, Gemini Pro在基准测试里显现非常出众的表现情况, 于把它整合进Bard当中之际, 我能够凭借自身切实觉着它具有的优势之处, 我们始终对它维持着测试的进行, 所有各类任务的获得好评的比率都存在极明显的提升状况, 所以, 我们把它称作一直到现在最大的升级里面的一个。

现阶段, Bard所用的是Gemini Pro版本, 图片源自X用户@gijigae。
在随后的几个月当中, Gemini 将会逐步上线谷歌旗下更多的产品以及服务, 像是搜索, 广告, Chrome 还有 Duet AI 等等。
在12月13日时起, 开发者, 可以, 企业客户, 则能, 借此通过Google AI Studio, 或者, Google Cloud Vertex AI里的Gemini API, 来访问Gemini Pro。
当前, Gemini Ultra处于内测阶段, 且计划在明年年初将其提供给开发者以及企业用户, 到明年年初的时候, Google还会推出Bard Advanced, 使更多的普通使用者能够用上最为强大的Gemini Ultra。

谷歌首席执行官桑达尔·皮查伊, 在推出Gemini之际讲道:
每一回技术转变, 皆是能够推进科学发现的情形, 是可以加速人类进步的契机, 是有助于改善生活的机遇。
我坚信, 我们如今所目睹的和 AI 相关的那种转变, 将会是我们这一辈子里最为深远的, 其深远程度要远远大于先前的移动方面的转变, 也要大于先前网络方面的转变。
如果要达成AGI(通用人工智能), 那么便要求AI能够像人类那样从容不迫地处理不同领域、不同模式的复杂任务, 在这个进程当中, 除去基本的计算、推理等基础能力之外, 与之相对应的文字、图像、视频 等多模态能力也得跟得上。
曾有DeepMind提出了AGI的评估框架, 还提出了AGI的分类框架, 其中前两个阶段分别是:
AGI - 0, 是那种基本人工智能, 它能在特定领域、特定任务上展现出智能, 像图像识别、自然语言处理这类, 然而它没法跨领域、跨模态去开展学习、进行推理, 也没办法跟人类以及其他AI展开有效的、自然的沟通、形成协作, 还没办法感知、表达情感与价值。
AGI - 1, 是那种处于初级阶段的通用人工智能, 它在多个不同的领域以及各项任务当中, 都能够展现出智能的表现, 比如说像应答问题、进行摘要提取、开展翻译工作、参与对话交流等, 它还具备能够跨越领域以及跨模态去展开学习和推理的能力, 并且能够跟人类以及其他的人工智能进行基础性的沟通与协作, 同时也能够感觉到并表达出简单的情感以及价值。
Gemini的演示视频, 充分呈现出它对于各个模态交互有着深刻理解, 它具备能看的能力, 具备能说的能力, 具备能推理的能力, 能够感知并表达简单的情感与价值, 还让我们看到了AGI - 1的潜在可能性了。
本文由李超凡、肖凡博、莫崇宇合写
标签: AI Gemini ChatGPT 多模态 Google
还木有评论哦,快来抢沙发吧~