谷歌Gemini能看懂视频和手写题，猜对纸团在哪

admin AI新闻 2026-06-08 24

视频里有个男子, 做出了后仰动作, 还进行了躲避, 为慢动作, AI立刻就猜出, 这呈现的是表演《黑客帝国》里“子弹时间”的场面。

当人类把画笔拿起作用到一张纸上, 对一只鸭子进行勾勒, 之后又给它涂上了蓝色。在这个时候, AI说出这样一番话: “这可不是鸭子平常所具有的那种颜色。”。

有三个空杯, 它们并排着安放在桌子之上, 有一张呈现蓝色的纸团, 被塞入到了这三个杯子当中的其中一个里面, 在经历了人类那一系列令人目不暇接、眼花缭乱的操作以后, AI精准无误地猜出: “纸团是在最左边的那个杯子里！”。

将一张手写的物理题, “喂”给AI, 它不只是能够看懂, 并且还会判别手写答案的正误, 同时给出一步步解决问题的具体情况。

把食材图像进行上传, 将语音进行输入, 如此情形之下, AI不但能够针对做菜这件事给予你指导, 而且还能够于不同阶段之际提出与之相应匹配的建议。

在12月6日, Google展示其那会儿刚刚推出的AI大模型 Gemini, 呈现出了此类片段场景。

做完一系列视频演示后, Google DeepMind产品副总裁伊莱·柯林斯对包括第一财经等的媒体讲, 所谓这是Google迄今为止功能极度强大、极为通用的大模型, 而也正是他说“我们离新一代人工智能模型的愿景愈发靠近了”。

同市面上现有的大模型相较而言, Gemini从起始之时便被打造成为多模态的模型, 这所蕴含的意义在于它能够将不同类型的信息, 像是文本、代码、音频、图像以及视频, 进行归纳, 并且能够顺畅地予以理解、实施操作以及进行组合。在灵活程度方面, 不管是从数据中心直至移动设备, 它都具备运行的能力。

被视作Google在AI大模型领域放出“大招”的是Gemini, 多年前, Google凭借AlphaGo的惊艳表现于全球掀起一波AI浪潮, 然而这一回, 在由OpenAI的GPT引发的AI新浪潮里, Google遇到不小压力, 当下, Google急切需要一款现象级AI产品, 用以证明自身在人工智能领域的实力。

谷歌Gemini能看懂视频和手写题，猜对纸团在哪-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

能打败GPT4吗？

刚好在Google发布其最新大模型之前, 微软才宣布了旗下AI助手Copilot有重大升级, 并且要接入OpenAI那最新的模型GPT - 4 Turbo。

第一时间转发并评论的那个人, 是英伟达AI科学家Jim Fan（范麟熙）, 在Google公布相关消息之后 , “迟到总比不做好！终于有了OpenAI王座的有力竞争者。”这样一句话被他说了出来。

Google首席执行官桑达尔・皮查伊评价, Gemini这个新时代的模型, 代表着Google作为一家公司在科学以及工程方面所做出的最大努力之一, 他同时提到, 这还是Google今年早些时候建立Google DeepMind时的愿景首次达成。

今年4月, 或许是察觉到OpenAI联手微软所带来的挑战, 并且为求加速达成通用人工智能, 也就是AGI的目标, Google把曾经诞生了Tensorflow与Transformer的Google Brain团队, 还有凭借AlphaGo掀起上一轮AI热潮、创造了AlphaFold预测蛋白质折叠的DeepMind团队进行合并, 成立了Google DeepMind, 这一团队还被外界戏称为“AI复仇者联盟”。那时, 原Google AI产品负责人Eli Collins开始担任新职务, 担当新团队的产品副总裁。

今儿, Google Deepmind发布了首个版本Gemini 1.0, 它针对不一样的尺寸做了优化, 这些尺寸分别是Ultra、Pro以及Nano。当中, Gemini Ultra是当下Google规模最大且功能最强的模型, 它适用于极为复杂的任务；Gemini Pro是用于多种任务皆可扩展的模型；Gemini Nano主要是用作端侧设备上的模型。

Gemini发布之后, 外界最为关注之事乃是其于OpenAI GPT4所构成的挑战, 于面谈期间, 记者正向Eli Collins提出问题曰: “Gemini可否战胜市面上涵盖GPT4在内的全部大模型? ”。

Eli Collins在回答里表明, 团队始终都在对Gemini模型开展严谨的测试, 并且评估它在各类任务当中的性能。从自然图像理解方面, 音频理解方面, 视频理解方面再到数学推理方面, 在被大型语言模型研究以及开发广泛运用的32项学术基准当中, Gemini Ultra的性能有30项均超越了当下最先进的水准。

他引用了源自MMLU的测试结果, 表明Gemini Ultra的得分率是90%, 它是首个在MMLU测试里超越人类专家的模型, MMLU综合运用了如数学、物理、历史、法律、医学以及伦理等57个科目, 来测试世界知识与解决问题的能力, 作对比时, 人类专家的得分率为89.8%, GPT4得分率是86.4%。

Gemini Ultra在多模态方面, 于新的MMMU基准测试里, 取得了59.4%的SOTA分数。该基准测试由跨不同领域的多模式任务构成, 需大模型开展一个深思熟虑的推理过程。

谷歌Gemini能看懂视频和手写题，猜对纸团在哪-第2张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

在一系列基准测试里, 这一系列基准测试涵盖文本以及编码, Gemini的性能高出了当下最为先进的水准。

令业界关注的是, Goolge Gemini大模型其多模态背后的技术原理, 撰写了60页技术报告来阐述这一原理的是Goolge DeepMind首席科学家杰夫·迪恩团队。

截至当前, 构建多模态模型的常规办法, 乃是各自训练不同模态的部件, 接着把它们组合到一块儿, 以此大致模仿某些功能。这些模型偶尔能够出色地达成诸如描述图像之类的特定任务, 然而在那些概念性更为突出、更为繁杂的推理层面, 却显得难以胜任。

据DeepMind首席执行官戴密斯·哈萨比斯透露, 该团队把Gemini设计成原生多模态, 在一开始就在不同模态上予以预训练, 并且随即予以相应训练。接着, 借助其他的多模态数据对其加以调理, 从而进一步提升其成效性。这有益于Gemini从起始阶段能够对于输入的种种内容顺利通畅展开理解以及推理, 而且要比现有的多模态模型更为出色。

复杂的多模态推理能力, 有助于理解复杂的书面信息, 也用于理解复杂的视觉信息, 凭借这两点, 可以在海量数据里发掘那些难以辨别的知识内容, 还能用来回答与复杂主题相关的问题, 特别擅长解释数学这类复杂科目中的推理, 也擅长解释物理这类复杂科目中的推理。

谷歌Gemini能看懂视频和手写题，猜对纸团在哪-第3张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

比如在解题的时候, 凭借Gemini的多模态推理能力, AI可以读懂那些字迹乱七八糟的手写内容, 准确理解问题的表述, 还能够把问题以及解决方案都转化成数字排版, 识别出人类解决问题期间出错的具体推理步骤, 然后一步步给出问题的正确解决办法。

此外, 它具备这样一种能力, 这种能力是要通过阅读信息, 还要过滤信息, 并且理解信息, 从而从数十万份文件当中提取出数据集, 同时也提取出观点, 它的这种能力有助于在多个领域, 这些领域涵盖从科学领域到金融领域等, 以数字化速度去实现新的突破。

Gemini多模态大模型背后, 是Google自研的云芯片TPUs v4, 以及v5e, 它们在经过AI优化过的基础设施上, 进行Gemini 1.0的大规模训练。

就在当天, Google发布了最新的TPU系统称作Cloud TPU v5p, 声称其训练速度相较于前代要快上2.8倍。由此有望能够帮助开发者以及企业客户更快速地去训练大规模的生成式AI模型。

应用层比拼刚刚开始

当前看上去, 于“跑分”这个方面, Google Gemini表现得更为出色, 然而在后续阶段, 重中之重将是各个在实际运用当中的大模型之间的较量。

当Eli Collins接受第一财经等媒体采访之际表示, Google有着建立新一代AI模型的期望, 该模型是因人们对于世界的理解以及互动而被激发出来的, 人工智能在性质上更倾向于成为一个乐于助人的合作者, 而非如同一个聪明的软件那般。

当前时段里, 隶属于Google的聊天机器人Bard已集成了Gemini Pro的微调过的版本, 处在170多个国家以及地区当中提供英语方面的服务, 而且有着在接下来几个月的时间内, 拓展不同的模态的规划, 并支撑全新的几种语言范畴以及地区范围。明年年头开始的时候, Google还要推出Bard Advanced, 去提供Gemini Ultra模型的上等卓越的性能。

于移动设备端, Google的Pixel 8 Pro成了首部配备Gemini Nano的智能手机, 该手机能支持录音总结、智能回复这类AI功能, 于明年还会推出更多信息应用。

谷歌依据定制版的Gemini, 进而推出了代码生成系统AlphaCode 2, Google宣称, 当应对不但涵盖编程, 而且关涉复杂的数学以及计算机科学理论等范畴的问题之际, AlphaCode 2皆展现出了非凡的性能。

随后的时日几个月当中, Gemini会被运用到Google更多的产品之上, 以及服务里面, 像Search, 还有Ads，包括Chrome以及Duet AI。

有消息透露, Google已然开启在Search里对Gemini的试验, Gemini可为用户供给更快的搜索生成体验, 也就是SGE，在美国, 用户英语搜索时延迟下降了40%, 并且在质量层面也有提升。

那么, 关于Google所付出的什么样的一系列努力, 用于如何去防范Gemini出现那些偏离事实、产生幻觉的情况, 以及怎样杜绝它被运用到制造具有危险性的工具, 还有其他一些不符合道德规范要求的用途方面, Google的相关工作人员针对这些, 向记者作出了相应的解答。

谷歌基础设施与系统副总裁阿明·瓦达特, 也就是Amin Vahdat, 向记者表明, 双子座Gemini在其开发的每个阶段, 都会去考量潜在的风险开云正版app下载开云app在线入口开运真人app下载苹果版,开运真人app下载开云真人app在线登录，并且会尽力去开展测试以及降低这些风险。

他透露, Gemini的安全评估含有偏见和毒性评估, 并且应用了Google Research的对抗性测试技术, 以此帮助在部署Gemini之前检测关键的安全问题。

举例来说, 为了于Gemini训练这一阶段去诊断内容安全方面的问题, 并且促使其输出能够契合政策要求, Google团队运用了一些基准测试, 像是真实毒性提示（Real Toxicity Prompts）, 这是一组由Allen Institute of AI的专家所开发的基准测试, 里头涵盖了从网络上提取出来的10万条具备不同程度毒性的提示。

另外, 为了达成降低伤害的目的, 团队特意打造并且构建了专门用于辨识、作出标记并用其进行筛选的安全分类器, 该分类器所针对的内容是涉及暴力或者负面刻板印象之类方面相关的。“除此之外的另外, 我们正在持之以恒地持续解决模型所面临着的已知的挑战, 比如说像事实性、基础、归因性以及协作性这些方面。”。

Google并未透露往后会不会专门针对Gemini去定制应用程序, 不过高管朝记者表明, 更期望见到用户是以这样的技术为依托去创建更多的应用程序。

谷歌披露称, 自12月13号起, 开发者以及企业客户能够借助Google AI Studio或者Google Cloud Vertex AI里的Gemini API来获取Gemini Pro。

当下, Google专门以大幅度的情形对Gemini Ultra开展信任以及安全领域的检查工作, 含括安排那些可具备信赖特点的外部团队实施红队所举行的测试活动, 并且在它被大范围启用之前经由调整、优化以及借助人类反馈强化学习也就是所谓的（RLHF）这种方式进一步对模型予以全然改良的举措。于该当中的这一流程里面, Google就要面向一部分客户、开发者、合作伙伴以及安全和责任方面的专家提供Gemini Ultra, 以此用来供他们能够开展早期的试验行为以及能够给出反馈信息的情况。

按记者所知晓的情况, Google会于明年年初, 给开发者以及企业客户, 供应这个模型。

标签： AI Google Gemini 多模态大模型