谷歌Gemini演示视频被指造假，多模态交互竟是剧本？

admin AI新闻 2026-06-17 20

周四, 谷歌YouTube , 官方账号发布一个视频, 视频名为“与Gemini亲密互动: 与多模态AI交互”, 此视频引发网友围观, 一天之内, 观看次数达到140万次。

谷歌Gemini演示视频被指造假，多模态交互竟是剧本？-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

这个视频能吸引诸多目光原因是的它展示了谷歌有史以来最为强大 Gemini多模态模型其在交互方面有着令人印象深刻的表现。

在时长为6分22秒的这段视频里, Gemini针对输入提供出来语音以及图像这类提示, 做出了灵活且流畅的响应连同理解, 呈现出强大的多模态理解跟交互能力。

然而, 科技媒体TechCrunch有最新报道, 有用户在仔细研究那个视频之后, 发现Gemini所谓的惊艳表现几乎全都是“伪造”的。

Gemini在视频里, 针对画面所给出的描述, 还有对玩具识别与提问做出的回答等互动, 全都是经过人为进行设置的视频, 跳过了一部分提示, 以及模型的推理过程, 从而给观众营造出一种Gemini智能且又敏捷的假象。

Gemini可能没有那么智能

在视频里头, Gemini展现出了好些交互能力, 像辨别玩具鸭这件事, 跟踪杯子戏法里的球那个情况, 识别手势这一行为, 还有把星球顺序重新排列等。

比如说, 在首个展示里, Gemini辨认出了一个鸭子素描, 从一条线开始，朝着完整画面进行演变, 这般这般的过程。当演示的人把鸭子素描涂满蓝色颜料的时候, Gemini表明鸭子一般是棕色、白色或者黑色的, 并非蓝色的。

谷歌Gemini演示视频被指造假，多模态交互竟是剧本？-第2张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

随后, 在Gemini瞧见一只蓝色玩具鸭之际, 它满脸惊异地讲道: “这是啥东西！”紧接着世界杯直播平台，它答复了有关该只玩具鸭的各类语音询问。

观看整段视频时, Gemini的反应特别迅速, 回答全程流畅无比, 不过存在的问题是, 它的那种反应并非天然具备真实感。

媒体先是捕捉素材, 以此来测试Gemini在各类场景下的反应能力, 接着重新制作了一个演示视频, 随后用视频素材里的静态画面框对Gemini进行提示, 并且通过文字输入来进行提示。

其结果呈现出开云手机入口app下载开云app官方入口网站，Gemini的确拥有视频里面所展现的某些能力, 然而却并非真正像视频所呈现的那般，能够迅速且流畅地去完成全部的互动任务。

不过, 按照TechCrunch所讲, 视频里头呈现出来的交互效果, 实际上并非是实实在在的即时交互, 而是预先就设定好了的。

用到视频里的, 是好多专门准备好的文本提示, 还有与之配套的静态图片, 经过对这些预先设定好的素材, 进行挑选以及剪裁, 从而制作出真实交互的效果。

这种做法实际上是意图误导观看的人, 使得人们去相信视频里所呈现的乃是Gemini真实的即时交互能力之体现。然而很有可能出现的状况是, Gemini处于交互速度方面, 以及准确性等层面, 都并非像视频当中所展示出来的那般具备强大的程度。

谷歌Gemini演示视频被指造假，多模态交互竟是剧本？-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

视频和文档展示的提示，差别很大

需要留意的是, 在TechCrunch对视频与谷歌所发布的文档演示做对比之际, 发觉二者的提示呈现出不同之处。

比如, 于视频的两点四十五分那个位置, 有一只手做出了一连串的手势情况出现, 并且不存在配合语音提示这种状况, Gemini迅速做出回应说道: “我明白你正在做的事情是什么！你是在玩类似于猜拳那种游戏, 也就是石头、剪刀、布！”。

不过, 谷歌的Gemini能力文档从一开头就清晰表明, 这个模型无法借助识别单个手势去进行推理, 其进行提示时必须同时将全部3个手势展示出来, 并且给出提示词“这是什么游戏”, 唯有如此它才能够识别出“石头、剪刀、布”。

谷歌Gemini演示视频被指造假，多模态交互竟是剧本？-第4张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

因此, 视频里的呈现情况, 与文档所讲的提示约束, 是完全不相符的, 没办法展现出Gemini真正的识别本领。

另外世界杯直播，Gemini识别星球顺序的场景也可能具有欺骗性。

有个进行演示的人, 展示出了那种贴有太阳涂鸦的便利贴, 还展示了贴有土星涂鸦的便利贴, 也展示了贴有地球涂鸦的便利贴, 之后这人询问Gemini行星顺序是不是正确的, Gemini给出了正确的顺序, 这个顺序是太阳排在最前, 接着是地球, 最后是土星。

然而, 文档呈现出来的是, 真正的提示乃是, “这是正确的顺序吗? 思索靠近太阳能量的远近, 并且阐释你的推理依据”。

这两种交互, 感觉上是全然不一样的, 视频演示看起来好似是智能类型的及时评估, 然而在实际的交互当中, Gemini需要那种暗示性极为强烈的提示。

另外, 在对杯子中纸团进行追踪的这个演示里头, 出现了一种情况, 这种情况是和文档所记录的那个提示不一样的。

应当留意的是, 要是从一开始视频便清晰表明“这是针对我们研究人员所测试过的交互进行的艺术化展现”, 众人都不会存有异议, 由于这类视频原本就同时具备事实以及理想的色彩。

但是, 有一个视频, 它被称作“与Gemini亲密互动”, 并且还标榜说这是“我们最喜欢的交互”, 这实际上所表达的意思是, 视频里呈现的那个交互就是真实交互, 然而, 实际情况并非如此。

谷歌就连视频里所呈现的模型究竟是已然推向市场的Gemini Pro版本, 亦或是预估明年才会发布的Gemini Ultra版本, 居然都没有作出说明。

本文地址： http://aoersenchina.com/post/1761.html