具体来讲, Mini - Gemini给出了从2B小杯开始, 一直到34B超大杯的各异选择 , 这些选择有所不同。
凭借着超乎寻常强大的图文理解能力, Mini - Gemini在多个方面的指标上, 就那样直接地与Gemini Pro相媲美, 还和GPT - 4V相媲美。

当前, 从事研究的团队把Mini - Gemini的代码给开源了, 将其模型也进行了开源, 还把数据都予以开源。
更具趣味的是, 极为善于运用梗的Mini-Gemini放到线上的Demo已然发布了, 所有人都能够上手去进行试玩。
Mini - Gemini Demo被放出之后, 受到了广大网友的关注 , 在一番“尝鲜”之后 , 有人觉得: Mini - Gemini与商业模型没什么差别!

为何这么说?
01 图片理解天花板
当前,绝大多数多模态模型仅支持低分辨率图像输入和文字输出。
然而, 在实际存在的场景当中, 好多任务都要求去对高清的图像展开剖析, 并且, 还要以图像这样一种形式来予以呈现。
比如说, Mini - Gemini具有看懂那种面包九宫格图片教程内容的能力, 接着还能够开展手把手教学引导。

拍一张关于苹果店Mac电脑的信息图, 其中Mini - Gemini这家伙呢, 能够针对两种不一样尺寸的Mac, 把它们各自不同的参数拿来做对比。
有网友看过后表示世界杯直播平台,「妈妈再也不用担心我的生活了」。

更为关键的一点是, Mini - Gemini 的情况是, 它在留存下极为强大的图像理解以及推理的能力之际, 并且还开启了图像的生成能力, 这恰似 GPT 与生成模型二者相互结合的那种状况。
下面世界杯直播,让我们通过几个例子来更直观地感受这种能力:
推理再生成,更精准了
还记得谷歌Gemini的官方演示视频么?
当用户把两个毛线团拿出来问能用来做些啥的时候, Gemini能够把图片里头的情况辨认出来, 进而给出对应的建议。


给到Mini - Gemini相似的输入, 对此它会怎样回答呢, 当我们这样做的时候?

能够发觉, Mini - Gemini居然能够分辨出图片里呈现的元素, 而且还能给出妥善的建议, 与此同时还创造出了一只与之相对应的毛线小熊。

模型给出推理, 要通过特定的一些抽象的多模态指令, 并且生成合适的图片, 这样的操作, 是不是相当类似GPT和DALLE3的那种连贯紧密的联动呢!
随后, 让Mini - Gemini去做那些它自身最为拿手的推理, 以及图片理解, 瞧瞧它的表现如何。
比如,理解图片中的矛盾点并举一反三。
将仙人掌输入到冰川里头, 它会把当中的矛盾予以解释, 紧接着生出一张处于热带雨林里的北极熊的图片。

一幅呈现视觉矛盾的图片, 矛盾点在于仙人掌的典型栖息地, 和冰的存在两者之间, 之所以有视觉矛盾所在, 是既然处于沙漠环境之中, 那么自然情况下不会出现有冰这种现象。
Mini - Gemini因为理解了这种彼此对立、相互冲突点, 进而生成了一张图片, 这张图片呈现的是北极熊出现在热带雨林的情景, 是这样的情况 、这般的状况。
有这样一种并置形态, 它创造出了一种视觉效果, 这效果既引人注目, 还超现实, 它对观众的期待发起了挑战, 并且有极大可能引发人们的思考, 思考的方向是气候变化、环境适应或者不同生态系统融合这些方面。
与此同时, 就像奇妙的GPT与DALLE3相互搭配那样, Mini - Gemini具备的「推理生成」能力, 能够在多轮对话期间, 借助简单指令来生成连环小故事。
比方说开云正版app下载开云app在线入口,让它根据用户输入讲一个贵族小老鼠的故事。
Mini - Gemini会依据前文的文字, 来生成结果, 并且会和用户输入开展推理, 于保持一致性的情形下, 针对图片作出修改, 让其更契合用户的要求。


当然了, Mini - Gemini, 对于多模态模型的传统技能, 也就是图片理解, 同样是完全没问题的。
比如, 要使得模型领会输入的曲线图所具有的数学含义即高斯分布式的, 并且, 要让它运用代码去再次展现出这样的一张图。
经过运行所产出生成的代码, 模型能够以高质量的水准去还原本曲线图, 进而实现了复现所需时间之节省。


超会玩梗
再不然, 使Mini - Gemini领会梗图, 凭借它那强大的OCR以及推理能力, 同样能够精准地指明笑点。
一张将麦当劳P成GYM表情包,外加对话图,搞笑点在哪?

Mini - Gemini能够精准领会图里所蕴含的讽刺意味, 进而给出了恰当的阐释。


也有这样一张梗图, 它是「当某媒体宣称AI会接管世界时, 实际上我的神经网络连猫都没能识别」。

Mini - Gemini是能够被理解的, 它讲的是AI犯错的事例, 而且和公众所接收到的预期不一样。

图中细节的幽默之处,它都能get得明明白白。

清晰且复杂无比的多图表理解, 以及归纳, 这对于它而言同样是轻而易举之事, Mini-Gemini, 可以直接瞬间被转变成为能够使职场工作者效率得到提升的超厉害外挂。


呈现出英文形式的图表极为繁杂, 阅读起来着实非常耗费脑力, 它借助极具直观性以中文的类别把内容进行了梳理——「针对不同笼养体系里母鸡所承受的平均疼痛天数展开比较」。

02 技术细节
在上面所进行的演示里面, Mini - Gemini达成如此令人惊艳的效果究竟是通过怎样的方式呢?

连接论文的地址是, https对应的那个://arxiv.org/pdf/2403.18814.pdf。
虽大道趋向至简, 然Mini - Gemini之整体思路非为复杂, 其中Gemini(双子座)所表达者, 乃运用视觉双分支之信息挖掘(Miraing - Info in Gemini)去解决高清图像理解问题。
而其中的核心在于三点:
(1)用于高清图像的双编码器机制;
(2)更高质量的数据;
(3)训练阶段结合生成模型数据拓展。
细致说来, Mini - Gemini把传统所运用的ViT视作低分辨率的Query, 并且采用卷积网络(ConvNet)去把高分辨率的图像编码成Key, 继而又把高分辨率的图像编码成Value。
于Transformer里常用的Attention机制予以运用, 以此来挖掘每个低分辨率Query所对应的高分辨率区域。
借此方式, 在维持最终视觉Token数量恒定的情形之下, 进而去提高对高清图像的反应能力, 成功确保了于大语言模型当中, 针对高清图像能够实现高效的编码。
需要提及的是, 因运用了高分辨率分支卷积网络, 所以能够依据需求, 就图像所需之分辨率进行自适应调整, 其效果可得遇强愈强之情形了。
关于图像的生成这一部分, Mini - Gemini借助了SDXL, 运用LLM推理之后产生的文本去连接两款模型, 这一情况类似DALLE3的流程。

与此同时, 针对「万金油」一样的数据而言, Mini-Gemini又进一步去收集、并对训练数据的质量予以优化。并且, 还加入了与生成模型相结合的文本数据, 以此展开训练。
仅使用二至三兆数据, 达成了对图像理解、完成推理以及实现生成的这种统一流程。
不逊色于各大厂运用大量数据训练出的模型, Mini - Gemini在各类Zero - shot的榜单之上, 真可谓是「平、靓、正」!
媲美Gemini Pro和GPT-4V
能够看得出, Mini - Gemini给出了好些普通以及高清版本的模型, 且涵盖了从2B的那种小杯直至34B的极大杯标点符号。
于各个版本而言, 均达成了在相似参数量的状况下处于领先的成效, 在诸多指标的情形里, 甚至还做到了超越Gemini Pro以及GPT - 4V。

03 人人在线可玩
需要特别指出的是, Mini - Gemini具备的图像理解以及生成能力, 已经有了Demo, 是那种能够在线与自定义图像展开对话的类型。
过程操作起来是极为简单的那种, 仅仅是直接同已输入的图像、还有文字进行对话就行, 欢迎前来交流互动!

标签: Mini-Gemini 开源模型 图文理解 GPT-4V 在线Demo
还木有评论哦,快来抢沙发吧~