在今天举办的 Google I/O 2026 开发者大会当中, Google 的首席执行官桑达尔·皮查伊(Sundar Pichai)登上了台, 推出了新一代的大模型系列 Gemini 3.5。
在表面层面, 这属于一次常规的大版本迭代。然而, 当把所有相关信息整合起来, 这些信息涵盖性能基准、定价策略、产品路线图以及资本支出等多个方面。此时, 你就会察觉到, 谷歌正处心积虑地布置一场深度的竞赛。其凭借“前沿智能与极速推理以及超低成本”这三者共同发挥的力量, 将智能体AI的门槛提升至一个高度, 使得竞争对手在短时间内难以企及这样的高度。
1、性能与性价比:一次有备而来的反击
这场较量的序幕,在过去半年里已经拉开。
2025年1月, OpenAI推出了Operator, 基于CUA也就是Computer-Using Agent这个模型, 该模型能够自主操控浏览器界面去执行多步骤任务, 它率先朝着“行动式AI”迈出了实质性一步。在2026年2月的时候, Anthropic发布了Claude Opus 4.6, 在智能体编程这个维度, 在计算机操控这个方面, 在工具调用等诸多层面, 全面地拉高了行业基准;到了3月, Anthropic又密集推送了Claude Code, 超过了10个版本, 加入了Computer Use, 加入了云端定时任务, 还加入了远程控制, 直接去对标开发者的日常工作流。
那就是说, 在Gemini 3.5发布以前, 智能体AI的叙事主导权并非掌握在谷歌手中。皮查伊今日进行的发布, 是一场系统性的反击, 并且是有充分准备而来的。
Gemini 3.5系列最先推出Gemini 3.5 Flash, 其定位是“迄今最强大的智能体与编程模型”。Gemini 3.5 Pro更强大, 已在Google内部投入使用, 皮查伊在台上透露, 它“展现出极大的性能提升”, 预计下月正式推出。

先说基准测试数据。
在GDPval - AA基准里, Gemini 3.5 Flash获得了1656 Elo评分, 不过不是做题, 而是编写能实际运用的代码、处理真实的工程问题, 这个基准所衡量的是“现实世界具备实际经济价值的编程任务”。1656 Elo的分数, 比Gemini 3.1 Pro高, 还高于当前公开可查的多数前沿模型成绩。
在Terminal - Bench 2.1里, 这是用于衡量AI在真实终端环境中完成复杂任务的的能力的程序。Gemini 3.5 Flash获得了76.2%的得分。作为参照示例, 在2025年初OpenAI Operator进行发布的时候, 同类基准成绩普遍处于50%–60%的区间范围。半年多的时间过去了, 76.2%这个得分表明智能体在执行真实任务时的可靠性, 正从“勉强可用”向着“可以依赖”进行跨越。
于智能体工具调用基准MCP Atlas里, 获取的成绩为83.6%;多模态推理基准CharXiv Reasoning所取得的成绩是84.2%。于Artificial Analysis综合智能指数当中, Gemini 3.5 Flash稳固处于*象限的右上方位置——也就是同时拥有前沿级智能水平以及极高推理速度的*区间, 并且是当前*稳稳处于这个区间的公开模型。
但真正让这次发布*冲击力的,不是基准测试,而是性价比。
Gemini 3.5 Flash输出的Token速率, 达到了其他前沿模型的4倍, 在Antigravity平台内置的优化版本里, 响应速度更是达到了竞品的12倍。
在成本这一方面, 用于处理智能体任务的花销普遍会是比其他前沿的模型低了一半还多的程度。按照谷歌所做的相关测量, 要是处于头部位置的科技企业把百分之八十的日常所承载的任务从其他前沿模型转移到Gemini 3.5 Flash上面去, 那么每一年是能够节省下来超过十亿美元这个数量的资金的。
皮查伊于演讲里直接表明, “Flash的令人惊叹之处在于, 它给出了前沿级别的能力, 且是以不足同类前沿模型一半的价格做到这一点的。”。
当一家巨头怀着“砍半定价”去推送自身最前沿版本的模型之际, 它传递出的信号并非是“我在做让利的行为”, 反倒为“我打算把竞争对手驱赶出市场”, 这一句话, 确实需要停下来用心思索一番, 低价仅仅是手段, 抢占生态才是其终极目的。
这些数据并非纸上谈兵。
Google内部的AI编程工具, 构建起了强大的数据反馈闭环, 在2025年3月时, 每天能处理5000亿Token, 到I/O 2026时, 每天处理量已增长至超过3万亿Token, 规模翻倍仅仅用了数周时间, 正是这种对于大规模真实负载的持续打磨, 成为了Gemini 3.5性能跃升的重要基石。
这里存在一个值得予以留意的细节, 那就是谷歌并未将Gemini 3.5的参数量进行披露。在行业范围之内, 这一般而言意味着存在两种可能性, 其一为要么参数规模未曾实现大幅度的提升, 所依靠的是工程优化以及推理架构方面的改进, 其二为要么谷歌是故意进行隐瞒, 目的在于避免给竞争对手提供对标参考。不管是其中的哪一种情形, 对于外部的开发者以及企业来讲, “参数黑盒”都是一个需要加以留意的信号。
Gemini 3.5 被称作“智能体时代的基础模型”, 其核心在于, 它是 Google 的模型系列, 该系列把前沿智能与行动力进行了深度融合。
叫“智能体”的那个(Agent), 简言之, 是那种既能够独立自主去规划, 又能调用工具, 并且还能执行多步骤任务的人工智能, 不是那种仅仅给予出回答问题的答案而已, 而是可以替代你来完成任务的存在。Gemini 3.5所具备的智能体原生架构, 有着支持同时去部署多个相互联系、彼此协作的子智能体(subagents)这样的能力, 能针对大规模的情况进行并行处理复杂的业务场景, 会把原本需要数天甚至是数周的长时间作业压缩为极少的时间之内完成。
它可以稳定地去执行那种跨步骤、跨工具的复杂任务流程, 并且在整个过程当中维持上下文连贯性, 还支持运行数周的自主工作流, 像税务申报、客户尽调等场景, 不需要人工持续进行介入。这就意味着, 智能体AI正从“演示阶段”迈向“生产阶段”, 而Gemini 3.5是目前门槛最高且最容易上手的选择。
编程能力的跨越式飞跃是另一大核心亮点。
Gemini 3.5 Flash, 于 GDPVal 评分里, 展现出显著表现, 其具体具备的能力, 包含从无到有构建全新应用, 对大型代码库进行维护与迭代, 实施遗留代码迁移(像是迁移至 Next.js 等现代框架), 以及迅速开展规划与迭代开发。
这里存在一个可供对照的背景, 自2026年起始, AI编程助手的市场竞争步入了白热化的阶段, GitHub Copilot、Cursor、Windsurf等相关工具背后, 各自绑定了OpenAI、Anthropic以及Google的模型能力, Gemini 3.5 Flash倘若真的如同基准测试所显示的那样在编程任务方面大幅*, 那么谷歌不但在模型层面会对竞争对手施加压力, 在开发者工具生态层面也会获取更大的话语权。
多模态能力同样进一步升级。
Gemini 3.5 基于 Gemini 3 的原生多模态基础而构建, 它能够生成更高丰富度、更高交互性的 Web UI 和图形界面(生成式 UI), 它还能对超过 100 页的复杂文件予以深度推理以及信息检索。
它借助多模态OCR,来结合历史数据模式推理, 以及复杂账单图像理解, 这个能力听起来颇具技术化特点, 然而实际场景方面却极为具体, 比如说企业财务部门在处理上千张供应商发票时, 以往是需要人工逐一进行核对的, 如今则能够由AI自主去完成, 并且在企业级场景里, 其准确率已经是通过验证的。
安全方面的升级,谷歌着墨不少世界杯2026直播平台,但外界的疑问也最多。
Gemini 3.5 是基于 Google 的前沿安全框架(Frontier Safety Framework)开展开发工作的, 它强化了网络安全方面的措施, 也强化了 CBRN(化学、生物、放射、核)防护措施, 并且引入了可解释性工具, 这种工具会在 AI 给出最终回答之前, 针对其内部推理逻辑进行安全检查, 如此一来, 在显著降低有害内容生成概率的状况下, 还能减少对合法查询的误拒率。
这里有个值得去追问的矛盾, 谷歌特别强调“可解释性”, 还强调“安全*”, 然而, 与此同时, Gemini 3.5正在极大幅度地降低AI能力获取的门槛, 有着速度更快、价格更低以及全面开放API这些情况。门槛越低, 被滥用产生的风险越高。谷歌的安全框架是不是真能够覆盖一个Token处理量达到3.2千万亿/月的开放生态? 对于这个问题, 皮查伊在台上没有作答。
2、皮查伊的全栈叙事:从模型到生态
皮查伊于I/O 2026主题演讲里所做出的发言, 乃是用以理解此次发布状况的关键所在。
他先是回顾了过去一年的进展, 说道, 自去年I/N/O以来, 这是一段不一般的路程, 有着持续不断的产品发布, 还有技术方面的突破, 以及进度超快的进展。当下我们正处于人工智能发展周期的一个阶段, 那就是大家期望在自己每天都在使用的产品当中看到实实在在的价值。
其所蕴含的潜在意思是: 在过往的两年时间里, AI行业持续进行着跑分的行为, 不断刊发论文, 一次次开展做演示的举动, 当前已然到了需要交出成绩证明的时候了。而谷歌所呈现出的成绩证明, 便是针对拥有几十亿用户的搜索、Gemini App、Android这些产品进行AI化的改造。
就搜索业务的演进而言, 皮查伊述说了一句颇具分量的话语, 那便是: “倘若我们于 27 年的搜索研发历程当中收获了某些认知, 那么所获认知即为: 延迟有着至关重要的意义。”。
这句话阐释了为啥Gemini 3.5在速度方面的突破被谷歌放置于这般核心的位置, 在搜索这个拥有亿级用户的产品当中, 延迟直接对用户体验及留存起着决定作用, 这同样是为何“4倍速度”并非一项技术指标, 而是一种产品战略的缘由: 唯有足够急速, 基于AI的搜索才具备取代传统搜索, 进而成为用户主流选择的可能性。
皮查伊透露, 搭载AI功能的搜索功能正改变用户行为, 搜索不再只是单次查询, 更像一次持续对话, 当人们在搜索中用AI驱动功能时开云真人app官网入口开云手机入口app下载开云app官方入口网站,他们使用搜索的频率更高了, 这对谷歌是极其重要的信号, AI功能不是蚕食搜索现有流量, 而是创造新使用场景和更高使用频次。
皮查伊对于智能体时代的战略判断, 表态更为明确, 他说, 我们正极度专注于把智能体的力量, 安全且可靠地带给消费者, 使其为每个人服务。
这句话的野心比听起来大得多。
给每一人提供服务, 表示谷歌不但得占据企业领域市场, 还得占据消费级别的市场。而要达成这一状况, 仅有模型是不行的, 一定要具备全栈能力, 具体包括芯片(TPU 8), 模型(Gemini 3.5), 平台(Antigravity 2.0), 终端产品(Spark、搜索、Android)。皮查伊于演讲里描绘的恰恰就是这条完备的技术栈道路。
这个全栈路径的关键逻辑为: 凭借性价比以及极速推理这般情况, 促使智能体于消费端跟企业端达成规模化的落地。然而这一点, 恰恰属于 OpenAI 不存在芯片、Anthropic 不存在终端产品、Meta 不存在企业级全栈的那些竞争对手们在短期内难以效仿的障碍。
基于上述战略框架,皮查伊公布了多项即将落地的关键产品。
Gemini Spark, 这个基于Gemini 3.5 Flash, 还有Antigravity平台驱动的个人AI智能体, 会在下周向美国Google AI Ultra订阅用户开放Beta。它可以24/7运行, 能够处理长周期复杂任务,并且会通过MCP协议接入第三方工具。这表明, Spark并非是那种被封闭于谷歌生态体系之中的助手, 相反, 它是一个能够与外部服务进行连接的开放性智能体, 而这样的设计抉择, 显然是在以OpenAI的插件生态作为对标对象。
2026年夏季会推出搜索信息智能体, 它会在后台全天候持续运行, 主动去发现信息并且代为执行操作。Daily Brief Agent会整合用户的邮件、日历以及任务, 进而生成个性化晨间摘要。Android Halo将于2026年较晚时候推出, 能为用户带来实时智能体任务追踪界面。搭载AI功能的音频眼镜硬件产品定于2026年秋季发布。
然而, 更强横庞大的 Gemini 3.5 Pro, 皮查伊透露其“已然在 Google 内部投入运用施展用途, 彰显出极为显著的性能跃升提升”, 预计下个月会正式对外加以推出被面市。Pro 版本的发布亮相, 将会径直直接与 OpenAI 的 GPT 这一系列以及 Anthropic 的 Claude Opus 系列径直直接展开针锋相对的正面激烈竞争。
这些产品构想靠不靠谱, 一个关键的验证方面在于, 企业客户是不是确实在使用, 是不是确实在付费?
在关于发布会上, 谷歌针对多家企业客户的使用案例进行了列举, 然而需要明确指出的是, 这些案例全部都是由谷歌主动进行披露的, 至于第三方独立验证数据目前还有待进一步观察, 不过就基于已披露出来的信息而言, 其体现出的应用场景确实已经涵盖了企业AI化所面临的核心痛点。
Shopify运用并行的多个子智能体去剖析长周期的复杂的数据, 进而展现出多智能体的协作能力, 麦格理银行凭借Gemini 3.5来加快客户开户的流程, 它可以针对超过100页的复杂文件展开推理并给出合规的建议, 倘若这个场景真的能够成功运行, 那么对于金融行业的AI落地而言将会是一个重要的信号, Salesforce(Agentforce)依靠其跨步骤的工具调用能力实现企业任务的自动化, Ramp运用其多模态OCR能力来处理复杂账单, Xero使其数周的workflows实现自主管理, 比如1099税务表格处理, Databricks利用其海量数据集的推理能力进行实时监测。
把这些案例放置到一起, 一个共同的规律显现出来, Gemini 3.5 的企业价值, 并非在于“更聪明”, 而是在于“更持久、更快速、更经济地去执行长周期任务”, 这恰恰是智能体 AI 从演示迈向生产的关键门槛。
从有关生态以其各部分相互联系组合形成一个有机统一整体的融合角度去看, Gemini 3.5 Flash 截至今日便已在于多个不同方面全方位地实现了全面对外开放。
在全球范围内 Gemini App 以及 Google 搜索进入AI模式时;消费端被设作默认模型, 开发者端借由 Google AI Studio、Gemini API 还有 Android Studio 来交付和提供可供使用的服务, 于企业端一侧借助 Gemini Enterprise Agent Platform支撑进行部署。
这种全堆栈全方位覆盖而对外开放的策略, 和皮查伊着重强调的“使智能体的能力能够面向每一个人来提供服务”达成了战略层面上的相互呼应, 然而在此同时, 存在着一个需要予以警惕的问题, 那就是: 当谷歌同时掌控了模型、以及平台、再者开发工具还有终端产品的时候, 开发者以及其他企业是不是正在被逐渐地锁定在谷歌的生态系统范围之内呢, “开放的应用程序编程接口”与“开放的生态环境”二者之间, 并不总是意味着等同的关系, 是这样一个情况。
3、规模即壁垒:1800 亿美元背后的逻辑
对这所有一切起到支撑作用的, 正是那 Google AI 全栈持续不断释放出来的规模方面的势能。
皮查伊于演讲里所披露的最新数据表明, 月度 Token 处理量已然达到 3.2 千万亿(quadrillion), 其同比增长达 7 倍, 而此数字意味着谷歌的 AI 基础设施正以远超行业平均的速度在扩张。
Gemini软件的月活跃用户数量, 从4亿增长到了9亿, 也就是一倍哦, 这是在一年之内达成的;搜索AI模式, 月活跃用户突破了10亿;AI概览的月活跃用户数达到了25亿;基于谷歌模型开展开发工作的开发者数量, 每月达到了850万。
然而说来, 最具震慑之感的数字, 有可能会是这样的一个, 在2026年的时候, 预先估算的资本支出, 会高达1800至1900亿美元之多, 跟2022年的大约额度为310亿美元相比较, 呈现出极大程度的增长态势了。
1800多亿美元额度的这般资本支出, 究其根本说, 仅仅是在从事一件事情: 借助基础设施所拥有的规模化显著优势, 意图将竞争对手朝着市场的外部排挤出去。一旦你所拥有的TPU集群规模, 以及Token处理相关数量和用户基数这几者均达成竞争对手难以企及的程度与级别时, “速度提升4倍, 价格削减一半”这般情况便不再单纯是一种促销的具体手段了, 逐渐演变成一种具有结构性特征的壁垒。
追问最根本的那个问题, Gemini 3.5发布了, 这到底是不是一次实实在在的技术上的飞跃, 又或者仅仅是一场精心策划包装起来的战略营销之举?
答案可能是:两者都是。
站在技术层面去看, Gemini 3.5 Flash于基准测试里的种种表现, 推理速度所实现的提升, 还有多智能体并行架构的成功落地, 全是实实在在有的进步。然而在这同一时间, 此次发布切实值得予以关注的, 并非单单只是模型自身, 而是谷歌针对模型所搭建起来的全栈壁垒: TPU 8用来供给算力, Gemini 3.5用来供给智能, Antigravity 2.0用来供给平台, Spark还有搜索用来供给触达——在这条链条当中每一个环节之上, 谷歌全都掌握着主动权。
对于开发者以及企业而言, 这表明选择Gemini 3.5, 并非仅仅是选择一个模型, 更是在选择一种生态。然而对OpenAI、Anthropic还有Meta来讲, Gemini 3.5的发布所传达的信息十分明晰: 仅仅依靠模型能力现已不足够了, 唯有那些能够把模型、平台与产品连接成一体的, 才能够在智能体时代获取胜利。
正像皮查伊于演讲末尾所说的那样: “在我们将目光投向整个创新技术栈时, 能够清楚地看见——我们正毫不动摇地迈进智能体化的Gemini时代。”。
这句话是宣言,也是向竞争对手发出的挑战。

标签: GoogleI/O2026 Gemini3.5 智能体AI 性能与性价比 全栈叙事
还木有评论哦,快来抢沙发吧~