谷歌Gemini 3.5实时翻译:70种语言秒变语音,保留你的语调

admin AI新闻 18

6月10日有消息传来, Google推出Gemini 3.5Live Translate, 这是把实时语音到语音翻译搞成了可接入的模型能力, 它有着支持70多种语言的特性, 能够在短短几秒的延迟当中生成译后的语音, 并且还会尽量去保留说话者的语调, 说话者的语速以及说话者的音高。此功能已经借助Gemini Live API和Google AI Studio朝着开发者开放了, 同时也开始在Google Translate的Android以及iOS应用里上线了。

变化不在翻译本身开云app官方最新下载地址,在入口

Google开展实时翻译好些年了, 然而以往体验一直绑定于特定设备, 像Pixel手机, 像Pixel Buds, 还有特定App。能否使用, 要基于你所用的硬件标点。

这次出现了变化, 此变化将“听到一种语言、实时说出另一种语言”, 从产品具有的功能转变为了模型所拥有的能力。模型能够自动检测进入的语言并连续处理语音流, , 并不需要等待说话的人讲完一整个句子之后方才开始进行翻译。Google给出的说法是存在一种情況, 可以在“等候更多上下文”以及“尽快输出以跟上原本的节奏”之间持续不断地做出平衡, , 所以经过翻译之后的语音始终会落后说话的人几秒钟。

这表明, 任何应用皆能够接入此项能力, 其中涵盖跨国电话, 涉及视频会议, 包括旅游问路之便, 包含在线课程之需, 翻译不再是一款独立的App, 而是一个开关。

保留语气会提升可用性,也放大冒充风险

这次更新, 最容易被用户感知的点在于, 译后语音并非仅仅是机械地朗读翻译结果, 而是努力尽量让其听起来恰似同一个人在换用另一种语言进行表述, 并且尽量能够将语调、节奏以及音高都予以保留。

这直接体现出了好处。当具有客服电话、网约车通信交流、在线教学这些情景时,语气以及停顿自身就是信息。以往TTS式朗读致使对话变得呆板僵化, 而保留语气之后就更加近似于“有其他人在旁边协助你进行转述”这种情况。

风险是十分直接的, 译后的语音越是与真人相像, 便越易于被拿去伪造对话, 并冒充身份, 还制造误导音频 , Google宣称会嵌入SynthID水印来标识AI生成内容 , 但水印在转录之后, 以及压缩之后, 甚至转发之后, 另外二次录音之后还能否稳定识别, 仍得看后续实际检测的效果。

谁先受影响

对于那些常常进行跨语言沟通的人而言, 在跨国团队开会之时, 在海外旅行之际, 在跨境客服的岗位上, 皆不用再需要附加额外的翻译设备, 只要把常用工具接入这个API即可。

对小团队以及应用开发者而言, 以往要是做实时语音翻译, 那就得自行将语音识别、机器翻译、语音合成以及低延迟传输都串联起来。而如今呢, 通过调用一条API就能解决问题, 如此一来, 面向多语言客服、进行直播翻译以及开发会议工具时的开发门槛, 便会显著降低。

从事翻译工作的人, 其产生的影响更为繁杂。专业同声传译工作依靠背景知识、现场判断以及高准确率, 在短时间内无法找到替代的情况。不过, 众多对逐字准确性没有要求、只需要能立刻明白意思的场景将要出现被分走的状况。实际的界限并非在于模型能不能翻译一句话, 而是在碰到长对话、浓重口音、专业词汇、多人同时说话时它是否还能保持稳定。

演示不等于日常

谷歌并未给出能够进行比较的准确率方面的数据。七十多种语种表现出覆盖面有所拓展, 然而不同语种之间的质量往往有着极大的差别, 低资源语种、方言、口音以及专业术语, 每一项都犹如陷阱。

存在于受控环境当中的演示音频, 地铁站以及咖啡馆, 就连有着多人同时正在说话的电话会议, 这些才是实际的真正检验场。Gemini3.5 Live Translate所饱含意义之处在于, 它将实时语音翻译推到了更为开放的产品入口处;它究竟能不能从那种“够惊艳”成功转变为“够可靠”, 这还需要等待真实场景里的大规模使用, 才能够给出相应的回答。

(本文由AI翻译开云app在线入口,开云真人官方下载开运真人app下载苹果版,开运真人app下载,网易编辑负责校对)

谷歌Gemini 3.5实时翻译:70种语言秒变语音,保留你的语调-第1张图片-世界杯直播平台-世界杯2026直播平台-免费观看官方-V3.6.9

标签: 实时翻译 语音识别 多语言 AI技术 应用开发

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~