改进的 Gemini 音频模型,带来更强大的语音交互体验

优化后的 Gemini 音频模型,提供更卓越的语音交互体验。

图片[1]-改进的 Gemini 音频模型,带来更强大的语音交互体验-oserp

本周早些时候,我们对 Gemini 2.5 Pro 和 Flash Text-to-Speech 型号进行了升级,从而显著提升了音频生成的控制能力。

然而,生成富有表现力的语音仅是对话的一部分。今天,我们发布了适用于实时语音代理的 Gemini 2.5 Flash Native Audio 更新版本。此次更新增强了模型处理复杂工作流程、理解用户指令以及进行自然对话的能力。

Gemini 2.5 Flash 原生音频现已在包括 Google AI Studio 和 Vertex AI 在内的所有 Google 产品中推出,并已开始在 Gemini Live 和 Search Live 中逐步部署,首次将原生音频的自然体验引入 Search Live。这意味着您能够更高效地利用 Gemini 进行实时头脑风暴,在 Search Live 中获得即时帮助,或构建新一代企业级客户服务代理。

除了为智能客服提供支持外,原生音频还为全球沟通开启了新的可能性。我们推出了实时语音翻译功能,该功能支持耳机上的实时语音翻译,并能保留说话者的语调、语速和音高。这项测试版功能已于今日在 Google 翻译应用中上线。

为了实现跨平台和产品的广泛应用场景,我们从以下三个关键方面改进了 Gemini 2.5 原生音频:

1. **更精准的函数调用**:我们提升了模型在触发外部函数时的可靠性。现在,它能够更准确地识别对话过程中何时需要获取实时信息,并将这些数据无缝融入音频响应中,而不会中断对话流程。在 ComplexFuncBench Audio 测试中(该测试能够捕捉具有各种约束条件的多步骤函数调用),Gemini 2.5 Native Audio 以 71.5% 的得分领先。

2. **更强的指令执行能力**:该模型现在能够更好地处理复杂指令,显著提升用户对内容完整性的满意度。其对开发者指令的遵循率高达 90%(高于之前的 84%),输出结果也更加可靠。

3. **更流畅的对话**:我们在多轮对话质量方面取得了显著提升。Gemini 2.5 Flash Native Audio 能够更有效地从之前的对话轮次中获取上下文信息,从而创建更连贯的对话。

图片[2]-改进的 Gemini 音频模型,带来更强大的语音交互体验-oserp

Google Cloud 的客户已经开始利用 Gemini 的原生音频功能推动真正的业务成果,涵盖从抵押贷款处理到客户通话等多个领域。

“用户在使用 Sidekick 一分钟内往往就会忘记自己是在和 AI 对话,有些用户甚至在长时间聊天后还会向机器人表示感谢……通过 Gemini [2.5 Flash Native Audio] 提供的全新实时 API AI 功能,助力我们的商家赢得市场。” ——David Wurtz,Shopify 产品副总裁

“通过集成 Gemini 2.5 Flash Native Audio 模型……自 2025 年 5 月推出以来,我们显著提升了 Mia 的功能。这一强大的组合使我们能够为经纪合作伙伴促成超过 14,000 笔贷款。” ——Jason Bressler,United Wholesale Mortgage (UWM) 首席技术官

“通过 Vertex AI 与 Gemini 2.5 Flash Native Audio 模型协同工作,Newo.ai 的 AI 接待员能够实现无与伦比的对话智能……即使在嘈杂的环境中,它们也能识别主要说话者,在对话过程中切换语言,并且听起来非常自然,富有情感表现力。” ——Newo.ai 联合创始人 David Yang

实时语音翻译功能将进一步拓展 Gemini 的应用范围,为全球用户带来更加便捷和自然的沟通体验。Gemini 现已原生支持全新的实时语音翻译功能,旨在处理连续聆听和双向对话。

通过持续聆听,Gemini 可以自动将多种语言的语音翻译成单一目标语言。这样,您只需戴上耳机,便能用自己的母语聆听周围的世界。

在双向对话中,Gemini 的实时语音翻译功能可实时处理两种语言之间的翻译,并根据说话者自动切换输出语言。例如,如果您说英语而对方说印地语,您会在耳机中实时听到英语翻译;当您说完话后,手机会自动播报印地语。

Gemini 的实时语音翻译功能具备多项在现实世界中极具实用价值的关键特性:

– **语言覆盖范围**:结合 Gemini 模型的全球知识库和多语言功能及其原生音频技术,可翻译超过 70 种语言和 2000 多个语言对的语音。

– **风格迁移**:捕捉人类语言的细微差别,保留说话者的语调、语速和音高,使翻译听起来自然流畅。

– **多语言输入**:可在一次会话中同时理解多种语言,助您轻松应对多语言对话,无需频繁调整语言设置。

– **自动检测**:自动识别说话语言并启动翻译,即使您不清楚对方使用的语言也能顺利进行翻译。

– **降噪性能**:有效过滤环境噪音,确保在嘈杂的户外环境中也能舒适交流。

从今天起,您可以在 Google 翻译应用中体验这一全新的测试版功能。只需将耳机连接到设备,点击“实时翻译”,即可在耳机中享受实时翻译服务。该功能目前已在美国、墨西哥和印度的所有 Android 设备上推出,iOS 和其他地区的支持也即将上线。

我们将根据用户反馈持续迭代改进这一体验,并计划将其引入更多 Google 产品,包括 2026 年推出的 Gemini API。

立即行动

立即使用 Gemini 2.5 Flash Native Audio 构建语音代理,该功能现已在 Vertex AI 上正式发布,并在 Gemini API 中提供预览版。您可以在 Google AI Studio 中进行试用。

此外,Gemini 2.5 Flash 和 2.5 Pro 文本转语音模型也可通过 Google AI Studio 中的 Gemini API 使用。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容