不用等对方说完,手机贴耳就能听翻译
保留语调、节奏、音高——连“激动”都能翻出来
🧠 一、小白入门:Google 发布了一个什么样的“翻译神器”?
今天,Google 发布了一款全新的实时语音翻译模型:Gemini 3.5 Live Translate。
它可以做到:
对方说一句,你几乎同步听到翻译
支持70多种语言,自动识别对方在说什么,不需要手动选
翻译出来的语音,保留说话人原本的语调、节奏和音高
一个具体的画面:
你在东京的居酒屋,店员用日语热情地推荐今天的特色菜。你把手机贴到耳朵上(像接电话那样),听筒里实时传出的中文翻译——语速跟着店员走,他激动的时候翻译也快,他停顿的时候翻译也自然地缓一拍。
店员看到的只是你在“打电话”,整个过程自然、不尴尬。
💡一句解释:“同声传译”就是翻译和说话几乎同步进行,不等对方说完就开始翻。联合国的专业同传译员培养周期以年计算,收费极高。Google 把这个能力塞进了手机 App。
🔥 二、为什么我说它比 Claude Fable 5 更值得关注?
今天 AI 圈很多人都在讨论 Anthropic 发布的Claude Fable 5和Claude Mythos 5——确实很强,但模型能力已经超出了普通人能用的范畴。
而 Google 这个模型不一样:
它直接推倒了“巴别塔”(《圣经》里人类因语言不通而无法沟通的象征)
你不用学新技能,不用买昂贵设备,打开手机上的 Google Translate App,就能让 70 多种语言之间的沟通变得几乎无感。
📦 三、核心能力:它到底做了什么?
1. 边听边译,不等说完
过去的翻译工具,不管是 Google Translate 的对话模式,还是各种会议翻译插件,基本都是“轮次制”的:
你说完一整句 → 系统停顿 → 处理 → 输出翻译
中间那段沉默,就是在等你说完。
3.5 Live Translate 改了这个逻辑:
在你说话的同时,模型内部就在做持续的权衡——
多等一会儿能拿到更多上下文、翻得更准,
但等太久就跟不上说话人了。
它在两者之间动态调节,全程只比说话人慢几秒。
2. 保留说话人的语调、节奏和音高
这不是那种用固定机器人嗓音读翻译文本的模式。
模型会尝试保留:
- 语调(intonation):你强调某个词,翻译里也会重读
- 节奏(pacing):你说得快它翻得快,你放慢它也放慢
- 音高(pitch):你激动时声音变高,翻译也跟着变高
💡一句解释:传统翻译是把文字“念出来”,声音是平的。这个模型是把“你怎么说的”也翻译过去了——连情绪一起传。
3. 自动检测语言,70+种自动识别
不需要提前告诉模型“我说的是中文,帮我翻成英文”。
你直接说,它自己判断你在说什么语言,自动翻成目标语言。
在多人多语言的场景下(比如一个会议里有人说日语、有人说法语、有人说中文),模型可以分别处理,不用每次手动切换。
4. 自动滤除噪音
在安静的办公室里做翻译不难,难的是在嘈杂的街头、拥挤的餐厅、或者机场候机厅。
模型会主动滤除背景噪声和音乐,只保留说话人的声音来生成翻译。
📱 四、怎么用?三条路径
路径一:普通用户 → Google Translate App(最简单)
在 Android 或 iOS 上打开 Google Translate,进入 Live Translate 功能。
- 连接蓝牙或有线耳机:对方说话时,你通过耳机听到接近实时的翻译
- Android 独占的“听筒模式”:不需要耳机。直接把手机像打电话一样贴到耳朵上,翻译后的音频通过手机听筒播放
一个具体用法:
你在巴塞罗那跟一个只说西班牙语的导游走街串巷,他在讲这栋楼的历史。你把手机贴到耳朵上,听筒里传出的中文翻译几乎和他的西班牙语同步。
适合两个场景:手边没耳机,或者不想让周围的人听到翻译内容。
路径二:企业用户 → Google Meet
Google Meet 的语音翻译功能升级为 3.5 Live Translate:
| 维度 | 升级前 | 升级后 |
|---|---|---|
| 支持语言数 | 5种 | 70多种 |
| 语言组合 | 仅限和英语互译 | 2000多种组合 |
| 操作方式 | 需要提前配置 | 即时访问 |
之前如果你的团队里有人说中文、有人说日语、有人说葡萄牙语,Meet 的翻译只能把英语翻成这几种语言——中文到日语、日语到葡萄牙语这种组合不支持。现在可以了。
目前是私有预览阶段,本月先对部分企业客户开放,今年晚些时候更大范围推出。
路径三:开发者 → Gemini Live API
开发者可以通过 API 在自己的应用中集成实时翻译能力。
最小可用配置(Python):
config=types.LiveConnectConfig(response_modalities=["AUDIO"],translation_config=types.TranslationConfig(target_language_code="zh-Hans",# 目标语言:简体中文echo_target_language=True# 如果对方说的已经是中文,就原样回放))两个核心参数:
target_language_code:你要翻成什么语言(zh-Hans=简体中文,ja=日语,en=英语)echo_target_language:如果对方说的本来就是目标语言,设为true原样回放,设为false保持静默
已集成的开发平台:
Agora、Fishjam、LiveKit、Pipecat 等已经做好了和这个 API 的集成——开发者不需要自己处理音频流的工程问题。
一个真实案例:
东南亚打车平台Grab正在测试这个模型,用于司机和乘客在接驾时的多语言通话。Grab 每月有超过1000万通语音电话通过平台拨出。
一个泰国司机和一个日本游客之间的电话,双方各说各的语言,模型在中间做实时双向翻译。
🌐 五、支持的语言
70多种语言,覆盖全球主要语种。
| 语言 | 代码 | 语言 | 代码 |
|---|---|---|---|
| 中文(简体) | zh-Hans | 英语 | en |
| 中文(繁体) | zh-Hant | 日语 | ja |
| 西班牙语 | es | 韩语 | ko |
| 法语 | fr | 德语 | de |
| 俄语 | ru | 阿拉伯语 | ar |
| 葡萄牙语(巴西) | pt-BR | 印地语 | hi |
| 泰语 | th | 越南语 | vi |
| 印尼语 | id | 土耳其语 | tr |
(完整 70+ 语言见官方文档)
💡BCP-47 代码:这是国际通用的语言编码标准。比如
zh-Hans表示“简体中文”,zh-Hant表示“繁体中文”,en-US表示“美式英语”。
🔒 六、安全标记:防止 AI 语音被滥用
所有 3.5 Live Translate 生成的音频都用SynthID做了水印标记。
- 这个水印人耳听不出来
- 但可以被技术手段检测到
- 目的是标记哪些语音是 AI 生成的,防止有人拿翻译后的语音去冒充真人
💡SynthID:Google DeepMind 开发的 AI 内容水印技术,类似纸币上的防伪标记,肉眼看不见但机器能验。
💡 七、几个能立刻想到的使用场景
| 场景 | 具体画面 | 用哪个产品 |
|---|---|---|
| 海外旅行 | 在巴黎问路、在东京点菜、在伊斯坦布尔砍价,手机贴耳朵实时听翻译 | Google Translate App |
| 跨国团队会议 | 中美日三地同事开周会,各说各的语言,每个人听到自己语言的翻译 | Google Meet |
| 国际客服 | 客服团队处理多语言来电,不需要按语种分组 | Gemini Live API |
| 出海直播 | 中文主播面向多语言观众,实时生成多语种配音 | Gemini Live API |
| 跨国打车/外卖 | 司机和乘客语言不通时的通话翻译 | Gemini Live API(如 Grab) |
| 课堂/培训 | 留学生用耳机听母语翻译的课堂讲授 | Google Meet 或 API |
⚠️ 八、它还不能做什么?
Google 自己也承认了当前限制:
- 语音复制的准确性会“飘”(有些词翻得不够准)
- 相似语言会混淆(比如西班牙语和葡萄牙语靠太近时)
- 多人快速对话时,声音可能会“卡”
但对于旅行问路、跨国开会、打车点菜这些日常场景,“够用”的门槛已经跨过去了。
传统同声传译员培训周期以年计算,全球能做好的人极少,收费极高。
3.5 Live Translate 当然还做不到专业同传的水平,
但它把“边听边译”从一个稀缺的专业技能,变成了手机上随时可用的功能。
✅ 总结
| 层次 | 核心内容 |
|---|---|
| 小白理解 | Google 做了一个能边说边译的翻译模型,70+语言,还保留语气 |
| 怎么用 | ① Google Translate App(手机贴耳)② Google Meet(企业会议)③ API(开发者集成) |
| 核心能力 | 自动检测语言、保留语调节奏、滤除噪音、SynthID 水印防滥用 |
Gemini 3.5 Live Translate—— 不是更聪明的助手,是更平等的沟通。
Google 推倒了巴别塔。剩下的,是你愿不愿意拿起手机。