Live Translate от Google говорит на 70+ языках

Gemini 3.5 Live Translate переводит голос в голос почти в реальном времени на 70+ языках, сохраняя интонацию. Скоро будет в приложении Google Translate.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Я путешествую с телефоном, забитым полубесполезными скриншотами переводов, так что эта новость зашла мне лично. Google показал Gemini 3.5 Live Translate — звуковую модель, которая переводит голос в голос почти в реальном времени более чем на 70 языках. Язык собеседника она определяет сама и, вместо того чтобы вежливо ждать конца фразы, переводит непрерывно, отставая от говорящего всего на пару секунд — даже в шумной комнате.

Деталь, которая важнее всего для меня, — не число языков, а то, как звучит результат. Модель сохраняет интонацию, темп и высоту голоса говорящего, поэтому переведённая речь несёт тот же ритм, что и оригинал, а не плоский роботизированный монотон, от которого мы все настрадались. Google описывает главный приём так: речь генерируется непрерывно, «балансируя между ожиданием контекста ради качества и немедленным переводом ради синхронности». Это напряжение — точность против задержки — и есть вся суть живого перевода, и Google ставит на синхронность.

Где это реально появится

Это не демо, запертое в лаборатории. Для обычных людей перевод выкатывается в приложении Google Translate на Android и iOS по всему миру. На Android появляется режим прослушивания: перевод идёт прямо через динамик у уха, и ты слышишь переведённый разговор в реальном времени. В Google Meet апгрейд прыгает с жалких пяти поддерживаемых языков и перевода только на английский до более чем 2000 языковых пар — это разница между галочкой в списке функций и тем, на что может опереться международная команда. Разработчикам доступ открыт уже сейчас через Gemini Live API и Google AI Studio; для компаний в этом месяце стартует закрытый предпросмотр в Meet.

Почему это важно, если ты не разработчик и не дипломат? Потому что языковой барьер — одна из последних по-настоящему твёрдых стен в повседневной жизни: разговор с врачом за границей, с арендодателем, с роднёй партнёра, с поставщиком из другой страны. Перевод по тексту уже давно достаточно хорош, а вот живой голосовой перевод, сохраняющий человеческую интонацию, — это другая категория. Он превращает скованный, выматывающий обмен фразами во что-то близкое к настоящему разговору.

Один тихий, но важный штрих: весь звук на выходе помечается водяным знаком SynthID — невидимой меткой Google для контента, сгенерированного ИИ. В год, когда поддельные ИИ-голоса стали реальным инструментом мошенников, встроенная с самого начала пометка происхождения — это правильное поведение по умолчанию, и о нём стоит знать.

Что бы я сделал

Обнови приложение Google Translate и попробуй режим прослушивания на ближайшем звонке или в поездке с человеком, с которым у вас нет общего языка — хоть при заказе еды, хоть в разговоре с родственником. Относись к этому как к инструменту уверенности, а не к юридическому: отлично для бытовой беседы, но для всего, что касается права, медицины или денег, важные моменты всё равно подтверждай с живым человеком. И помни: вывод помечен SynthID, так что фрагмент позже можно опознать как ИИ.

Не думаю, что это убьёт изучение языков — контекст, шутки и нюансы по-прежнему вознаграждают того, кто знает язык сам. Но для миллионов мелких ситуаций, где тебе просто нужно быть понятым прямо сейчас, стена становится заметно ниже.

#google#gemini#consumer-ai

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: deepmind.google