Gradium переводит речь живьём — быстрее GPT

Gradium выпустил два голосовых переводчика в реальном времени — точнее и быстрее GPT, почти вровень с Gemini. API доступен уже сейчас.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

3,0 секунды — столько в среднем нужно новым моделям Gradium, чтобы услышать твою речь на английском и выдать перевод на французский, немецкий, испанский или португальский. OpenAI's gpt-realtime-translate тратит 3,6 секунды. Google Gemini Live Translate — 2,9 секунды. Gradium стоит между ними по скорости, но по точности обгоняет обоих.

Стартап только что запустил два продукта: stt-translate (речь → переведённый текст) и s2s-translate (речь → переведённая речь). Вместе они закрывают 20 двусторонних языковых пар: английский, французский, немецкий, испанский, португальский.

Чем этот подход отличается

Большинство голосовых переводчиков сегодня работают как эстафета: первая система переводит твою речь в текст, вторая переводит текст на другой язык, третья озвучивает результат. Каждая передача эстафеты добавляет задержку и создаёт новое место для ошибки — одна плохая транскрипция в начале тихо портит всё остальное.

Gradium сжал эту цепочку с трёх звеньев до двух. Модель stt-translate делает транскрипцию и перевод за один шаг, без промежуточной передачи. Весь обмен идёт через одно постоянное соединение — отсюда и плотная задержка при сохранении точности. Модель s2s-translate дополнительно позволяет выбрать голос или клонировать существующий — этого у GPT realtime translation нет.

По бенчмаркам Gradium сообщает, что обходит gpt-realtime-translate и gemini-3.5-live-translate по метрике BLEU (стандартная оценка того, насколько близко перевод передаёт смысл оригинала), а GPT — ещё и по MetricX. Цифры самоотчётные, держи это в голове, — но архитектура хотя бы делает их правдоподобными.

Что это значит для билдера

Если ты собираешь что-то голосовое — ассистента для звонков, приложение для изучения языков, многоязычного чат-бота для поддержки, — Gradium теперь третий серьёзный вариант рядом с OpenAI и Google. API работает на gradium.ai/translate, Python SDK с асинхронным стримингом уже готов, то есть подключить его можно без переписывания всего проекта.

Ограничения, о которых стоит знать

Пока только пять языков — ни русского, ни хинди, ни мандаринского, ни японского. Gradium — новое имя без публичных цен, так что это только старт. Но направление ясное: голосовой перевод в реальном времени становится обычным API, и разрыв между лучшими вариантами стремительно сокращается.

#voice-ai#translation#api#real-time#speech

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: marktechpost.com