Новая ИИ-модель Google пишет текст в разы быстрее

Google DeepMind выпустил DiffusionGemma — открытую модель на Apache 2.0, которая генерирует текст блоками через диффузию: 1100+ токенов в секунду при 3.8B активных параметров.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Google DeepMind выпустил DiffusionGemma-26B-A4B-it — открытую мультимодальную модель, которая отказывается от привычного способа генерации «по одному токену», на котором работает почти любой чат-бот. Вместо того чтобы предсказывать следующее слово, затем ещё одно, она генерирует целые блоки текста сразу и доводит их через диффузионное «расшумление» — ту же идею, что стоит за генераторами картинок, перенесённую на язык. Результат — скорость: модель выдаёт больше 1100 токенов в секунду за счёт параллельного декодирования, далеко обгоняя сопоставимую авторегрессионную модель.

Внутри — архитектура Mixture-of-Experts: 26 миллиардов параметров всего, но активны на каждом шаге лишь около 3.8 миллиарда, из 128 экспертов срабатывают 8. На вход принимает текст, изображения и видео, держит окно контекста до 256K, поддерживает 35+ языков, имеет режим рассуждений и выходит под свободной лицензией Apache 2.0. На бенчмарках цифры приличные — 77.6% на MMLU Pro, 70.5% на MATH-Vision, — хотя в целом она уступает обычной линейке Gemma 4. Размен сделан сознательно: немного точности ради большой пропускной способности.

Почему диффузия для текста — это важно

Авторегрессионные модели последовательны по своей природе: каждый токен ждёт предыдущего, и это упирает скорость в потолок, сколько GPU ни добавляй. Диффузия обходит это узкое место, работая сразу со многими позициями параллельно и доводя их за несколько проходов. Исследования текстовой диффузии идут давно, но релиз от самой Google такого масштаба — с открытыми весами и реальным мультимодальным стеком — это самый сильный сигнал, что подход выходит из лаборатории.

Архитектура также опирается на разреженность: держать активными лишь 3.8B параметров — значит, что модель дешевле в работе, чем намекает её заголовочный размер в 26B, а это ровно то, что нужно, когда вся суть в скорости.

Почему это важно для тебя

Если ты что-то строишь поверх языковых моделей, задержка и стоимость — обычно две стены, в которые упираешься первыми. Модель, которая выдаёт 1100+ токенов в секунду, меняет ощущение возможного: разбор документов в реальном времени, OCR, интерактивные агенты, которые не заставляют ждать. А поскольку веса открыты под Apache 2.0, её можно гонять на своём железе, а не считать каждый вызов по чужому API.

Моя мысль: я бы не менял топовую рассуждающую модель на эту там, где важна точность, — Gemma 4 всё ещё впереди. Но для объёмных задач, чувствительных к задержке, где «быстро и достаточно хорошо» бьёт «медленно и идеально», на DiffusionGemma стоит посмотреть всерьёз — хотя бы чтобы понять, как ведёт себя неавторегрессионная модель в твоём пайплайне.

Что бы я сделал

Скачай веса с Hugging Face и прогони её против своей текущей модели на собственной задаче — замерь токены в секунду и качество бок о бок. Если твоё узкое место — скорость или стоимость вызова, а не пиковая точность, диффузионный подход может тихо себя окупить.

#Google#open models#diffusion LLM#Gemma

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: huggingface.co