Новая ИИ-модель Google пишет текст в разы быстрее
Google DeepMind выпустил DiffusionGemma — открытую модель на Apache 2.0, которая генерирует текст блоками через диффузию: 1100+ токенов в секунду при 3.8B активных параметров.
Евгений Арсентьев · PhDGoogle DeepMind выпустил DiffusionGemma-26B-A4B-it — открытую мультимодальную модель, которая отказывается от привычного способа генерации «по одному токену», на котором работает почти любой чат-бот. Вместо того чтобы предсказывать следующее слово, затем ещё одно, она генерирует целые блоки текста сразу и доводит их через диффузионное «расшумление» — ту же идею, что стоит за генераторами картинок, перенесённую на язык. Результат — скорость: модель выдаёт больше 1100 токенов в секунду за счёт параллельного декодирования, далеко обгоняя сопоставимую авторегрессионную модель.
Внутри — архитектура Mixture-of-Experts: 26 миллиардов параметров всего, но активны на каждом шаге лишь около 3.8 миллиарда, из 128 экспертов срабатывают 8. На вход принимает текст, изображения и видео, держит окно контекста до 256K, поддерживает 35+ языков, имеет режим рассуждений и выходит под свободной лицензией Apache 2.0. На бенчмарках цифры приличные — 77.6% на MMLU Pro, 70.5% на MATH-Vision, — хотя в целом она уступает обычной линейке Gemma 4. Размен сделан сознательно: немного точности ради большой пропускной способности.
Почему диффузия для текста — это важно
Авторегрессионные модели последовательны по своей природе: каждый токен ждёт предыдущего, и это упирает скорость в потолок, сколько GPU ни добавляй. Диффузия обходит это узкое место, работая сразу со многими позициями параллельно и доводя их за несколько проходов. Исследования текстовой диффузии идут давно, но релиз от самой Google такого масштаба — с открытыми весами и реальным мультимодальным стеком — это самый сильный сигнал, что подход выходит из лаборатории.
Архитектура также опирается на разреженность: держать активными лишь 3.8B параметров — значит, что модель дешевле в работе, чем намекает её заголовочный размер в 26B, а это ровно то, что нужно, когда вся суть в скорости.
Почему это важно для тебя
Если ты что-то строишь поверх языковых моделей, задержка и стоимость — обычно две стены, в которые упираешься первыми. Модель, которая выдаёт 1100+ токенов в секунду, меняет ощущение возможного: разбор документов в реальном времени, OCR, интерактивные агенты, которые не заставляют ждать. А поскольку веса открыты под Apache 2.0, её можно гонять на своём железе, а не считать каждый вызов по чужому API.
Моя мысль: я бы не менял топовую рассуждающую модель на эту там, где важна точность, — Gemma 4 всё ещё впереди. Но для объёмных задач, чувствительных к задержке, где «быстро и достаточно хорошо» бьёт «медленно и идеально», на DiffusionGemma стоит посмотреть всерьёз — хотя бы чтобы понять, как ведёт себя неавторегрессионная модель в твоём пайплайне.
Скачай веса с Hugging Face и прогони её против своей текущей модели на собственной задаче — замерь токены в секунду и качество бок о бок. Если твоё узкое место — скорость или стоимость вызова, а не пиковая точность, диффузионный подход может тихо себя окупить.
Гайды по теме

Автор
Евгений Арсентьев
PhD · Директор по продукту (CPO) в tech-компании
Хочешь реально это построить?
Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.
◉ Начать бесплатный курсИсточник: huggingface.co