ИИ отвечает в 15 раз быстрее — без потери качества
DFlash от UC San Diego генерирует блоки токенов за один проход, разгоняя ответы ИИ до 15x на NVIDIA Blackwell. Открытый код, совместим с vLLM.
Евгений Арсентьев · PhDВ 15 раз быстрее. Такой прирост пропускной способности зафиксировала NVIDIA, тестируя DFlash — новый открытый метод от исследователей UC San Diego — на своих чипах Blackwell с моделью на 120 миллиардов параметров. Blackwell — это не лаборатория, а последнее поколение реального «железа», которое уже стоит в дата-центрах крупнейших облачных провайдеров.
Целыми блоками, а не по одному слову
Обычно ИИ работает как человек, печатающий сообщение посимвольно: выбрал токен, вывел его, выбрал следующий. DFlash переворачивает эту логику. Небольшая вспомогательная модель за один шаг набрасывает целый блок токенов — как штамп, который бьёт сразу всё слово. Большая модель потом смотрит на блок, принимает удачные части и тут же поправляет остальные. Если черновик хороший — весь блок выходит мгновенно.
Ключевое отличие DFlash от предыдущих попыток сделать то же самое — точность черновика. Вспомогательная модель получает прямой сигнал от внутреннего состояния большой модели, поэтому «угадывает» правильнее. Больше токенов принимается с первого раза — меньше исправлений, выше итоговая скорость.
Цифры
На Qwen3-8B метод даёт в среднем 4.86x ускорения, пиковый показатель — 6.08x без потери качества. NVIDIA тестировала DFlash на модели 120B на чипах Blackwell и зафиксировала до 15x роста пропускной способности при тех же требованиях к задержке. Метод обходит предыдущего лидера в этом классе примерно в 2.5 раза. Работает с семействами Qwen3 (8B и 27B), LLaMA 3.1 и Gemma 4 31B.
Что это значит, если вы строите на ИИ
Если вы запускаете открытые модели на своих серверах — для продукта, внутреннего инструмента или ИИ-помощника в коде — DFlash означает, что те же мощности потянут в разы больше пользователей. Пятикратное ускорение на практике — это примерно в пять раз больше запросов на один сервер в минуту. Это напрямую меняет экономику работы с открытыми моделями против подписок на облачные API.
DFlash полностью открытый. Чекпоинты опубликованы на Hugging Face, интеграция готова для vLLM, библиотеки Transformers и TensorRT-LLM — самых распространённых инструментов для запуска открытых моделей. Никаких закрытых компонентов, никаких ограничений по лицензии. Это не анонс с листом ожидания — это работающий код, который можно запустить сегодня.
Если у вас Qwen3 или LLaMA 3.1 на своём железе — возьмите чекпоинт DFlash и прогоните свой типичный сценарий до того, как браться за любые другие оптимизации. Настоящее пятикратное ускорение на одной модели — это в пять раз больше пользователей на один сервер, прямая экономия, которую стоит измерить. Если пользуетесь облачными API — Claude, GPT — менять ничего не нужно, но именно такие методы в итоге сделают и эти API заметно быстрее, когда провайдеры их внедрят.
Гайды по теме

Автор
Евгений Арсентьев
PhD · Директор по продукту (CPO) в tech-компании
Хочешь реально это построить?
Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.
◉ Начать бесплатный курсИсточник: marktechpost.com