ИИ отвечает в 15 раз быстрее — без потери качества

DFlash от UC San Diego генерирует блоки токенов за один проход, разгоняя ответы ИИ до 15x на NVIDIA Blackwell. Открытый код, совместим с vLLM.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

В 15 раз быстрее. Такой прирост пропускной способности зафиксировала NVIDIA, тестируя DFlash — новый открытый метод от исследователей UC San Diego — на своих чипах Blackwell с моделью на 120 миллиардов параметров. Blackwell — это не лаборатория, а последнее поколение реального «железа», которое уже стоит в дата-центрах крупнейших облачных провайдеров.

Целыми блоками, а не по одному слову

Обычно ИИ работает как человек, печатающий сообщение посимвольно: выбрал токен, вывел его, выбрал следующий. DFlash переворачивает эту логику. Небольшая вспомогательная модель за один шаг набрасывает целый блок токенов — как штамп, который бьёт сразу всё слово. Большая модель потом смотрит на блок, принимает удачные части и тут же поправляет остальные. Если черновик хороший — весь блок выходит мгновенно.

Ключевое отличие DFlash от предыдущих попыток сделать то же самое — точность черновика. Вспомогательная модель получает прямой сигнал от внутреннего состояния большой модели, поэтому «угадывает» правильнее. Больше токенов принимается с первого раза — меньше исправлений, выше итоговая скорость.

Цифры

На Qwen3-8B метод даёт в среднем 4.86x ускорения, пиковый показатель — 6.08x без потери качества. NVIDIA тестировала DFlash на модели 120B на чипах Blackwell и зафиксировала до 15x роста пропускной способности при тех же требованиях к задержке. Метод обходит предыдущего лидера в этом классе примерно в 2.5 раза. Работает с семействами Qwen3 (8B и 27B), LLaMA 3.1 и Gemma 4 31B.

Что это значит, если вы строите на ИИ

Если вы запускаете открытые модели на своих серверах — для продукта, внутреннего инструмента или ИИ-помощника в коде — DFlash означает, что те же мощности потянут в разы больше пользователей. Пятикратное ускорение на практике — это примерно в пять раз больше запросов на один сервер в минуту. Это напрямую меняет экономику работы с открытыми моделями против подписок на облачные API.

DFlash полностью открытый. Чекпоинты опубликованы на Hugging Face, интеграция готова для vLLM, библиотеки Transformers и TensorRT-LLM — самых распространённых инструментов для запуска открытых моделей. Никаких закрытых компонентов, никаких ограничений по лицензии. Это не анонс с листом ожидания — это работающий код, который можно запустить сегодня.

Что бы я сделал

Если у вас Qwen3 или LLaMA 3.1 на своём железе — возьмите чекпоинт DFlash и прогоните свой типичный сценарий до того, как браться за любые другие оптимизации. Настоящее пятикратное ускорение на одной модели — это в пять раз больше пользователей на один сервер, прямая экономия, которую стоит измерить. Если пользуетесь облачными API — Claude, GPT — менять ничего не нужно, но именно такие методы в итоге сделают и эти API заметно быстрее, когда провайдеры их внедрят.

#AI Infrastructure#Open Source#Speed

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: marktechpost.com