▌ GitHub-радар

DeepSeek открыл инструментарий ускорения LLM

DeepSeek AI выложила полный код своего проекта по спекулятивному декодированию — технике, которая ускоряет генерацию ответов у больших языковых моделей, не трогая саму модель.

01deepseek-ai/DeepSpec 2.6kPython

Спекулятивное декодирование работает так: маленькая «черновая» модель дёшево генерирует серию токенов, а большая основная модель проверяет весь пакет за один проход — это кратно снижает задержку. DeepSpec включает три алгоритма обучения (DSpark, DFlash и Eagle3), пайплайн для формирования кэшированных датасетов и систему оценки на бенчмарках GSM8K, MATH и HumanEval. Репозиторий сразу содержит готовые чекпоинты черновых моделей для Qwen3 и Gemma, протестированные на восьми GPU.

Зачем это вайб-кодеру

Если вы запускаете локальную языковую модель или платите за токены в облаке, ускорение вывода напрямую снижает расходы и время ожидания. Готовые чекпоинты означают, что обучать ничего не нужно — их можно подключить к уже работающему развёртыванию Qwen3 или Gemma, и ускорение включается сразу.

Открыть на GitHub →