MiniMax MSA: контекст 1M токенов в 28 раз дешевле

MiniMax выпустил MSA — разреженное внимание: вычисления на токен в 28 раз меньше при контексте 1M, а качество на бенчмарках держится. Уже в модели M3.

5 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

MiniMax выпустил MSA (MiniMax Sparse Attention) — метод, который снижает вычисления на токен в 28,4 раза при контексте в один миллион токенов и при этом, по словам компании, не уступает обычному «полному» вниманию на стандартных бенчмарках. Это не эксперимент ради статьи: MiniMax уже встроил MSA в свою рабочую модель MiniMax-M3 и открыл ядро для инференса под лицензией MIT.

Вот узкое место, на которое он нацелен. Механизм «внимания» в основе любой современной языковой модели сравнивает каждый токен с каждым, поэтому затраты растут как квадрат длины ввода. Подайте на вход целую кодовую базу или книгу — те самые длинные контексты, которые сейчас всем нужны, — и именно эта квадратичная стоимость делает работу медленной и дорогой. Разреженное внимание пытается пропускать сравнения, которые не важны, и вся хитрость — сделать это, не поглупев.

Как работает приём с двумя ветками

MSA делит задачу надвое. Лёгкая «ветка-индекс» сначала оценивает куски ввода — блоки по 128 токенов — и выбирает 16 самых релевантных для каждого запроса, всегда сохраняя локальный блок, где находится сам запрос. Затем «основная ветка» делает настоящие, точные вычисления внимания, но только по этим выбранным блокам, а не по всему вводу. То есть каждый токен «смотрит» на фиксированный бюджет около 2048 токенов независимо от длины документа — поэтому экономия взрывается на длинном контексте: в 28,4 раза меньше вычислений на токен при 1M, а на GPU Nvidia H800 — в 14,2 раза быстрее на этапе подготовки и в 7,6 раза при генерации.

Важнее скорости — держится ли качество. MiniMax сообщает, что модель с MSA, обученная с нуля, по сути идёт вровень с полным вниманием — MMLU 67,2 против 67,0, GSM8K 77,7 против 76,2, HumanEval 64,0 против 61,0 — и даже немного впереди на тесте поиска по длинному контексту (RULER-8K, 84,2 против 79,8). Иными словами, компания заявляет, что большой выигрыш в скорости достаётся почти бесплатно. Базовая модель — Mixture-of-Experts на 109B параметров, обученная на 3 триллионах токенов, а опубликованное ядро fmha_sm100 поддерживает современные форматы низкой точности вроде FP8 и FP4.

Зачем это вам, если вы не обучаете модели? Затем, что это та самая «сантехника», которая тихо делает ваши инструменты дешевле и быстрее. Длинный контекст — это то, что позволяет ИИ за раз прочитать весь проект, большой PDF или переписку за месяцы, и сейчас это дорогой режим. Сделайте его дешевле в 28 раз — и он перестаёт быть премиум-функцией и становится нормой. Честная оговорка: каждая лаборатория заявляет, что её разреженное внимание не уступает полному, а проблемы обычно вылезают на сложных, нестандартных вводах, которые бенчмарки не ловят. Я бы относился к формулировке «бесплатный сыр» как к «дешёвому сыру», пока это не воспроизведёт кто-то вне MiniMax.

В мелком шрифте есть реальные ограничения. Открытое ядро пока работает только на новейших GPU Nvidia SM100; для другого железа нужна своя реализация. На части подзадач бенчмарков всё ещё видны небольшие отставания от полного внимания, и все результаты — из собственного набора тестов MiniMax, без сторонней проверки. И всё же то, что метод вышел в рабочей модели, а не в демо, — значимый сигнал: гонка за эффективностью длинного контекста явно набирает обороты.

Что бы я сделал

Если вы строите на LLM, следите за трендом, а не за одной моделью: стоимость длинного контекста падает, так что архитектуры, которые год назад вы отвергли как «слишком дорого впихивать всё в промпт», стоит пересмотреть. Если вы просто пользуетесь ИИ, вывод проще — сценарии «скорми всё целиком», вроде загрузки целого документа или кодовой базы, скоро станут дешевле и привычнее у разных провайдеров, а не только у MiniMax.

#minimax#long-context#open-models

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: marktechpost.com