Открытая модель 3B спорит с гигантами в математике

VibeThinker-3B на 3 млрд параметров под лицензией MIT тягается с моделями на 671B и 1T в математических тестах и влезает на одну видеокарту.

↻ Опубликовано 2026-06-20◷ 4 мин чтенияЕА

Евгений Арсентьев · PhD

Новые посты каждый деньПодпишись на мой TelegramAI-новости и фишки Claude Code — каждый день, первым деломПодписаться →Бесплатный курс по Claude CodeБез апсейлов и кросс-сейлов — здесь нечего купить.Начать →

Новая открытая модель всего на 3 миллиарда параметров на равных тягается с системами рассуждения, которые в сотни раз больше, на сложной математике. VibeThinker-3B, созданная компанией Sina Weibo и выпущенная под свободной лицензией MIT, набирает 94.3 на математическом бенчмарке AIME26 — обходя DeepSeek V3.2 (671 млрд параметров) с её 94.2 и Kimi K2.5 (1 трлн) с 93.3. На отложенном наборе незнакомых задач LeetCode она прошла 123 из 128 с первой попытки.

Разница в размере — главное в этой истории. VibeThinker обучена не с нуля: это дообученный специалист поверх Qwen2.5-Coder-3B. Её веса в формате BF16 занимают около 6 ГБ — достаточно мало, чтобы крутиться на одной потребительской видеокарте. Модель, помещающаяся на одну карту, на определённом классе задач конкурирует с теми, кому нужна серверная стойка.

Как маленькая модель бьёт выше своего веса

Секрет — в рецепте обучения, который авторы называют Spectrum-to-Signal. По-простому: сначала модель учат широкому спектру возможных путей решения, а не одному заученному ответу («спектр»), затем через обучение с подкреплением заостряют те, что реально работают («сигнал»), концентрируясь на задачах прямо на грани её текущих возможностей. Есть и опциональный шаг на этапе ответа: модель генерирует несколько попыток, проверяет собственные промежуточные утверждения и голосует за самый надёжный ответ — это поднимает AIME26 до 97.1 без единого лишнего параметра.

Стоит чётко обозначить, где она блистает, а где нет. На математике и спортивном программировании VibeThinker-3B обменивается ударами с гигантами. А на широких знаниевых тестах вроде GPQA-Diamond у неё 70.2 — заметно позади 82.4 у DeepSeek и 87.6 у Kimi: чистое запоминание фактов действительно растёт с размером, и в 3 миллиарда параметров много не поместишь. Это острый инструмент, а не швейцарский нож.

Почему это важно для тебя

Практический вывод — про цену и контроль. Если 3B-модель тянет твою узкую задачу — математику, код, структурные рассуждения, — её можно гонять локально, приватно и фактически по цене электричества, а не платить за каждый токен фронтир-API. Для всех, кто строит продукт на ИИ, это разница между фичей, которая работает бесплатно, и той, что кровоточит деньгами на масштабе.

Это и подтачивает убеждение, что больше всегда значит лучше. Сюжет 2026-го — не только гонка лабораторий с триллионами параметров, но и небольшие специализированные модели, которые дорастают до состояния, когда фронтир перестаёт быть единственным вариантом. Лицензия MIT означает, что VibeThinker можно взять, изучить, дообучить и встроить — без разрешения, без лимитов и без рубильника со стороны.

Моё прочтение: не хватайся за самую большую модель по привычке. Для узко очерченной задачи дообученная маленькая модель часто быстрее, дешевле и целиком твоя — а «целиком твоя» стоит дорого, когда неподконтрольный тебе API может за ночь поменять цену или убрать модель.

ℹЧто бы я сделал

Прежде чем по умолчанию идти во фронтир-API, спроси себя: твоя задача правда узкая — математика, код, классификация? Если да — прогони небольшую открытую модель вроде этой на своих реальных примерах. Прошла планку — и ты только что поменял регулярный счёт на разовую настройку, работающую на твоём железе.

#open source#AI models#reasoning

Гайды по теме

ЕА

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Об авторе →

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

← Все новости

Источник: marktechpost.com