Gemma 4 12B: мультимодальный ИИ для ноутбука

Новая открытая Gemma 4 12B понимает текст, картинки и звук, запускается на ноутбуке с 16 ГБ и бесплатна под Apache 2.0. Приватный ИИ становится реальным.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Google выпустил Gemma 4 12B — открытую модель, которая понимает текст, картинки и звук и при этом запускается на ноутбуке, который у тебя, возможно, уже есть. Ей нужно около 16 ГБ видеопамяти или единой памяти, а это уже про приличный домашний компьютер, а не про арендованный облачный GPU. Веса лежат на Hugging Face и Kaggle под лицензией Apache 2.0 — то есть скачать и строить на них можно бесплатно. Почти весь мощный ИИ живёт в чужом дата-центре, а этот — не обязан.

Gemma 4 12B стоит в середине линейки Google, соединяя крошечную модель для устройств и более тяжёлую версию на 26B с архитектурой Mixture-of-Experts. Идея в том, что ты получаешь почти весь ум большой модели при менее чем половине её аппетита к памяти — по словам Google, в тестах она приближается к этой 26B-сестре. Для обычного человека перевод простой: способный мультимодальный ИИ сползает из облака на обычное железо.

Хитрость — в том, чего здесь нет

Заумная часть в заголовке — «единая, без кодировщиков» — как раз самое интересное. Старые мультимодальные модели навешивают отдельные блоки для картинок и звука, и каждый добавляет задержку и расход памяти. Gemma 4 от них отказывается. Для изображений используется лёгкий шаг встраивания вместо полноценного визуального кодировщика, а звук проецируется напрямую в то же пространство, что и текстовые токены. Меньше деталей — меньше задержка и меньше счёт за память, и именно это позволяет модели на 12B вести себя как куда более крупная на скромном железе. Google ещё подаёт её как заточенную под «многошаговые рассуждения и агентные сценарии» — тот самый режим «строй разговором», на котором держатся ИИ-инструменты для кода.

Зачем тебе модель, работающая локально, когда ChatGPT в соседней вкладке? Две причины, важные для обычных людей. Приватность: модель на твоём компьютере никогда не отправляет файлы, фото или записи на чей-то сервер — полезно для налоговых документов, медицинских снимков или записи, которую не хочется загружать. И независимость: она работает без подписки, без лимитов и без интернета, что — после недели, когда правительство отозвало передовую модель — уже не выглядит паранойей.

Не всё гладко. Модель на 12B по-настоящему умна, но в самых сложных задачах всё же на ступень ниже флагманов передового края, и чтобы её запустить, нужна небольшая настройка — хотя инструменты вроде LM Studio, Ollama и llama.cpp превратили это в дело вечера, а не в учёную степень.

Что бы я сделал

Если у тебя ноутбук с 16 ГБ и больше, поставь LM Studio или Ollama и скачай Gemma 4 12B на выходные для эксперимента — направь её на папку со своими документами или фото и задавай вопросы, всё офлайн. Быстро поймёшь, где локальная модель сильна (приватность, всегда под рукой, достаточно хорошие ответы), а где тебе всё ещё нужна флагманская модель в облаке. Понимать оба варианта — и есть настоящий навык.

Главный тренд здесь — не одна модель. Дело в том, что планка постоянно растёт: то, что год назад требовало сервера, теперь помещается на ноутбуке. Для всех, кому важно владеть своими инструментами, а не просто арендовать их, это самое обнадёживающее направление, в котором может двигаться ИИ.

#google#open-models#local-ai
ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в healthtech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: deepmind.google