Gemini 3.5 Flash теперь управляет компьютером

Google добавил управление компьютером в Gemini 3.5 Flash — ИИ теперь видит экран и сам управляет браузером, приложениями и мобильными интерфейсами прямо через API.

5 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Gemini 3.5 Flash — быстрая и недорогая модель Google, которую разработчики уже используют для работы с текстом, изображениями и функциями — научился управлять компьютером. Теперь он видит экран и может действовать: переходить по браузеру, нажимать на элементы мобильного интерфейса, работать с десктопными приложениями. До сегодняшнего дня такая возможность была только в отдельной модели Gemini 2.5. Теперь она встроена прямо в Flash — переключать модель не нужно.

Настоящая проверка для любого ИИ, управляющего компьютером, — умеет ли он вести длинные многошаговые задачи, а не просто одиночные клики. Google показывает Gemini 3.5 Flash именно в этом: открыть браузер, заполнить форму, переключиться в таблицу, проверить результат, вернуться назад. Корпоративные процессы, которые раньше требовали специальных инструментов для автоматизации кликов, теперь получают прямой AI-путь.

Уже работает в реальных продуктах

Три компании — Browserbase, Browser Use и UiPath — уже используют эту возможность в production-приложениях. Сценарии: непрерывное тестирование ПО (агент кликает по вашему приложению как реальный пользователь, автоматически), автоматизация работы с документами и знаниями, чтение живых веб-страниц вместо кэша. Это не исследовательский preview — это работающие продукты.

Как Google решает проблему безопасности

Ключевой риск у любого ИИ, управляющего компьютером: веб-страница или документ может внедрить инструкции и перенаправить агента делать то, чего пользователь не хотел. Защита у Google двухуровневая. Модель обучена распознавать и блокировать такие попытки — и при их обнаружении автоматически останавливает задачу, вместо того чтобы продолжить. Для чувствительных действий (отправка форм, написание сообщений) система может потребовать явного подтверждения от пользователя перед тем, как продолжить.

Google также рекомендует разработчикам добавить ещё несколько слоёв: запускать агента в изолированной среде с ограниченным доступом к реальной системе, держать человека в цикле для значимых шагов и ограничивать права через строгие разрешения. Это не встроено автоматически — это задача разработчика. Но в документации прямо сказано: это ожидаемая часть production-настройки.

Почему это важно для билдеров

Управление компьютером было «последней милей», которую AI-воркфлоу не мог пройти без костылей. Генерировать текст, анализировать данные, писать код — всё это было. А вот открыть браузер и реально что-то сделать с результатом требовало подключения отдельного инструмента автоматизации. То, что Gemini 3.5 Flash закрывает этот пробел внутри модели, которую вы, возможно, уже используете — это практический выигрыш. Агент поддержки может сам залезть в CRM. QA-агент — нажать кнопку в приложении точно как живой тестировщик.

Доступно сегодня через Gemini API и Gemini Enterprise Agent Platform. Для тех, кто хочет попробовать до интеграции — есть демо-среда от Browserbase.

Что бы я сделал

Если в вашем процессе есть шаг, где сейчас нужен человек, чтобы «просто нажать эту кнопку» — сейчас хороший момент сделать прототип с Gemini computer use. Начните с малого: возьмите одну конкретную подзадачу, запустите агента в изолированной среде с ограниченными правами, оставьте запрос подтверждения для всего, что меняет данные. Возможность настоящая — а то, насколько она будет полезной или хаотичной, зависит от ограничений, которые вы вокруг неё выставите.

#gemini#google#computer-use#agents#ai-tools

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: deepmind.google