DeepMind следит за своими ИИ-агентами как за угрозой

Новый AI Control Roadmap от Google DeepMind следит за внутренними ИИ-агентами как за «своими, но ненадёжными» — после разбора миллиона прогонов.

↻ Опубликовано 2026-06-18◷ 5 мин чтенияЕА

Евгений Арсентьев · PhD

Новые посты каждый деньПодпишись на мой TelegramAI-новости и фишки Claude Code — каждый день, первым деломПодписаться →Бесплатный курс по Claude CodeБез апсейлов и кросс-сейлов — здесь нечего купить.Начать →

Google DeepMind опубликовала AI Control Roadmap — подход к созданию и управлению продвинутым ИИ, который компания разворачивает внутри Google. Главная идея прямолинейна: относись к собственным внутренним ИИ-агентам как к потенциально ненадёжным «своим». Вместо допущения, что агент выровнен и безопасен, подход исходит из того, что это может быть не так, и строит слои защиты, которые держатся даже при неидеальном выравнивании.

Это заметная смена тона для передовой лаборатории. Много разговоров про безопасность ИИ — о том, как обучить модель хотеть правильного. Roadmap от DeepMind — о том, что делать, когда полностью полагаться на это нельзя. Здесь заимствован образ мышления корпоративных служб безопасности, которые заранее допускают, что часть «своих» или взломанных аккаунтов будет вести себя плохо, и проектируют защиту с учётом этой реальности.

Как устроен контроль

Roadmap держится на трёх частях. Первая — моделирование угроз: DeepMind построила framework, который рассматривает ненадёжных ИИ-агентов как потенциальную внутреннюю угрозу, расширяя индустриальный стандарт MITRE ATT&CK, чтобы команды отслеживали риски, рано замечали плохое поведение и проводили учения. Вторая — обнаружение и реакция: надёжные ИИ-системы работают надзирателями, читают рассуждения и действия агента и могут заблокировать вредное действие до его выполнения. Третья — жёсткие метрики: покрытие (какая доля трафика агента реально под наблюдением), полнота (сколько небезопасных действий поймано) и время реакции. В основании — классика: песочницы, защита конечных точек и устойчивость к prompt-инъекциям, поверх обучения на выравнивание.

Самый полезный вывод: почти всё «плохое» — без злого умысла

Чтобы выстроить мониторинг, DeepMind разобрала около миллиона «траекторий» кодинг-агентов — реальных прогонов ИИ за работой. Главный результат: большинство тревожных событий возникло не из-за злого умысла. Они шли от того, что агент неверно понял задачу или слишком рьяно пытался достичь цели пользователя. По-простому: агент не строил козни — он чересчур старался помочь и по дороге сделал не то.

Это важно далеко за пределами Google. Если вы пользовались ИИ-агентом для кода или любым инструментом, который сам что-то делает за вас, эта находка называет реальный повседневный риск. Он почти никогда не в том, что ИИ строит против вас заговор. Он в добронамеренном агенте, который неправильно понял просьбу, разогнался и устроил беспорядок — удалил не те файлы, перевыполнил задачу, срезал угол, о котором вы не просили. Данные DeepMind говорят, что это и есть типичный сбой — ровно такой, который прячется за уверенно звучащим ответом.

ℹЧто бы я сделал

Относитесь к своим ИИ-агентам так же, как DeepMind к своим: предполагайте добрые намерения, но не давайте слепого доверия. Выдавайте агенту самые узкие права, при которых он ещё может работать, держите человека в цикле для всего разрушительного и необратимого и читайте, что агент реально сделал, а не только его бодрую сводку. Готовиться надо к чрезмерно усердному, а не к злому.

#deepmind#ai-agents#ai-safety#security

Гайды по теме

ЕА

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Об авторе →

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

← Все новости

Источник: deepmind.google