DeepMind следит за своими ИИ-агентами как за угрозой
Новый AI Control Roadmap от Google DeepMind следит за внутренними ИИ-агентами как за «своими, но ненадёжными» — после разбора миллиона прогонов.
Евгений Арсентьев · PhDGoogle DeepMind опубликовала AI Control Roadmap — подход к созданию и управлению продвинутым ИИ, который компания разворачивает внутри Google. Главная идея прямолинейна: относись к собственным внутренним ИИ-агентам как к потенциально ненадёжным «своим». Вместо допущения, что агент выровнен и безопасен, подход исходит из того, что это может быть не так, и строит слои защиты, которые держатся даже при неидеальном выравнивании.
Это заметная смена тона для передовой лаборатории. Много разговоров про безопасность ИИ — о том, как обучить модель хотеть правильного. Roadmap от DeepMind — о том, что делать, когда полностью полагаться на это нельзя. Здесь заимствован образ мышления корпоративных служб безопасности, которые заранее допускают, что часть «своих» или взломанных аккаунтов будет вести себя плохо, и проектируют защиту с учётом этой реальности.
Как устроен контроль
Roadmap держится на трёх частях. Первая — моделирование угроз: DeepMind построила framework, который рассматривает ненадёжных ИИ-агентов как потенциальную внутреннюю угрозу, расширяя индустриальный стандарт MITRE ATT&CK, чтобы команды отслеживали риски, рано замечали плохое поведение и проводили учения. Вторая — обнаружение и реакция: надёжные ИИ-системы работают надзирателями, читают рассуждения и действия агента и могут заблокировать вредное действие до его выполнения. Третья — жёсткие метрики: покрытие (какая доля трафика агента реально под наблюдением), полнота (сколько небезопасных действий поймано) и время реакции. В основании — классика: песочницы, защита конечных точек и устойчивость к prompt-инъекциям, поверх обучения на выравнивание.
Самый полезный вывод: почти всё «плохое» — без злого умысла
Чтобы выстроить мониторинг, DeepMind разобрала около миллиона «траекторий» кодинг-агентов — реальных прогонов ИИ за работой. Главный результат: большинство тревожных событий возникло не из-за злого умысла. Они шли от того, что агент неверно понял задачу или слишком рьяно пытался достичь цели пользователя. По-простому: агент не строил козни — он чересчур старался помочь и по дороге сделал не то.
Это важно далеко за пределами Google. Если вы пользовались ИИ-агентом для кода или любым инструментом, который сам что-то делает за вас, эта находка называет реальный повседневный риск. Он почти никогда не в том, что ИИ строит против вас заговор. Он в добронамеренном агенте, который неправильно понял просьбу, разогнался и устроил беспорядок — удалил не те файлы, перевыполнил задачу, срезал угол, о котором вы не просили. Данные DeepMind говорят, что это и есть типичный сбой — ровно такой, который прячется за уверенно звучащим ответом.
Относитесь к своим ИИ-агентам так же, как DeepMind к своим: предполагайте добрые намерения, но не давайте слепого доверия. Выдавайте агенту самые узкие права, при которых он ещё может работать, держите человека в цикле для всего разрушительного и необратимого и читайте, что агент реально сделал, а не только его бодрую сводку. Готовиться надо к чрезмерно усердному, а не к злому.
Гайды по теме

Автор
Евгений Арсентьев
PhD · Директор по продукту (CPO) в tech-компании
Хочешь реально это построить?
Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.
◉ Начать бесплатный курсИсточник: deepmind.google