GPT-5.5-Cyber обходит Mythos в кибербезопасности

GPT-5.5-Cyber от OpenAI набрал 85,6% на CyberGym, опередив Mythos 5 от Anthropic. Плагин Codex Security уже нашёл 500 000 уязвимостей в 30 млн коммитов.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

85,6% против 83,8% на бенчмарке CyberGym — это заголовок. Но интереснее другое число: разрыв между новой специализированной моделью OpenAI и её же базовой версией. На ExploitGym — тесте, проверяющем реальную способность находить уязвимости, — GPT-5.5-Cyber набрал 39,5% против 25,95% у базового GPT-5.5. На SEC-bench Pro: 69,8% против 63,1%. OpenAI сегодня выпустила GPT-5.5-Cyber как главный элемент расширенной программы Daybreak, и эти цифры подтверждают простой тезис: модель, специально обученная на задачах кибербезопасности, работает заметно лучше универсальной — не «чуть-чуть», а принципиально.

Плагин Codex Security, который идёт вместе с моделью, уже вовсю работает. Он проанализировал более 30 миллионов коммитов в 30 000+ репозиториях: 500 000 проблем автоматически помечены как исправленные, ещё 70 000 подтверждены людьми. Главное ограничение сохраняется: каждый патч, который предлагает модель, проходит через живого человека до того, как попасть в код. ИИ находит проблему и составляет исправление — человек решает, выпускать ли его.

Кто уже внутри сети

Партнёрская сеть уже существенная: более 25 компаний по кибербезопасности — Cisco, CrowdStrike, Cloudflare, Palo Alto Networks, IBM, Fortinet, Wiz, SentinelOne, Palantir и другие, — плюс восемь правительств: Австралия, Канада, Франция, Германия, Япония, Южная Корея, Великобритания и ЕС через агентство ENISA. Из open-source проектов в инициативу Patch the Planet вошли cURL, Go, Python и Sigstore — код, который лежит в основе большинства современных приложений и API. То есть уязвимости в чужих библиотеках, на которые ты опираешься, теперь тоже попадают в прицел.

Что разрыв в специализации значит для тех, кто строит

13 пунктов разницы между GPT-5.5-Cyber и базовым GPT-5.5 на ExploitGym — аргумент в пользу закономерности, которая работает во многих областях: когда сильная базовая модель дополнительно обучается на конкретной задаче, прирост реален и значителен. Для тех, кто строит инструменты в узкой нише — безопасность, медицина, право, финансы, — это довод в пользу специализированных моделей, а не попыток взять универсальную и написать к ней более умный запрос.

Есть и практическое следствие для инфраструктуры: миллионы репозиториев уже активно сканируются. Python, cURL, Go — языки и библиотеки, которые почти любой современный проект тянет в зависимостях, — уже внутри этой сети. Ставка OpenAI в том, что автоматическое сканирование в таком масштабе, с живым человеком над каждым патчем, позволит закрывать уязвимости быстрее, чем они превращаются в проблему.

Что бы я сделал

Если у тебя есть публичный репозиторий или приложение, в которое заходят другие люди, стоит запустить Codex Security по своей кодовой базе — или, как минимум, отдельной просьбой попросить ИИ «найди инъекции и жёстко вшитые пароли» перед каждым важным выпуском. Безопасность — это не разовая проверка при запуске, а привычка делать этот проход каждый раз, когда что-то серьёзно меняешь.

#OpenAI#cybersecurity#GPT-5.5#AI security

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: the-decoder.com