Фильтры Fable злят безопасников. А тебе-то что?

Новая модель Anthropic блокирует всё, что пахнет хакерством, — и эксперты по безопасности возмущены. Разбираю, что эта история значит для обычного пользователя.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Когда Anthropic выпускает новую модель, я слежу из шкурного интереса — я строю с Claude Code каждый день, и любое изменение в поведении Claude приземляется прямо на мой стол. История этой недели — про Fable, модель, которую Anthropic только что открыла публике. И сообщество кибербезопасности от её осторожности не в восторге.

Короткая хронология. В апреле 2026-го Anthropic выпустила Mythos — мощную модель с ограниченным доступом через программу Project Glasswing. 2 июня доступ расширили до сотен организаций в 15 странах. А во вторник публика получила Fable — по сути, публичную версию Mythos с дополнительными мерами безопасности. Когда Fable решает, что запрос рискованный, она ставит разговор на паузу с уведомлением, что защитные меры пометили сообщение как тему кибербезопасности или биологии, — и передаёт задачу более старой Claude Opus 4.8.

Претензии — к тому, где проведена черта. Валентина Палмиотти из IBM X-Force говорит, что Fable «отклоняет любой запрос, который может быть хоть касательно связан с кибертемой», — даже безобидные вещи вроде чтения блог-поста. Матт Сюише из Tolmo замечает: попросишь написать безопасный код — модель решает, что ты занимаешься кибербезопасностью, а не просто следуешь хорошей инженерной практике. Код-ревью, посты о безопасности, обычные защитные привычки — всё это, по словам исследователей, цепляет фильтр. Срабатывание похоже на ключевые слова — отсюда и ложные тревоги. Anthropic на запрос TechCrunch оперативно не ответила, но у компании есть Cyber Verification Program: проверенные специалисты по безопасности получают меньше ограничений — похоже на Trusted Access for Cyber у OpenAI.

Почему этот спор касается и тех, кто не хакер

Скажу честно. Модель, которая умеет найти уязвимость, чтобы её починить, умеет найти её и для атаки — способность всегда двойного назначения, а различает их только намерение, которое модель прочитать не может. Поэтому лаборатории сначала проводят черту грубо и потом донастраивают. Цена грубой черты — ровно то, что описывают исследователи: легитимная, даже повышающая безопасность работа попадает в сеть. Цена отсутствия черты страшнее — потому такие программы теперь есть у каждой крупной лаборатории.

Для нас с тобой — людей, которые строят обычные вещи, а не вредоносов, — практический эффект маленький, но реальный: изредка отказ на совершенно нормальный запрос. По моему опыту со сменами поколений моделей, лечится это без драмы. Скажи прямо, что ты строишь и зачем. «Сделай мою форму входа устойчивой к типичным ошибкам» проходит лучше, чем лексика, звучащая как пентест. И пауза в разговоре — не моральный приговор, а просто фильтр по ключевым словам в плохой день.

Что бы я сделал

Если Fable пометила твой безобидный запрос: не спорь с отказом, перепиши просьбу. Опиши настоящую цель простыми словами — для чего вещь, кто ей пользуется. Если твоя работа и правда про безопасность — официальная дорога это Cyber Verification Program. И помни про запасной выход: помеченный запрос тихо уходит к Opus 4.8, так что ответ ты всё равно получишь.

Моё мнение: первые недели после любого релиза — самые ухабистые, и фильтры донастраивают так же, как модели, — на обратной связи. Исследователи, громко жалующиеся на ложные срабатывания, по иронии и есть часть этой калибровки. А мы тем временем продолжаем строить.

#anthropic#claude#ai-safety
ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в healthtech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: techcrunch.com