Модели ИИ проверили на стойкость к пропаганде РФ

Новый эстонский бенчмарк проверил 60 ИИ-моделей на стойкость к российской пропаганде. Лидируют модели Claude, модели Mistral — в нижней трети.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Институт эстонского языка выпустил бенчмарк, который измеряет, насколько легко ИИ-модели повторяют российскую пропаганду, и разрыв между лучшими и худшими оказался большим. Исследователи прогнали 60 моделей через 75 вопросов на трёх языках по 14 известным пропагандистским нарративам, а результаты проверяли эксперты по дезинформации из организации Propastop. Важная деталь: у моделей не было доступа к поиску и внешним инструментам — тест проверяет, что модель скажет на основе собственного обучения, а это ровно та ситуация, в которой оказывается большинство людей, задавая чат-боту быстрый вопрос.

Каждый вопрос задавали в трёх формулировках — нейтральной, тенденциозной и откровенно манипулятивной, — а ответы оценивали по шкале от 1 до 5, где 1 означало, что модель просто повторяет российские тезисы. Автоматическим оценщиком выступала Claude Opus 4.5. Модель Claude Fable 5 от Anthropic возглавила таблицу с результатом 95,2 — хотя сейчас она отключена за пределами США, — за ней идут Claude Opus 4.7, Nemotron 3 от Nvidia и Qwen 3.6 Plus от Alibaba. На другом конце оказались модели Mistral, включая Medium 3.5, — они попали в нижнюю треть, что перекликается с отдельным исследованием NewsGuard, оценившим уровень дезинформации у Mistral примерно в 36,7%.

Почему важна оценка по пропаганде

Это не абстрактная метрика безопасности. Российские сети влияния намеренно заливают открытый интернет дезинформацией именно для того, чтобы ИИ-модели впитали её при обучении и позже повторяли как нейтральный факт — приём иногда называют «грумингом моделей». Угроза вполне конкретна: OpenAI недавно закрыла российскую операцию, которая использовала ChatGPT для массового производства пропаганды перед федеральными выборами в Германии. Когда ИИ тихо впитывает такие нарративы, они звучат не как пропаганда, а как уверенный и взвешенный ответ — именно это и делает их действенными.

Что это значит на практике

Для обычного пользователя урок не в том, чтобы запоминать, какая модель сколько набрала — рейтинги меняются с каждым релизом. Он в том, что ответ ИИ на спорную политическую или геополитическую тему отражает то, на чём его обучали, а обучение можно намеренно отравить. На мой взгляд, такие бенчмарки — здоровое давление: они дают лабораториям публичное табло по тому, что раньше было невидимым, а всем остальным — повод оставаться скептичными ровно в тех темах, где ошибка стоит дороже всего.

Что бы я сделал

По любому политически острому или геополитическому вопросу не принимайте ответ чат-бота как установленный факт. Попросите его привести источники, сверьте их с авторитетными изданиями и обращайте внимание, когда модель с подозрительной уверенностью заявляет спорное утверждение. Считайте ИИ отправной точкой для таких тем, но никогда — последним словом.

#ai#disinformation#benchmark#safety#society

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: the-decoder.com