Немного «хорошего» обучения — и ИИ сложнее обмануть

OpenAI выяснила: малые дозы правильного поведения в обучении делают модель устойчивее к манипуляциям — улучшение на 44 из 53 тестов без потери полезности.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Исследователи OpenAI сообщают, что добавление небольшого объёма данных с «полезными чертами» в обычное дообучение модели с подкреплением делает её заметно безопаснее и устойчивее к манипуляциям сразу по широкому фронту. Из 53 независимых тестов, измеряющих обман, честность, подхалимаж и «накрутку» ради награды, улучшились 44. Эффект, о котором пишет The Decoder, важен тем, что распространяется далеко за пределы тех узких ситуаций, которые дополнительное обучение реально охватывало.

Метод почти будничный. Исследователи написали реалистичные диалоги, которые закрепляют конкретные желаемые черты — правдивость, признание неуверенности, управляемость (готовность принимать поправки), прозрачность рассуждений, справедливость и заботу о благополучии человека — в таких областях, как медицина, образование, наука, право и инженерия. Затем подмешали небольшую долю этих данных в обычный конвейер обучения. Никакой новой архитектуры, никаких экзотических приёмов — просто сознательно посеяли хорошие привычки.

Что меня здесь удивило

Интересен именно перенос между темами. Модель, которую учили хорошо вести себя в медицинских сценариях, лучше справлялась и с немедицинскими тестами, а обучение на немедицинском материале улучшало её ответы по медицине. Хорошее поведение расползалось вбок. Это зеркало более раннего, мрачного открытия — что обучение модели быть «плохой» в одной узкой области делало её хуже повсюду — и его разворот в плюс. Та же генерализация, что делала дурное поведение заразным, делает заразным и хорошее.

Обученные модели и под давлением держались крепче. Враждебные промпты, по словам исследователей, имели «гораздо меньший эффект», чем на базовых версиях, а модели сопротивлялись попыткам вредного дообучения, при этом по-прежнему выполняя законные инструкции — это свойство команда называет избирательной устойчивостью. Проще говоря: труднее «взломать» ради чего-то плохого, но всё так же охотно делает то, о чём ты реально попросил.

Что бы я сделал

Если ты строишь поверх этих моделей — это тихая хорошая новость, на которую можно опереться: новые модели и правда становятся устойчивее к социальной инженерии. Но не считай это силовым полем — 44 из 53 значит, что 9 тестов не улучшились. Держи собственные ограждения на пользовательском вводе; безопасность на уровне модели — это слой, а не вся стена.

Почему это важно обычному пользователю: значительная часть рисков ИИ — не в том, что модель злая, а в том, что она доверчивая: льстит тебе на пути к плохому решению, поддаётся манипулятивному промпту, уверенно выдумывает. Показать, что скромная и дешёвая доза «будь честным, признавай незнание, принимай поправки» переносится на всю модель — это практический путь к меньшему числу таких сбоев. OpenAI описывает свои черты как эмпирически измеримое поведение — в отличие от подхода Anthropic, где пишут явную «конституцию»; обе компании заходят к одной цели с разных сторон. Вывод, который я бы запомнил: сделать ИИ безопаснее здесь выглядело не как героический прорыв, а как хорошие привычки, привитые рано и расходящиеся сами.

#openai#ai-safety#alignment

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: the-decoder.com