Сайт показывает, кого ИИ-модели выучили наизусть

Новый сайт In the Weights оценивает, помнит ли модель человека из одних только обучающих данных — Моцарт, Шекспир и Тейлор Свифт набирают максимум, 996.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Двое бывших инженеров OpenAI — Джоуи Флинн и Томас Димсон — запустили сайт In the Weights, который проверяет, способна ли ИИ-модель вспомнить конкретного человека исключительно из обучающих данных: без поиска в интернете, без инструментов, только то, что модель усвоила во время обучения. Сайт опрашивает несколько моделей и возвращает одно число — strength-score, оценку того, насколько глубоко имя «зашито» в веса.

Шкала доходит до 996, и верхушка предсказуема: Моцарт, Шекспир и Тейлор Свифт стоят у потолка — это люди, чаще всего встречавшиеся в текстах, на которых учили модели. Менее известные имена набирают куда меньше: издание The Decoder отметило, что два его автора получили 175 и 262. В этом и смысл. Инструмент превращает абстрактный вопрос «знает ли ИИ, кто я» в конкретную цифру, которую можно посмотреть.

Почему это важно

«Быть в весах» — это не то же самое, что находиться в поиске. Модель, которая вспоминает тебя без запроса в сеть, фактически выучила тебя наизусть: твоё имя встречалось в обучающих текстах достаточно часто, чтобы система его сохранила. У этого есть реальные последствия. От этого зависит, опишет ли чат-бот тебя точно или уверенно всё выдумает, и это окно в то, чьи данные эти системы сочли важными, а чьи проигнорировали. Для публичных людей, журналистов и всех, чьё имя есть в сети, это грубая прикидка, как ведущие ИИ-инструменты представят их по умолчанию.

Что бы я сделал

Проверь себя, но читай балл как подсказку, а не как приговор. Если модель тебя «знает» — перепроверь, что именно она утверждает: выучено наизусть не значит верно. Если не знает — это тоже полезно: всё, что чат-бот скажет о тебе, он угадывает, так что не рассчитывай, что биографию он передаст правильно.

Создатели честно говорят об ограничениях. Маленькие модели — они приводят в пример Llama на миллиард параметров — труднее «прочитать» чисто. Модели могут выдумывать детали биографии, опечатка в имени снижает балл, а частые имена дают результаты хуже, потому что сигнал размазывается по множеству людей с теми же именами. Так что низкий балл не доказывает, что тебя нет в данных, а высокий не гарантирует, что модель не путает факты.

Ценность проекта не столько в точных цифрах, сколько в подаче. Обучающие данные остаются одной из самых непрозрачных частей современного ИИ: компании редко раскрывают, что туда попало, а у пользователей почти нет способа проверить, что вышло. Простой поиск, показывающий, сохранила ли модель человека, — маленький, но честный шаг к тому, чтобы сделать этот чёрный ящик читаемым. И напоминание: когда чат-бот уверенно рассказывает о ком-то, он может цитировать по памяти, а может просто заполнять пробелы.

#training-data#privacy#llm

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: the-decoder.com