OpenAI проверила ИИ на науке — он почти провалился

OpenAI выпустила LifeSciBench — тест из 750 реальных научных задач от 173 PhD. Лучшая модель решает лишь 36,1%. Отрезвляющая проверка хайпа про ИИ-учёных.

4 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

OpenAI выпустила LifeSciBench — бенчмарк, который оценивает ИИ-модели на 750 реальных задачах из биологической науки. Главный вывод: в основном они проваливаются. Лучшая модель, GPT-Rosalind, решила лишь 36,1% задач. GPT-5.5 набрала 25,7%, Gemini 3.1 Pro — 23,6%, а Grok 4.3 — всего 13,0%. Это не викторина по биологии: задачи написали 173 учёных со степенью PhD и опытом в биотехе и фарме, они охватывают семь исследовательских процессов и семь биологических областей, а качество проверили 453 эксперта (97% — с докторскими степенями) с согласием выше 96%.

Необычно то, как идёт оценка. Вместо сверки с одним правильным ответом вывод модели сравнивают с 19 020 атомарными критериями — примерно по 25 на задачу, — где каждый критерий награждает за одну конкретную вещь: точный факт, шаг рассуждения или число в пределах допуска. Около 79% задач требуют нескольких шагов рассуждения, в среднем по четыре. Идея, по словам OpenAI, в том, что большинство существующих тестов по биологии задают «узкие фактологические вопросы с чистыми ответами», тогда как LifeSciBench пытается воспроизвести, как настоящие учёные «взвешивают неполные данные и принимают решения».

Почему этот разрыв важен для тебя

Мы все слышали обещания, что ИИ вот-вот вылечит болезни и автоматизирует науку. Бенчмарк, который сделала и опубликовала сама OpenAI, — полезное отрезвление: до автономного исследователя передовому ИИ очень далеко. Слабые места показательны. Когда в задачи добавляли реальные артефакты — последовательности генов, графики, таблицы, PDF, химические структуры, — GPT-Rosalind падала с 45,1% (только текст) до 28,1%. Задачи на проектирование и оптимизацию оказались самыми трудными — 30,7%, а 22,8% задач не решила ни одна модель. И реальная наука итеративна, а тест был одношаговым, так что настоящая планка ещё выше этих цифр.

Всё это не значит, что ИИ бесполезен в лаборатории — скорее наоборот. Модель, берущая треть задач экспертного уровня, — это уже сильный помощник для разбора литературы, черновиков и первичного анализа. Честное прочтение такое: эти инструменты ускоряют учёных, а не заменяют их. И как только кто-то говорит тебе, что чат-бот «сам делает исследование», такой бенчмарк — это квитанция, на которой написано: пока нет и не в одиночку.

Что бы я сделал

В следующий раз, увидев уверенное заявление, что ИИ сам открывает лекарства или ведёт науку, задай один вопрос: как оценивали и относительно чего? LifeSciBench — это шаблон: написанные экспертами критерии, реальные артефакты, многошаговое рассуждение. Если заявление не выдерживает такой проверки, считай это демо, а не результатом. А если используешь ИИ для технической работы — опирайся на него ради скорости, но оставляй человека на решениях, которые он пока не тянет.

Обнадёживает то, что именно так прогресс измеряют честно. Сложные бенчмарки, собранные экспертами, — это способ отделить маркетинг от реальных возможностей и доказать, что модели следующего года действительно стали лучше, а не просто звучат увереннее.

#openai#benchmarks#ai-science

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: marktechpost.com