500 дней — и большинство ИИ разорились
14 ИИ-моделей управляли симулированным стартапом 500 дней — большинство разорились. Простой алгоритм без ИИ обошёл 11 из 14. Claude Fable 5 победил.
Евгений Арсентьев · PhDИсследователи Принстонского университета передали управление симулированной IT-компанией 14 современным ИИ-моделям и запустили симуляцию на 500 дней. Каждая модель получила стартовый капитал в $1 млн, ни одного клиента и доступ ко всем бизнес-решениям через программный интерфейс: установка цен, реклама, качество продукта, поддержка пользователей, реакция на действия конкурентов. Цель одна — не разориться. Большинство разорились.
Прибыльно завершили симуляцию только три модели. Claude Fable 5 оказался лидером с большим отрывом — из $1 млн вырос до $47,15 млн. Claude Opus 4.8 финишировал с $27,8 млн. GPT-5.5 — с $21,3 млн. Остальные одиннадцать обанкротились до конца симуляции.
Деталь, которая бьёт
Самый показательный результат в этом бенчмарке — не то, кто победил. А то, что детерминированный алгоритм без всякого ИИ набрал $15,76 млн и обогнал 11 из 14 моделей. Алгоритм использовал фиксированные цены, фиксированные квоты и целевой сегмент. Никакого рассуждения, никакого планирования — просто правила «если-то». И этот подход обошёл почти весь тест.
Это не насмешка — это диагноз. Задача требует того, что исследователи называют 'steering intelligence': умения выстраивать связные решения на протяжении месяцев, где изменение цены на пятой неделе влияет на удержание клиентов на тридцатой, а конкуренты реагируют на твои ходы. Современные модели отлично анализируют отдельную ситуацию, строят конкретный план, пишут точное сообщение. Гораздо хуже им даётся удержание стратегии на сотнях циклов принятия решений при меняющихся условиях.
У трёх выживших моделей были общие черты: они исследовали новые стратегии вместо простого сокращения расходов; выводили скрытую информацию — в симуляции удовлетворённость клиентов не видна напрямую и считывается по косвенным сигналам; прогнозировали движение денег до наступления проблем, а не реагировали после. И быстро адаптировались при смене условий конкуренции. Всё это требует поддерживать целостную картину ситуации во времени — не только хорошо отвечать на следующий вопрос.
Бенчмарк называется CEO-Bench и симулирует компанию NovaMind с реалистичными задержками: выручка приходит по датам выставления счетов, R&D-инвестиции дают эффект через недели, удовлетворённость клиентов скрыта и дрейфует на основе решений, принятых ранее. Он создан, чтобы выявить именно тот навык, который не видно на стандартных тестах ИИ, — устойчивую стратегическую последовательность под давлением.
Если строишь что-то с ИИ-агентами на многошаговые процессы — результат CEO-Bench полезный ориентир. Проблема не в плохих отдельных решениях, а в том, что стратегический контекст теряется через много шагов при меняющихся условиях. Для всего важного: встраивай точки, где агент явно проверяет — действие по-прежнему соответствует исходной цели? Прогоняй агентов на длинных тестах, прежде чем доверять им что-то критичное.
Гайды по теме

Автор
Евгений Арсентьев
PhD · Директор по продукту (CPO) в tech-компании
Хочешь реально это построить?
Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.
◉ Начать бесплатный курсИсточник: the-decoder.com