ИИ решает лишь 3% реальной офисной работы — тест
Новый бенчмарк AA-Briefcase даёт ИИ реалистичные многонедельные проекты. Лучшая модель, Claude Fable 5, полностью решает лишь 3% из 91 задачи.
Евгений Арсентьев · PhDСамая мощная модель на рынке полностью справляется лишь с 3% реалистичных проектов умственного труда. Это данные бенчмарка AA-Briefcase, который 19 июня 2026 года опубликовала аналитическая компания Artificial Analysis. Этот лучший результат принадлежит Claude Fable 5 — все остальные протестированные модели показали себя хуже. Бенчмарк специально построен так, чтобы имитировать работу, которую люди реально делают за столом неделями, а не аккуратные самодостаточные вопросы, на которых обычно проверяют ИИ.
Вместо чистого запроса AA-Briefcase подсовывает модели хаос: информацию, разбросанную по переписке в Slack, цепочкам писем, расшифровкам встреч и большим выгрузкам данных — ровно так, как приходит реальный многонедельный проект. Чтобы получить хороший балл, модель должна выкопать нужные факты из этой кучи, удержать их в порядке на длинной дистанции и выдать в конце что-то пригодное к использованию. Из 91 задачи на 31 ни одна модель не дотянула даже до 50% правильных шагов — то есть на трети объёма лучший ИИ не смог сделать верно и половины.
Модели посильнее ошибаются хитрее
Один из самых полезных выводов — как меняются ошибки по мере роста моделей. «Типы ошибок смещаются по мере того, как модели становятся лучше, — отмечается в отчёте. — Слабые модели спотыкаются на базовом исполнении: теряют нужные файлы или выдают непригодный результат. Сильные проваливаются тише — они выполняют очевидные требования, но упускают детали, которые заметишь, только сшив воедино информацию из нескольких источников». Проще говоря, дешёвые модели ломаются так, что ты сразу видишь; дорогие ломаются так, что результат выглядит готовым и проходит беглую проверку.
Второе, что бросается в глаза, — цена. Стоимость одной задачи в бенчмарке колеблется от $0,04 на DeepSeek V4 Flash до более чем $31 на Claude Fable 5 — разрыв в 800 раз. Платёж в 800 раз больше покупает результат получше, но не надёжный: даже на верхней планке это всё те же 3% полностью выполненных задач. Моё честное ощущение после года ежедневной работы с этими инструментами: это совпадает с практикой. ИИ отлично делает первые 80% длинной задачи и тихо роняет детали, которые всплывают, только когда сверяешь всё между собой, — а это как раз та часть, которую по-прежнему держит на себе человек.
Не отдавай ИИ размытый проект с кучей источников и не доверяй ответу просто потому, что он гладко читается, — именно там сильные модели проваливаются «тихо». Дроби длинные задачи на проверяемые куски, подавай источники осознанно, а не вываливай всё сразу, и всегда сам сверяй итоговые выводы с оригиналами. Месседж бенчмарка в одну строку: ИИ — быстрый автор черновика, а не финишёр, которого можно перестать проверять.
Гайды по теме

Автор
Евгений Арсентьев
PhD · Директор по продукту (CPO) в tech-компании
Хочешь реально это построить?
Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.
◉ Начать бесплатный курсИсточник: the-decoder.com