ИИ решает лишь 3% реальной офисной работы — тест

Новый бенчмарк AA-Briefcase даёт ИИ реалистичные многонедельные проекты. Лучшая модель, Claude Fable 5, полностью решает лишь 3% из 91 задачи.

↻ Опубликовано 2026-06-19◷ 4 мин чтенияЕА

Евгений Арсентьев · PhD

Новые посты каждый деньПодпишись на мой TelegramAI-новости и фишки Claude Code — каждый день, первым деломПодписаться →Бесплатный курс по Claude CodeБез апсейлов и кросс-сейлов — здесь нечего купить.Начать →

Самая мощная модель на рынке полностью справляется лишь с 3% реалистичных проектов умственного труда. Это данные бенчмарка AA-Briefcase, который 19 июня 2026 года опубликовала аналитическая компания Artificial Analysis. Этот лучший результат принадлежит Claude Fable 5 — все остальные протестированные модели показали себя хуже. Бенчмарк специально построен так, чтобы имитировать работу, которую люди реально делают за столом неделями, а не аккуратные самодостаточные вопросы, на которых обычно проверяют ИИ.

Вместо чистого запроса AA-Briefcase подсовывает модели хаос: информацию, разбросанную по переписке в Slack, цепочкам писем, расшифровкам встреч и большим выгрузкам данных — ровно так, как приходит реальный многонедельный проект. Чтобы получить хороший балл, модель должна выкопать нужные факты из этой кучи, удержать их в порядке на длинной дистанции и выдать в конце что-то пригодное к использованию. Из 91 задачи на 31 ни одна модель не дотянула даже до 50% правильных шагов — то есть на трети объёма лучший ИИ не смог сделать верно и половины.

Модели посильнее ошибаются хитрее

Один из самых полезных выводов — как меняются ошибки по мере роста моделей. «Типы ошибок смещаются по мере того, как модели становятся лучше, — отмечается в отчёте. — Слабые модели спотыкаются на базовом исполнении: теряют нужные файлы или выдают непригодный результат. Сильные проваливаются тише — они выполняют очевидные требования, но упускают детали, которые заметишь, только сшив воедино информацию из нескольких источников». Проще говоря, дешёвые модели ломаются так, что ты сразу видишь; дорогие ломаются так, что результат выглядит готовым и проходит беглую проверку.

Второе, что бросается в глаза, — цена. Стоимость одной задачи в бенчмарке колеблется от $0,04 на DeepSeek V4 Flash до более чем $31 на Claude Fable 5 — разрыв в 800 раз. Платёж в 800 раз больше покупает результат получше, но не надёжный: даже на верхней планке это всё те же 3% полностью выполненных задач. Моё честное ощущение после года ежедневной работы с этими инструментами: это совпадает с практикой. ИИ отлично делает первые 80% длинной задачи и тихо роняет детали, которые всплывают, только когда сверяешь всё между собой, — а это как раз та часть, которую по-прежнему держит на себе человек.

ℹЧто бы я сделал

Не отдавай ИИ размытый проект с кучей источников и не доверяй ответу просто потому, что он гладко читается, — именно там сильные модели проваливаются «тихо». Дроби длинные задачи на проверяемые куски, подавай источники осознанно, а не вываливай всё сразу, и всегда сам сверяй итоговые выводы с оригиналами. Месседж бенчмарка в одну строку: ИИ — быстрый автор черновика, а не финишёр, которого можно перестать проверять.

#ai-benchmarks#agents#ai-at-work

Гайды по теме

ЕА

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Об авторе →

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

← Все новости

Источник: the-decoder.com