Команда из ИИ обошла Opus 4.8 в коде

Fugu от Sakana AI не пытается быть самой умной одиночной моделью — она раздаёт каждую задачу лучшей из пула, и связка обходит Opus 4.8, GPT 5.5 и Gemini на тестах по коду.

↻ Опубликовано 2026-06-22◷ 4 мин чтенияЕА

Евгений Арсентьев · PhD

Новые посты каждый деньПодпишись на мой TelegramAI-новости и фишки Claude Code — каждый день, первым деломПодписаться →Бесплатный курс по Claude CodeБез апсейлов и кросс-сейлов — здесь нечего купить.Начать →

Sakana AI выпустила Fugu — систему, которая обходит лучшие одиночные ИИ-модели не за счёт того, что она крупнее, а за счёт того, что координирует сразу несколько. На SWE Bench Pro, где измеряют исправление реальных багов в реальном коде, Fugu Ultra набирает 73.7 против 69.2 у Opus 4.8 от Anthropic, 58.6 у GPT 5.5 и 54.2 у Gemini 3.1 Pro. Она лидирует и на TerminalBench 2.1 (82.1), LiveCodeBench (93.2) и научном экзамене GPQA-Diamond (95.5), а по бенчмаркам Sakana заявляет уровень Fable 5 и Mythos — при том что ни одной из этих моделей в пуле Fugu нет.

Фокус в том, что Fugu сама — обученная модель, чья работа в том, чтобы управлять другими моделями. Получив запрос, она решает, ответить напрямую или передать задачу профильной модели из сменного пула, и сама берёт на себя выбор, делегирование, внутренние проверки и сборку итогового ответа. Для того, кто к ней обращается, всё это невидимо: Fugu выглядит как одна модель за единым API, совместимым с OpenAI. Есть две версии — Fugu Base, заточенная под быстрые повседневные задачи вроде кода и чата, и Fugu Ultra, рассчитанная на многошаговые задачи: исследования, анализ безопасности, патентный поиск.

Почему бригада сильнее одиночки

Цифры — не только лабораторные. Один разработчик рассказал, что на код-ревью Fugu Ultra нашла больше двадцати проблем там, где GPT-5.5 отметил около трёх. Это ложится в основную идею: у разных моделей разные слепые зоны, и система, которая умеет отдать задачу нужному специалисту и перепроверить ответ, ловит то, что одна модель пропустит. Sakana опирается на две свои научные работы — Trinity и Conductor, представленные на ICLR 2026. Компанию основали бывшие исследователи Google: Ллион Джонс, соавтор оригинальной статьи про трансформеры 2017 года, и Дэвид Ха.

Обе версии доступны уже сейчас через API и консоль, с подпиской и оплатой по факту использования. Fugu можно также велеть исключить из пула конкретные модели — ради требований комплаенса.

Почему это важно для тебя

Тут два практических выигрыша. Первый — качество: если слаженная команда моделей стабильно обходит лучшую одиночную, то потолок того, что можно выжать из одного вызова API, растёт, и тебе не приходится жонглировать несколькими инструментами самому. Второй — независимость. Sakana прямо подаёт Fugu как «страховку от привязки к одному поставщику», указывая на недавние случаи, когда доступ к топовой модели отрубали по всему миру за одну ночь. Если твоя работа держится на одном поставщике, система, которая тихо подставит другую модель, — это реальная страховка, а не просто хвастовство бенчмарками.

Моя мысль: сама идея оркестровки важнее места в таблице. Два года мы спрашивали, какая одиночная модель лучше; Fugu — это ставка на то, что правильнее спрашивать, какая лучше комбинация, — и эта ставка только что показала цифры.

ℹЧто бы я сделал

Если ты держишься за одну ИИ для кода или исследований, стоит протестировать такой роутер, как Fugu, на самых сложных реальных задачах — где одна модель обычно что-то упускает — и сравнить, что он ловит, против твоего текущего инструмента. И не игнорируй тему привязки: иметь запасной вариант, способный переключить поставщика, полезно держать в голове, даже если переключаться сегодня не собираешься.

#Sakana AI#AI models#coding#benchmarks

Гайды по теме

ЕА

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Об авторе →

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

← Все новости

Источник: the-decoder.com