Qwen выпустила RobotSuite: три модели для роботов
Команда Qwen выпустила RobotSuite — три открытые модели для роботов: манипуляция, видео-модель мира и навигация. Код двух из трёх уже лежит на GitHub.
Евгений Арсентьев · PhDКоманда Qwen (Alibaba) выпустила Qwen-RobotSuite — набор из трёх открытых моделей для роботов, каждая закрывает свой слой стека: RobotManip отвечает за манипуляцию, RobotWorld — за видео-модель мира, RobotNav — за навигацию. У двух из трёх (RobotManip и RobotNav) уже есть публичные репозитории на GitHub, RobotWorld пока вышла только статьёй. Замысел понятен: робототехника до сих пор дробилась на отдельные модели под каждую задачу и под каждого робота, а Qwen предлагает единое семейство, покрывающее основные функции.
RobotManip — это vision-language-action модель на базе Qwen3.5-4B, которая выдаёт непрерывные действия робота. Её обучили примерно на 38 100 часах данных, взятых только из открытых датасетов и человеческого видео — без проприетарных данных, — и она возглавила таблицу RoboChallenge Table30-v1 с приростом 20% относительно прежнего лидера. Технический трюк — единый 80-мерный канонический вектор действий с побитовым маскированием, который позволяет данным от очень разных роботов обучаться вместе, не мешая друг другу. На переносе между разными платформами она даёт 23,9% успеха — примерно в 3,2 раза больше, чем 7,5% у базовой π0.5.
Три задачи, одно семейство
RobotWorld — самая тяжёлая: мультимодальный диффузионный трансформер на 20 миллиардов параметров и 60 слоёв, который по текстовой инструкции предсказывает будущие кадры видео; обучена на 8,6 млн пар «видео-текст» и более чем 200 млн кадров наблюдений. Она первая в EWMBench и DreamGen Bench и первая среди открытых моделей в WorldModelBench. RobotNav выходит в размерах 2B, 4B и 8B, выдаёт траектории из восьми точек и показывает крепкие цифры в стандартных тестах навигации — 76,5% успеха на VLN-CE RxR и 75,6% на HM3D ObjectNav, а в «агентном» режиме сокращает число шагов на 77% в одном из бенчмарков.
Чем это важно для вас
Для большинства людей здесь важна не отдельная цифра в таблице, а то, что волна открытых моделей, перекроившая чат-ботов, добралась до роботов. Выкладка рабочего кода вместо красивого демо снижает порог входа для университетских лабораторий, стартапов и энтузиастов, которым закрытый робототехнический стек был просто недоступен. Именно так два года назад ускорилась область чат-ботов: как только появились публичные веса и код, тысячи людей стали улучшать их параллельно, а не ждать пару вендоров.
Деталь, за которой я бы следил, — те самые 38 100 часов, собранные без единого проприетарного датасета. Если конкурентные модели для роботов можно обучать только на открытых данных и человеческом видео, преимущество смещается от того, у кого больше логов с роботов, к тому, кто лучше выстраивает обучение, — а такие сдвиги обычно разгоняют всю область.
Если вы следите за робототехникой, сохраните в закладки репозитории на GitHub, а не заголовочные бенчмарки: цифры в таблицах побьют за пару месяцев, а вот выложенный код и 80-мерный формат действий — это та часть, которой можно пользоваться долго. К статье про RobotWorld относитесь как к анонсу, а не продукту, пока не появятся веса.
Гайды по теме

Автор
Евгений Арсентьев
PhD · Директор по продукту (CPO) в tech-компании
Хочешь реально это построить?
Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.
◉ Начать бесплатный курсИсточник: marktechpost.com