Роботы Nvidia учатся сами через кодинг-агентов
Nvidia, CMU и UC Berkeley собрали ENPIRE, где ИИ-агенты учат роботов хватать предметы почти без человека — парк из 8 станций достиг до 99% успеха на сложных задачах.
Евгений Арсентьев · PhDИсследователи Nvidia, Carnegie Mellon University и UC Berkeley собрали систему ENPIRE, в которой роботы сами учатся хватать и манипулировать предметами практически без участия человека, — а скоординированный парк из восьми станций достиг до 99% успеха на сложных задачах. Изюминка, которая делает это интересным: учит роботов не инженер, подкручивающий параметры, а ИИ-агент для написания кода, который сам пишет и переписывает обучающий код роботов.
Работает это в две фазы. Сначала агент настраивает рабочее пространство — границы безопасности, автоматический сброс между попытками и автоматическую проверку успеха. Обычно человеку приходится сидеть и оценивать, удалась ли каждая попытка; вместо этого агент сам пишет функцию награды, чтобы отличать успех от провала, выучивая, как выглядит «хорошо», всего по нескольким минутам видео-примеров. Затем агент читает научные статьи, выдвигает гипотезы и напрямую правит обучающий код, выбирая между клонированием поведения и обучением с подкреплением по тому, что реально происходит на железе.
Восемь роботов, которые делятся заметками через Git
В установке используются восемь двуруких станций YAM, которые координируются через систему контроля версий Git — тот же инструмент, которым команды разработчиков управляют кодом. Каждая станция одновременно проверяет гипотезы и делится удачными рецептами обучения со всем парком, так что приём, найденный одним роботом, расходится на остальных. Цифры подтверждают подход. На задаче Push-T (задвинуть T-образный блок в нужную позицию) восемь агентов сократили время с примерно пяти часов до двух. На вставке штифта система сошлась на 100% быстрее методов с человеком в цикле, упав с более чем 90 минут до примерно 40. Система также справилась с перерезанием кабельной стяжки и установкой видеокарты в слот материнской платы — это возни с реальными предметами, а не демо в симуляторе.
Почему это важно
Весь прошедший год мы наблюдали, как кодинг-агенты тихо забирают всё больше работы в разработке софта. ENPIRE — ранний признак того, что те же агенты дотягиваются до физического мира: пишут код, который учит машины ручным задачам. Честные оговорки прямо в самой работе, и это мне нравится: реальная производительность всё ещё сильно отстаёт от симуляции из-за непредсказуемой динамики роботов и трения, роботы много простаивают, пока агент пишет код и подводит итоги, а расходы на токены растут быстрее, чем выигрыш в производительности по мере роста парка. Так что это исследовательский результат, а не продукт. Но цикл, который он демонстрирует, — ИИ читает статьи, выдвигает гипотезы, пишет код, проверяет на реальном железе и делится тем, что сработало, — ровно тот самосовершенствующийся механизм, который год от года дешевеет и ускоряется. Робототехника всегда упиралась в сбор реальных обучающих данных; передать эту рутину неутомимым агентам — правдоподобный путь в обход.
Не читайте это как «роботы вот-вот захватят склад» — пропасть между 99% в лаборатории и надёжностью в реальности огромна. Что я бы реально отслеживал — это паттерн, а не роботов: ИИ-агент, который читает литературу, сам пишет критерии успеха и улучшает собственный код без человека, нянчащего каждый шаг. Этот цикл — и есть главная история, и он проявится далеко за пределами робототехники. Если вы что-то строите, ищите, где можно дать агенту замкнуть собственную петлю обратной связи, — именно там и живёт накапливающийся выигрыш.
Гайды по теме

Автор
Евгений Арсентьев
PhD · Директор по продукту (CPO) в tech-компании
Хочешь реально это построить?
Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.
◉ Начать бесплатный курсИсточник: the-decoder.com