▌ GitHub-радар

Открытая библиотека по оценке ИИ-агентов

443+ проверенных ресурса по оценке ИИ-агентов — статьи, инструменты, бенчмарки — с глубокими заметками и готовым плейбуком. Тот систематический список, которого не хватало.

Живая библиотека 443+ ссылок обо всём, что касается оценки ИИ-агентов — статьи, фреймворки, доклады с временными метками и работающий плейбук с примерами кода. Выделяется тем, что собиралась с анализом цитирований глубиной 4 уровня (11 600 статей) и аудитом пробелов. Взлетела в момент, когда ведущие лаборатории начали публиковать материалы по оценкам, а обучение с подкреплением сделало eval-инфраструктуру настоящим узким местом.

Зачем это вайб-кодеру

Если вы строите что-то с ИИ-агентами или просто хотите понять, почему одни инструменты кажутся надёжными, а другие постоянно галлюцинируют — эта библиотека объясняет, как это измерить. Не только теория: есть работающий код, показывающий, как настроить оценку для собственных проектов.

Открыть на GitHub →