▌ GitHub-радар

Открытая библиотека по оценке ИИ-агентов

2026-06-26

443+ проверенных ресурса по оценке ИИ-агентов — статьи, инструменты, бенчмарки — с глубокими заметками и готовым плейбуком. Тот систематический список, которого не хватало.

Новые посты каждый деньПодпишись на мой TelegramAI-новости и фишки Claude Code — каждый день, первым деломПодписаться →

01benchflow-ai/awesome-evals★ 364

Живая библиотека 443+ ссылок обо всём, что касается оценки ИИ-агентов — статьи, фреймворки, доклады с временными метками и работающий плейбук с примерами кода. Выделяется тем, что собиралась с анализом цитирований глубиной 4 уровня (11 600 статей) и аудитом пробелов. Взлетела в момент, когда ведущие лаборатории начали публиковать материалы по оценкам, а обучение с подкреплением сделало eval-инфраструктуру настоящим узким местом.

Зачем это вайб-кодеру

Если вы строите что-то с ИИ-агентами или просто хотите понять, почему одни инструменты кажутся надёжными, а другие постоянно галлюцинируют — эта библиотека объясняет, как это измерить. Не только теория: есть работающий код, показывающий, как настроить оценку для собственных проектов.

Открыть на GitHub →

Ещё находки

2026-06-26

Открытый роутер для LLM по образцу Sakana

2026-06-25

Open Oura: данные кольца локально, без облака

2026-06-25

Liquid Glass для веба: эффект Apple на React

Все находки →