Bayer доверил ИИ-агентам десятилетия исследований лекарств

Разбор системы PRINCE от Thoughtworks и Bayer показывает: надёжность агентного ИИ рождается из инженерии вокруг модели, а не из более умной модели.

5 мин чтенияЕАЕвгений АрсентьевЕвгений Арсентьев · PhD

Подробный инженерный разбор production-системы в Bayer доказывает: надёжность агентного ИИ держится в основном на дисциплинированной инженерии, а не на более сильной модели. Автор — Саранг Санджай Кулкарни, принципал-консультант Thoughtworks, — проводит по системе PRINCE (Preclinical Information Center), построенной вместе с Bayer, чтобы помочь исследователям ориентироваться в десятилетиях отчётов по безопасности. Это редкий взгляд на то, что на самом деле требуется агентной системе, когда ей нужно работать для реальных пользователей каждый день и на данных, которые важны.

PRINCE прошёл три стадии, которые аккуратно ложатся на то, как большинство команд осваивает эту технологию. Сначала Search — фильтрация по метаданным отчётов. Потом Ask — RAG, чтобы исследователи могли задавать вопросы на обычном языке. Потом Do — несколько специализированных агентов, которые планируют, ищут, рефлексируют и пишут, чтобы выполнять многошаговые задачи. Каждая стадия добавляла возможности — и каждая добавляла новые способы сломаться.

Harness важнее модели

Самая цитируемая фраза — она же тезис: «надёжность рождается из инженерии и контекста, который видит модель, и harness, внутри которого модель действует». Две идеи несут основной вес. Инженерия контекста — это осознанная подача разной информации разным агентам на разных стадиях: контекст планирования планировщику, контекст поиска исследователю, контекст доказательств шагу рефлексии, контекст синтеза писателю — вместо того чтобы запихивать всё в один огромный промпт и надеяться. Инженерия harness — это обвязка вокруг модели: оркестрация, границы инструментов, сохранение состояния, ретраи, фолбэки, валидация, циклы рефлексии, наблюдаемость и человеческий контроль.

Система использует три разных вида рефлексии: рефлексию процесса при планировании, рефлексию данных — проверку, достаточно ли вообще найденных доказательств, и рефлексию черновика — подтверждение, что финальный ответ полон. Ради устойчивости состояние живёт в PostgreSQL, ретраи срабатывают автоматически на уровне и модели, и узла, пользователи могут перезапуститься ровно с точки сбоя, а при осечке одного провайдера система переключается на другой.

RAG-пайплайн столь же конкретен: извлечение ключевых слов плюс фильтрация по метаданным, расширение запроса в пять семантических вариантов, взвешенный гибридный поиск 0.7 семантика и 0.3 ключевые слова, затем реранкинг кросс-энкодером, сужающий примерно 20 найденных чанков до лучших 7. SQL-запросы получают до трёх ретраев; выборка записей ограничена 50 на запрос. Ничего гламурного — и в этом вся суть.

Почему это важно для тебя

Если ты пытаешься выпустить что-то на ИИ-агентах, и оно всё время почти работает, — вот сценарий для последней мили. Урок в том, что разрыв между гладким демо и надёжным продуктом редко закрывается апгрейдом модели — он закрывается контролем над тем, что видит каждый шаг, и построением процессов, которые можно наблюдать, перезапускать и восстанавливать. И это обнадёживает, потому что это инженерия, которую ты можешь сделать сам, а не фронтир-модель, которую надо ждать.

Моя мысль: самая полезная привычка, спрятанная здесь, — разбить один раздутый промпт на контекст под каждую стадию. Я сам видел, как мои агентные сборки становились хуже по мере того, как я впихивал всё больше в одну инструкцию; дать каждому шагу только то, что ему нужно, — это самый дешёвый выигрыш в надёжности из доступных, и применить его можно сегодня с той моделью, что у тебя уже есть.

Что бы я сделал

Возьми один нестабильный агентный процесс и сделай две вещи: дай каждой стадии собственный узкий контекст вместо одного мегапромпта и добавь шаг рефлексии, который проверяет, достаточно ли найденных доказательств, прежде чем отвечать. Эти два изменения повторяют то, что довело PRINCE до продакшена, — и ни одно не требует новой модели.

#agentic AI#LLM engineering#RAG#production AI

Гайды по теме

ЕАЕвгений Арсентьев

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

Источник: martinfowler.com