PDF в JSON без галлюцинаций — в 3 раза быстрее Gemini
Datalab выпустила lift — открытую 9-миллиардную модель, которая превращает PDF в JSON по вашему шаблону: 90,2% точность, в 3 раза быстрее Gemini Flash 3.5.
Евгений Арсентьев · PhDDatalab выпустила lift — модель на 9 миллиардов параметров с открытыми весами, заточенную под одну задачу: взять PDF, список нужных полей и вернуть чистый JSON-объект. На тестовом наборе из 225 документов — от шестистраничных счетов до 64-страничных отчётов, около 11 000 оцениваемых полей — lift набрала 90,2% точности по полям, обойдя NuExtract3 (81,5%) и Qwen3.5-9B (76,3%).
Два принципа делают её пригодной для реального применения. Первый — жёсткая привязка вывода к схеме: модель не просто «старается» вернуть JSON, она механически вынуждена это делать, и структура всегда совпадёт с заданной. Второй — обученный отказ: если нужное поле в документе отсутствует, lift возвращает null, а не придумывает значение. Именно это принципиально важно в работе. Модель, которая уверенно вернула неверную сумму в счёте, хуже пустой ячейки — можно не заметить ошибку, пока деньги уже ушли.
Что это значит, если вы работаете с документами
Представьте любой рабочий процесс, который начинается с PDF: счета, которые нужно внести в бухгалтерскую систему; страховые формы для подачи; научные статьи для индексирования по дате и автору; банковские выписки для разбора транзакций. Обычно это делают вручную или с помощью хрупких скриптов, которые ломаются при малейшем изменении шаблона. lift создана именно для этого слоя. Вы описываете нужные поля — номер счёта, название поставщика, итоговая сумма — и модель возвращает их из любого переданного PDF за медианных 9,5 секунды на документ.
По сравнению с облачными сервисами вроде Gemini Flash 3.5, lift в три раза быстрее при той же задаче. Запускается на вашем сервере: код под лицензией Apache 2.0, веса — Modified OpenRAIL-M. Никаких платежей за каждый документ, и данные не уходят на сторону — что особенно важно, если в PDF содержится конфиденциальная финансовая или клиентская информация.
Если у вас есть процесс, где кто-то вручную переносит данные из PDF в таблицу или форму — это стоит попробовать. Опишите схему: просто JSON-объект с нужными полями. Запустите lift на пакете реальных документов и замерьте процент ошибок до того, как подключать к чему-то, что касается денег или решений. Точность 90,2% высокая, но для полей, связанных с оплатой, добавьте слой проверки.
Гайды по теме

Автор
Евгений Арсентьев
PhD · Директор по продукту (CPO) в tech-компании
Хочешь реально это построить?
Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.
◉ Начать бесплатный курсИсточник: marktechpost.com