Baidu открыла OCR-модель, читающую весь документ
Baidu открыла Unlimited-OCR с MIT-лицензией — 3 миллиарда параметров, читает многостраничные PDF за один проход и работает локально без облачных подписок.
Евгений Арсентьев · PhDBaidu выложила на Hugging Face модель Unlimited-OCR в июне 2026 — 3 миллиарда параметров, MIT-лицензия, превращает сканы и PDF-файлы в обычный текст прямо у тебя на машине. Никаких платных API, никакой отправки документов в облако. Запускается через Ollama, LM Studio или сервер с API, совместимым со стандартными ИИ-инструментами.
OCR — это технология, которая делает из фотографии договора, стопки отсканированных счетов или страницы с текстом обычный редактируемый и поисковый текст. До недавнего времени нормальная работа с такими документами почти всегда означала платный облачный сервис и отправку файлов куда-то на чужой сервер. Unlimited-OCR сделана для того, чтобы делать это у тебя, включая многостраничные документы со сложными макетами.
В чём отличие от обычного OCR
Техническое описание модели, опубликованное на arXiv в июне 2026, описывает подход под названием «единый проход по длинному документу»: модель берёт весь документ целиком и обрабатывает его за один раз, а не режет на страницы и не склеивает результаты. Это важно, потому что при склейке возникают ошибки на границах страниц — особенно когда текст или таблица переходит с одной страницы на другую. Контекст — до 32 768 токенов, хватает на типовой многостраничный договор или подробный отчёт.
Два режима разрешения: быстрый (640 пикселей) и детальный (1024 пикселя) для сложных макетов с мелким текстом или плотными таблицами. PDF-файлы сначала конвертируются в изображения, затем обрабатываются. Baidu строила модель на основе открытых проектов DeepSeek-OCR и PaddleOCR, унаследовав их поддержку нескольких языков.
Зачем это тем, кто строит продукты
Большая часть важных данных в любом бизнесе сидит в PDF-файлах: договоры, банковские выписки, счета, медицинские документы, страховые формы. Автоматически вытащить эти данные в формат, с которым можно работать, — один из самых частых запросов в любом проекте автоматизации. Когда модель для этого бесплатна и работает локально, экономика проекта меняется. Особенно если документы содержат чувствительную информацию, которую не хочется отправлять в чужой сервис.
3 миллиарда параметров — это достаточно скромные требования к железу: запустится на обычной видеокарте или небольшом сервере, не нужен специализированный кластер. MIT-лицензия позволяет использовать в коммерческих проектах без ограничений и без выплат. Baidu также выпустила облегчённые версии для llama.cpp, Ollama, LM Studio и Jan — это покрывает все популярные варианты локального запуска.
Подтяни через Ollama, скорми ему PDF, который у тебя уже есть — договор или счёт с чёткой структурой отлично подойдут, — и посмотри, насколько чистый получается текст. Дальше этот текст отправляй в Claude для анализа, поиска нужного пункта или резюме. Локальное OCR + ИИ для размышлений — практичная схема, которая держит твои документы у тебя.
Гайды по теме

Автор
Евгений Арсентьев
PhD · Директор по продукту (CPO) в tech-компании
Хочешь реально это построить?
Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.
◉ Начать бесплатный курсИсточник: huggingface.co