Baidu открыла OCR-модель, читающую весь документ

Baidu открыла Unlimited-OCR с MIT-лицензией — 3 миллиарда параметров, читает многостраничные PDF за один проход и работает локально без облачных подписок.

↻ Опубликовано 2026-06-23◷ 3 мин чтенияЕА

Евгений Арсентьев · PhD

Новые посты каждый деньПодпишись на мой TelegramAI-новости и фишки Claude Code — каждый день, первым деломПодписаться →Бесплатный курс по Claude CodeБез апсейлов и кросс-сейлов — здесь нечего купить.Начать →

Baidu выложила на Hugging Face модель Unlimited-OCR в июне 2026 — 3 миллиарда параметров, MIT-лицензия, превращает сканы и PDF-файлы в обычный текст прямо у тебя на машине. Никаких платных API, никакой отправки документов в облако. Запускается через Ollama, LM Studio или сервер с API, совместимым со стандартными ИИ-инструментами.

OCR — это технология, которая делает из фотографии договора, стопки отсканированных счетов или страницы с текстом обычный редактируемый и поисковый текст. До недавнего времени нормальная работа с такими документами почти всегда означала платный облачный сервис и отправку файлов куда-то на чужой сервер. Unlimited-OCR сделана для того, чтобы делать это у тебя, включая многостраничные документы со сложными макетами.

В чём отличие от обычного OCR

Техническое описание модели, опубликованное на arXiv в июне 2026, описывает подход под названием «единый проход по длинному документу»: модель берёт весь документ целиком и обрабатывает его за один раз, а не режет на страницы и не склеивает результаты. Это важно, потому что при склейке возникают ошибки на границах страниц — особенно когда текст или таблица переходит с одной страницы на другую. Контекст — до 32 768 токенов, хватает на типовой многостраничный договор или подробный отчёт.

Два режима разрешения: быстрый (640 пикселей) и детальный (1024 пикселя) для сложных макетов с мелким текстом или плотными таблицами. PDF-файлы сначала конвертируются в изображения, затем обрабатываются. Baidu строила модель на основе открытых проектов DeepSeek-OCR и PaddleOCR, унаследовав их поддержку нескольких языков.

Зачем это тем, кто строит продукты

Большая часть важных данных в любом бизнесе сидит в PDF-файлах: договоры, банковские выписки, счета, медицинские документы, страховые формы. Автоматически вытащить эти данные в формат, с которым можно работать, — один из самых частых запросов в любом проекте автоматизации. Когда модель для этого бесплатна и работает локально, экономика проекта меняется. Особенно если документы содержат чувствительную информацию, которую не хочется отправлять в чужой сервис.

3 миллиарда параметров — это достаточно скромные требования к железу: запустится на обычной видеокарте или небольшом сервере, не нужен специализированный кластер. MIT-лицензия позволяет использовать в коммерческих проектах без ограничений и без выплат. Baidu также выпустила облегчённые версии для llama.cpp, Ollama, LM Studio и Jan — это покрывает все популярные варианты локального запуска.

Что бы я сделал

Подтяни через Ollama, скорми ему PDF, который у тебя уже есть — договор или счёт с чёткой структурой отлично подойдут, — и посмотри, насколько чистый получается текст. Дальше этот текст отправляй в Claude для анализа, поиска нужного пункта или резюме. Локальное OCR + ИИ для размышлений — практичная схема, которая держит твои документы у тебя.

#OCR#document parsing#Baidu#open source#local AI

Гайды по теме

ЕА

Автор

Евгений Арсентьев

PhD · Директор по продукту (CPO) в tech-компании

Об авторе →

Хочешь реально это построить?

Гайды объясняют. Бесплатный курс превращает — персонально, с геймификацией и заточенный на быстрый запуск.

◉ Начать бесплатный курс

← Все новости

Источник: huggingface.co