olmOCR 2 от AllenAI: рекордная точность распознавания документов

23.10.2025 · ~ 2 мин

Исследовательская команда AllenAI (AI2) представила olmOCR 2 — модель нового поколения для оптического распознавания документов. По итогам внутреннего тестирования olmOCR-Bench новинка набрала 82,4 балла — наивысший результат среди всех открытых решений на момент публикации.


Техническая база и конкурентное окружение

Модель olmOCR 2 построена на архитектуре Qwen2.5-VL-7B и существенно превосходит предшественников и конкурирующие системы:

Решение Балл (olmOCR-Bench)
olmOCR 2 82,4
PaddleOCR-VL 80,0
Marker 76,1
DeepSeek-OCR 75,7
MinerU 75,2

Помимо лидерства в сравнительных тестах, olmOCR 2 умеет генерировать распознанный текст сразу в трёх форматах: Markdown, HTML и LaTeX — без каких-либо шагов постобработки. Это принципиально важно при интеграции в корпоративные и научные пайплайны, где важна совместимость с разными системами хранения и отображения информации.


Набор обучающих данных: охват и разнообразие

Для подготовки olmOCR 2 команда AI2 сформировала специализированный датасет olmOCR-mix-1025, включающий 270 тысяч страниц самого разнородного содержания:

  • научные статьи и технические отчёты;
  • юридические документы и договоры;
  • исторические сканы и архивные материалы;
  • рукописные тексты различных эпох и авторов.

Такое разнообразие позволяет модели уверенно работать с документами, которые вызывают затруднения у традиционных OCR-движков: нестандартные шрифты, нечёткие сканы, плотные таблицы с неоднородными ячейками.


Ключевая инновация: обучение с подкреплением на проверяемых критериях

Главное нововведение olmOCR 2 — применение обучения с подкреплением (RL), где функция награды основана на проверяемой корректности вывода, а не на статистических метриках совпадения строк.

Для реализации этого подхода AI2 разработал метод Group Relative Policy Optimization (GRPO). Система модульных тестов в рамках GRPO проверяет три ключевых аспекта качества:

  1. Структурная целостность таблиц — сохранение строк, столбцов и вложенных ячеек;
  2. Точность математических символов — корректная транскрипция формул, индексов, операторов;
  3. Порядок чтения — правильная последовательность блоков текста при многоколоночной вёрстке.

Для обучения по этим критериям AI2 создал отдельный синтетический датасет olmOCR-synthmix-1025: 2186 PDF-документов и более 30 тысяч тестируемых примеров. Итоговая стоимость инференса снизилась до 12 центов за страницу — конкурентоспособный показатель для промышленного применения.


Сильные стороны: где olmOCR 2 выигрывает у традиционных решений

Модель демонстрирует устойчивые улучшения именно там, где классические OCR-системы исторически теряют точность:

  • Математические формулы — правильная интерпретация сложных выражений с дробями, суммами и интегралами;
  • Многоколоночные макеты — корректное восстановление логического порядка чтения в газетных и журнальных разворотах;
  • Исторические рукописи — olmOCR 2 успешно расшифровала дату в письме Авраама Линкольна от 10 января 1864 года, с которым прежние версии справлялись с ошибками из-за неразборчивого почерка.

Последний пример показателен: устойчивость к вариативности почерка открывает возможности для оцифровки архивных фондов, ранее недоступных для автоматической обработки.


Доступность: открытый код и API

Результаты тестирования, веса модели и полный код обучения опубликованы на платформе Hugging Face. Кроме того, olmOCR 2 доступна через API на сервисах DeepInfra и Parasail — что позволяет подключить её к уже существующим системам без необходимости развёртывать собственную инфраструктуру.


Выводы и перспективы

olmOCR 2 делает принципиально важный шаг: переводит OCR из области «вероятностного угадывания» в область воспроизводимого, детерминированного и верифицируемого распознавания. Каждая расшифровка документа теперь может быть проверена по формальным критериям — точно так же, как проходит тестирование программный код.

Это открывает дорогу к интеграции OCR в строгие корпоративные, научные и государственные архивные системы, где требуется не просто «достаточно похожий» результат, а подтверждённая точность.

В СервакМастер мы внимательно следим за развитием ИИ-инструментов, применимых в серверной и корпоративной инфраструктуре. Если вам нужна консультация по подбору оборудования для развёртывания моделей наподобие olmOCR 2 — свяжитесь с нами, мы поможем выбрать оптимальную конфигурацию сервера под ваши задачи.