olmOCR 2 от AllenAI: рекордная точность распознавания документов
23.10.2025 · ~ 2 мин
Исследовательская команда AllenAI (AI2) представила olmOCR 2 — модель нового поколения для оптического распознавания документов. По итогам внутреннего тестирования olmOCR-Bench новинка набрала 82,4 балла — наивысший результат среди всех открытых решений на момент публикации.
Техническая база и конкурентное окружение
Модель olmOCR 2 построена на архитектуре Qwen2.5-VL-7B и существенно превосходит предшественников и конкурирующие системы:
| Решение | Балл (olmOCR-Bench) |
|---|---|
| olmOCR 2 | 82,4 |
| PaddleOCR-VL | 80,0 |
| Marker | 76,1 |
| DeepSeek-OCR | 75,7 |
| MinerU | 75,2 |
Помимо лидерства в сравнительных тестах, olmOCR 2 умеет генерировать распознанный текст сразу в трёх форматах: Markdown, HTML и LaTeX — без каких-либо шагов постобработки. Это принципиально важно при интеграции в корпоративные и научные пайплайны, где важна совместимость с разными системами хранения и отображения информации.
Набор обучающих данных: охват и разнообразие
Для подготовки olmOCR 2 команда AI2 сформировала специализированный датасет olmOCR-mix-1025, включающий 270 тысяч страниц самого разнородного содержания:
- научные статьи и технические отчёты;
- юридические документы и договоры;
- исторические сканы и архивные материалы;
- рукописные тексты различных эпох и авторов.
Такое разнообразие позволяет модели уверенно работать с документами, которые вызывают затруднения у традиционных OCR-движков: нестандартные шрифты, нечёткие сканы, плотные таблицы с неоднородными ячейками.
Ключевая инновация: обучение с подкреплением на проверяемых критериях
Главное нововведение olmOCR 2 — применение обучения с подкреплением (RL), где функция награды основана на проверяемой корректности вывода, а не на статистических метриках совпадения строк.
Для реализации этого подхода AI2 разработал метод Group Relative Policy Optimization (GRPO). Система модульных тестов в рамках GRPO проверяет три ключевых аспекта качества:
- Структурная целостность таблиц — сохранение строк, столбцов и вложенных ячеек;
- Точность математических символов — корректная транскрипция формул, индексов, операторов;
- Порядок чтения — правильная последовательность блоков текста при многоколоночной вёрстке.
Для обучения по этим критериям AI2 создал отдельный синтетический датасет olmOCR-synthmix-1025: 2186 PDF-документов и более 30 тысяч тестируемых примеров. Итоговая стоимость инференса снизилась до 12 центов за страницу — конкурентоспособный показатель для промышленного применения.
Сильные стороны: где olmOCR 2 выигрывает у традиционных решений
Модель демонстрирует устойчивые улучшения именно там, где классические OCR-системы исторически теряют точность:
- Математические формулы — правильная интерпретация сложных выражений с дробями, суммами и интегралами;
- Многоколоночные макеты — корректное восстановление логического порядка чтения в газетных и журнальных разворотах;
- Исторические рукописи — olmOCR 2 успешно расшифровала дату в письме Авраама Линкольна от 10 января 1864 года, с которым прежние версии справлялись с ошибками из-за неразборчивого почерка.
Последний пример показателен: устойчивость к вариативности почерка открывает возможности для оцифровки архивных фондов, ранее недоступных для автоматической обработки.
Доступность: открытый код и API
Результаты тестирования, веса модели и полный код обучения опубликованы на платформе Hugging Face. Кроме того, olmOCR 2 доступна через API на сервисах DeepInfra и Parasail — что позволяет подключить её к уже существующим системам без необходимости развёртывать собственную инфраструктуру.
Выводы и перспективы
olmOCR 2 делает принципиально важный шаг: переводит OCR из области «вероятностного угадывания» в область воспроизводимого, детерминированного и верифицируемого распознавания. Каждая расшифровка документа теперь может быть проверена по формальным критериям — точно так же, как проходит тестирование программный код.
Это открывает дорогу к интеграции OCR в строгие корпоративные, научные и государственные архивные системы, где требуется не просто «достаточно похожий» результат, а подтверждённая точность.
В СервакМастер мы внимательно следим за развитием ИИ-инструментов, применимых в серверной и корпоративной инфраструктуре. Если вам нужна консультация по подбору оборудования для развёртывания моделей наподобие olmOCR 2 — свяжитесь с нами, мы поможем выбрать оптимальную конфигурацию сервера под ваши задачи.
