Проблема оптимизации процесса распознавания документов в крупных и средних организациях известна достаточно давно. Само по себе операция перевода бумажных документов в электронный редактируемый формат при помощи сканера легко реализуется на любом рабочем месте. Однако когда речь заходит об организации аналогичного процесса на сотнях или тысячах компьютеров, затраты — как финансовые, так и трудовые — оказываются довольно велики.

Для ряда предприятий, например, для сервисных бюро, где сканирование и распознавание постоянно ведутся в больших объемах и выступают как неотъемлемая часть основного производственного процесса, использование OCR-систем на отдельном рабочем месте может оказаться неприемлемым и с точки зрения производительности.

Весной 2006 г. компания ABBYY (http://www.abbyy.ru) представила новый серверный продукт, ABBYY Recognition Server, предназначенный именно для решения описанных проблем. Он создан на базе технологического ядра известной OCR-системы ABBYY FineReader и обеспечивает высокопроизводительную автоматизацию процессов распознавания документов и преобразования PDF-файлов. Благодаря серверной архитектуре система особенно эффективна для задач, связанных с обработкой средних и больших объемов документов. ABBYY Recognition Server может использоваться как составная часть любого серверного и клиент-серверного решения для автоматизации документооборота и архивирования, а также как самостоятельное, готовое к использованию решение.

Применение ABBYY Recognition Server дает наилучший результат при решении следующих задач.

Преобразование больших объемов документов. Распознавание документов и PDF-файлов — достаточно ресурсоемкие процессы. ABBYY Recognition Server выполняет эти операции как фоновый процесс на нескольких выделенных станциях распознавания.

Обработка PDF-файлов и создание архива в формате PDF. С помощью нового продукта можно быстро и эффективно распознавать PDF-файлы, преобразуя их в редактируемый формат, и наоборот, конвертировать любые документы в формат PDF. В частности, так можно создать компактный электронный PDF-архив с полнотекстовым поиском по каждому документу.

Полнотекстовое преобразование для ввода данных. ABBYY Recognition Server можно включить в существующую систему ввода документов как специальный модуль для полнотекстового распознавания неструктурированных документов (в качестве основного или дополнительного технологического ядра).

Ввод документов для последующего индексирования. Программа имеет специальный режим анализа документа для полнотекстового индексирования. В этом режиме выполняется автоматический поиск и распознавание всего текста, присутствующего на изображении, в том числе на картинках, в диаграммах, подписях, логотипах. Полученный таким образом массив данных можно проиндексировать в системе электронного документооборота или электронном архиве.

В числе возможностей ABBYY Recognition Server — не только скорость и высокое качество обработки массивов изображений, но и централизация управления процессами, масштабируемость, гибкость, надежность потоковой обработки и интеграция с другими приложениями. Это обеспечивается архитектурой решения, которое состоит из четырех компонентов: серверной части, станций обработки, открытого API и консоли управления.

Серверная часть (менеджер сервера) управляет всеми сервисами, запросами и настройками, распределяет задания по распознаванию и конвертации между станциями обработки. Станция обработки предназначена непосредственно для распознавания изображений отсканированных или сфотографированных документов, а также для преобразования PDF-файлов. Количество станций обработки в одной локальной сети не ограничивается.

Открытый API позволяет либо реализовать независимую клиентскую часть, либо интегрировать продукт с другими приложениями. Можно, например, организовать простейший интерфейс для создания инструкций менеджеру сервера. Консоль управления обеспечивает общий интерфейс администрирования для настройки и мониторинга работы. Она может располагаться на любом компьютере в сети (по умолчанию устанавливается совместно с менеджером сервера). Интерфейс консоли управления для визуализации управления использует в качестве сервиса Microsoft Management Console.

Система поддерживает распознавание печатного текста на 187 языках на основе латинского, греческого, армянского и кириллического алфавитов, в том числе распознавание многоязычных документов, а также 15 типов штрих-кодов. Результаты распознавания сохраняются в формате PDF с возможностью полнотекстового поиска, а также в форматах XML, DOC, XLS и DBF. Система предусматривает детальную настройку всех этапов обработки, от поиска и открытия исходных изображений до сохранения результатов. Распознавание и обработка изображений ведутся автоматически, в соответствии с заданным расписанием, либо инициируются вручную администратором системы. Входящие документы принимаются в виде графических (TIFF, JPEG, JPEG 2000 и т. д.) или PDF-файлов из папок в локальной сети или с ftp-серверов. Поддерживается получение документов от сетевых сканеров или многофункциональных устройств.

Для разработчиков корпоративных решений предусмотрена возможность управления всеми параметрами работы ABBYY Recognition Server средствами XML-описаний, в том числе и из внешних приложений через открытый набор API. Масштабируемость продукта обеспечивается в числе прочего с помощью распределенной обработки задач на нескольких компьютерах, а также за счет поддержки многопроцессорных и многоядерных архитектур. В зависимости от требований проекта возможна как локальная установка системы, при которой все компоненты устанавливаются на один компьютер, так и сетевая.

Для ABBYY Recognition Server предусмотрены три типа лицензирования: по количеству процессоров, по количеству документов, по объему обрабатываемых страниц. Последний вариант предназначен для сервисных бюро — организаций, которые предоставляют услуги ввода, распознавания и конвертации документов на коммерческой основе. Существует также полнофункциональная пробная версия, позволяющая ознакомиться с работой программы.