Компания ABBYY (http://www.abbyy.ru) сообщила о выпуске новой версии инструментария разработчиков — ABBYY FineReader Engine 8.1. Он представляет собой набор динамически подключаемых библиотек, обращение к функциям которой выполняется с помощью открытого API. В рамках одного такого набора реализованы механизмы распознавания текстов на 191 языке на базе латиницы, кириллицы, армянского, греческого, еврейского и тайского алфавитов, а также японских, корейских и китайских иероглифов. Впервые в продукт включена возможность обработки иврита и тайского языка, на которых в мире говорят около 80 млн человек.

Расширение состава поддерживаемых языков — важный технологический этап в развитии продукта, для реализации которого пришлось преодолеть немало сложностей. В частности, и тайский язык, и иврит используют собственные знаковые системы, причем в тайском тексте слова пишутся слитно, без пробелов, а буквы и диакритические знаки могут располагаться в строке на четырех различных уровнях. В иврите используется направление письма справа налево, но если в тексте попадаются слова на другом языке (например, на английском), они пишутся слева направо. В ABBYY FineReader Engine 8.1 также добавлена поддержка формата PDF/A (PDF/Archive), разработанного корпорацией Adobe специально для электронных архивов.