Андрей Колесов

Компания Cognitive Technologies (http://www.cognitive.ru) хорошо известна на нашем рынке систем управления документами и, безусловно, входит в лидирующую группу отечественных разработчиков подобных технологий. В то же время ее технологическая и маркетинговая стратегия отличается от деятельности других российских ИТ-компаний.

Компания выступает на рынке одновременно как поставщик набора коробочных и тиражируемых продуктов (распространяемых напрямую и через партнерскую сеть) и как проектный интегратор. В свою очередь, ее программные продукты предлагаются в виде нескольких изданий. Благодаря этому технологии Cognitive подходят как для малых предприятий (и даже индивидуальных пользователей), так и для корпоративных заказчиков. В настоящее время компания предлагает следующие продукты для построения систем управления документами:

  • "Евфрат-Документооборот" - система автоматизации документооборота;
  • "Астарта" - автоматизированная система аналитической обработки документов;
  • Cognitive Forms - система обработки форм документов;
  • "Евфрат" - управление электронным архивом документов;
  • CuneiForm - система оптического распознавания символов.

Отличительная особенность этих продуктов - использование собственных базовых технологий компании, которые относятся к категории наукоемких. Широкая публика знает о достижениях Cognitive Technologies в области распознавания образов. Менее известно, что в ее продуктах могут использоваться не только промышленные СУБД сторонних поставщиков, но и собственная объектно-ориентированная СУБД "Ника", применение которой существенно повышает производительность обработки документов. А в "Астарте" используются оригинальные математические алгоритмы автоматического анализа текстовой информации (подробнее об этом продукте см. "BYTE/Россия" № 2/2002).

Научный руководитель направления систем управления документами Cognitive Technologies профессор Н. Е. Емельянов считает, что развитие данных технологий должно идти не только за счет прямого наращивания функционала и увеличения вычислительных мощностей. Принципиальный эффект может дать применение качественно новых подходов к обработке традиционных документов.

Один из таких новых подходов - создание систем класса "формооборота" (forms processing). Ключевая идея здесь - максимальная структуризация документов в виде набора полей. Представление традиционных документов в виде форм резко сокращает затраты на решение нескольких взаимосвязанных задач: преобразования бумажных документов в электронный вид, оптимизации объема архива и аналитической обработки документов.

Данная технология была отработана компанией при выполнении ряда корпоративных проектов и представлена в очередной версии системы Cognitive Forms, выпущенной весной прошлого года.

Другое перспективное направление - более широкое использование сложноструктурированных документов (упрощенно говоря, это означает, что документ представляет собой не плоский набор записей, а иерархическую структуру с произвольной глубиной вложения). Идея эта не нова, но в данном случае очень важно, каким образом она будет реализована. Оптимальный вариант - переход от применения традиционных реляционных баз данных к объектно-ориентированным. В решении этой задачи компания отводит особую роль развитию своей СУБД "Ника".

"Евфрат-Документооборот"

Первый вариант продукта под названием "Евфрат" появился еще в 1995 г. и предназначался в основном для решения поисковых задач в рамках файловой системы локального компьютера. За прошедшие годы "Евфрат" превратился в универсальное средство поддержки электронных архивов с развитыми функциями управления документами, реализованное в трех вариантах - SOHO, Office (обе версии однопользовательские) и "Клиент/Сервер". Эти продукты уже давно использовались для создания систем делопроизводства, однако для более эффективной автоматизации документооборота потребовалось существенно расширить их функции, в частности, управление маршрутизацией документов и поддержку групповой работы. В этой ситуации было принято решение о разделении универсального пакета "Евфрат" на две продуктовые линии - "Электронный Архив" и "Документооборот". В результате летом прошлого года на рынке появился "Евфрат-Документооборот".

Помимо функций управления документами "Евфрат-Документооборот" включает внутреннюю почтовую службу, технологии морфологического анализа текста, встроенное средство просмотра документов различного формата, генератор отчетов, дизайнер форм регистрационных карточек, а также набор API-функций для разработки дополнительных модулей. Коробочный вариант предусматривает использование встроенной СУБД "Ника", но при необходимости можно работать и с базами данных других поставщиков - с Oracle, IBM DB/2, Microsoft Exchange и SQL Server. В системе реализована идея использования сложноструктурированных документов - документ в общем случае представляет собой регистрационную карточку с набором вложенных файлов.

Fig. Архитектура системы "Евфрат-Документооборот".

"Евфрат-Документооборот" имеет трехуровневую структуру (его архитектура показана на рисунке) и включает следующие основные компоненты, входящие в типовой комплект поставки.

Делопроизводство - реализует основную функциональность рабочих мест пользователей системы, включая функции регистрации, поиска, контроля исполнения, почтовый клиент, формирование отчетов, просмотр и печать документов.

Администратор документооборота - создает группы пользователей, отвечает за настройку прав, словарей, календаря, адресной книги, структуры предприятия, новых потоков документов и т. д.

Администратор сервера - отвечает за управление местом хранения данных, создание резервных копий базы и при необходимости восстановление базы из резервной копии.

Серверное хранилище - реализует все серверные функции хранения данных, управления заданиями, контроля разграничения доступа для пользователей.

СТ Генератор отчетов - средство разработки, генерации, просмотра и печати любых отчетов на основании данных, хранящихся в системе "Евфрат-Документооборот".

Кроме того, в поставку могут быть включены дополнительные модули.

Евфрат: Дизайнер форм - утилита, позволяющая настраивать "Евфрат-Документооборот" на работу со своими собственными уникальными регистрационными формами документов.

Интернет-клиент ("тонкий" клиент) - обеспечивает доступ пользователя к системе в объеме, определяемом его правами. Включает программу кодирования передаваемых через Интернет данных.

Данные системы "Евфрат-Документооборот" хранятся в подсистеме "Серверное хранилище", базе данных подсистемы "Делопроизводство" и конфигурационном файле сервера приложений. В "Серверном хранилище" содержатся все документы, их реквизиты и файлы, присоединенные к документам. Здесь же в виде документов хранятся системные настройки, формы, опубликованные на сервере, подробная информация о пользователях, словари, списки рассылки и другие подобные данные.

Классификация систем обработки документов

Широкий спектр предложений на рынке систем обработки документов делает актуальным создание классификаторов, которые можно использовать, например, для сравнительного анализа различных технологий. В этой связи ниже мы рассмотрим один из вариантов такого классификатора, разработанный специалистами Cognitive Technologies.

В настоящее время многие авторы предлагают такую классификацию систем обработки документов: "Делопроизводство", "Документооборот", "Управление документами" и "Управление знаниями". К сожалению, при этом довольно редко дается четкое определение этих классов. В этой связи представляют интерес соответствующие формулировки*.

Делопроизводство - регистрация документов (бумажных и/или электронных как таковых, вообще говоря, без регистрации их содержания - только ввод краткой неструктурированной аннотации), задание поручений по ним и контроль исполнения.

Документооборот - средства первого класса и регистрация содержания документов, выполнение бизнес-процессов, связанных с этим документом, маршрутизация.

Управление документами - средства первых двух классов и средства массовой загрузки документов, архивы, хранение на CD, DVD, MO, разнообразные средства вывода и т. п.

Управление знаниями - средства первых двух классов и средства рубрикации, классификаторы, информационно-аналитические средства**.


* См. Арлазаров В. Л., Емельянов Н. Е. Системы обработки документов. Основные компоненты. Сборник трудов "Управление информационными потоками" ИСА РАН - М.: Едиториал УРРС, 2002.
** О системах управления знаниями см. также статьи в "BYTE/Россия" № 2/2002 (тема номера - "Управление знаниями").

В таблице приведен структурированный перечень основных компонентов систем обработки документов в порядке прохождения их жизненного цикла. Для всех компонентов указан соответствующий класс систем обработки документов, которому они наиболее свойственны.

Структурированный перечень компонентов систем обработки документов и их принадлежность к определенному классу

Функция Компоненты Какому классу свойственны
1. Ввод документов (бумажных или электронных) Средства сканирования бумажных документов Делопроизводство
Средства ввода из Интернета Делопроизводство
Средства ввода из Windows-приложений Делопроизводство
2. Регистрация по определенным формам содержания документов (в общем случае сколь угодно сложной формы) Средства описания форм сложноструктурированных документов Делопроизводство
Редактор документов на основе их форм Делопроизводство
Средства генерации новой (расширение имеющейся) схемы БД информационных объектов по описаниям форм входных документов и, наоборот, построение формы ввода на основе фрагмента (или всей) схемы БД Документооборот
Средства ввода данных, представленных по формам, в БД (набор драйверов для разных СУБД) Документооборот
3. Распознавание Средства распознавания всего документа Делопроизводство
Распознавание выделенного фрагмента во время переноса атрибута (Drag&Recog) Делопроизводство
Средства распознавания блока атрибутов, что позволяет в образе документа указать только место расположения группы атрибутов (индексация по имиджу) Делопроизводство
4. Массовая загрузка данных Средства проектирования форм для автоматического ввода и распознавания Управление документами
Специальный редактор для корректировки ошибок распознавания Управление документами
Система обеспечения конвейера сканирования, распознавания, корректировки, ввода в БД Управление документами
Средства разбора и загрузки данных из новостных лент Управление документами
Средства разбора (полностью или только изменений) Интернет-сайтов Управление документами
Средства экспорта данных в архив Управление документами
5. Индексация Система индексации по атрибутам документа Делопроизводство
Средства полнотекстовой индексации, стоп-словари Делопроизводство
Система автоматической рубрикации Документооборот
Система индексации по атрибутам объектов содержания документов Документооборот
Автоматическая индексация дат, географических наименований, имен и фамилий, e-mail и http-адресов и т. п. Управление документами
6. Лингвистический анализ (как правило, используется в средствах индексации и поиска) Морфологический и семантический анализ, средства нормализации (приведение к единственному числу, именительному падежу и т. п.) Делопроизводство
Работа с другими языками, не только с русским Делопроизводство
Автоматическое выделение понятий Управление знаниями
Элементарные средства перевода с одного языка на другой (например, английский -русский) Управление знаниями
7. Хранилище документов и описаний информационных объектов Хранилище документов (файл-сервер, документно-ориентированная или универсальная БД) Делопроизводство
Хранилище информационных объектов, описанных в документах, - универсальная БД на промышленной СУБД (а не документно-ориентированной) Документооборот
Средства хранения документов на CD, DVD, МО Управление документами
Средства сжатия данных Управление документами
8. Поиск Средства поиска по любому логическому выражению (с указанием скобок, фрагментов контекста и т. д.) Делопроизводство
Средства полнотекстового поиска (в частности, с учетом близости слов в документе) Делопроизводство
Средства комбинированного поиска (по всем словам и атрибутам) Делопроизводство
Средства оценки релевантности и уточнения запроса Делопроизводство
Средства автоматизации предложений к уточнению запроса Управление знаниями
Система поиска объектов и подобъектов любой глубины вложенности по собственным и унаследованным атрибутам Управление знаниями
9. Экспорт-импорт данных Экспорт-импорт в виде программного скрипта Делопроизводство
Обмен информацией с объектно-ориентированной БД Документооборот
Обмен информацией с реляционной или объектно-реляционной БД Документооборот
Обмен информацией в форматах HTML, PDF, PostScript и т. д., пригодных для публикации в Интернете или на бумаге Документооборот
10. Web-сервер над архивом документов (для обеспечения работы с документами средствами стандартных браузеров) Средства обеспечения доступа к архиву документов в Интернете Делопроизводство
Средства включения файлов как в качестве приложения ко всему документу, так и компонентов описания объектов документа (фотографии, чертежи, тексты, звук и т. п.) Документооборот
Средства выделения подмножеств атрибутов (подсхем БД), доступных для разных типов пользователей Документооборот
Средства гибкого оперативного управления режимом отображения информационных объектов (списки, таблицы, иерархии) Управление знаниями
11. Обмен сообщениями Средства передачи сообщений Делопроизводство
Хранилище сообщений Делопроизводство
Адресная книга Делопроизводство
12. Репликации Слежение за версиями и копиями Управление документами
Средства объединения версий Управление документами
Совместная разработка частей документа группой пользователей Управление документами
Репликация для мобильных, удаленных пользователей Управление документами
Выборочная репликация Управление документами
Фоновая репликация Управление документами
Синхронизация с логикой приложений и дизайном (пересылаются не только данные, но и изменения в логике и дизайне) Управление документами
13. Работа в сетях Локальных с малым числом (до 10) пользователей Делопроизводство
Локальных и глобальных с большим числом пользователей (>100) Делопроизводство
Средства обмена скриптами или XML-документами между клиентами и сервером Делопроизводство
Монитор транзакций Делопроизводство
Сервер приложений Делопроизводство
14. Маршрутизация исполнительской деятельности Средства описания поручений Документооборот
Средства задания маршрута Документооборот
Средства определения текущего состояния по поручениям Документооборот
Средства контроля исполнительской деятельности Документооборот
Средства отображения истории обработки поручения и документов Документооборот
15. Защита от несанкционированного доступа Система идентификаторов и паролей Делопроизводство
Средства описания групп пользователей Делопроизводство
Система разграничения доступа к объектам и функциям Делопроизводство
Средства протоколирования всех операций (ввод, обработка, корректировка, чтение, распечатка и т. п.) Делопроизводство
Средства электронной подписи Делопроизводство
Средства администратора безопасности Документооборот
16. Вывод документов Генератор отчетов Делопроизводство
Печать документов по формам ввода Делопроизводство
Печать форм массового ввода, заполненных полностью, частично или пустых в виде, готовом для ввода и автоматического распознавания Управление документами
Печать каталогов, справочников на основе издательских систем Управление документами
17. Публикация информации на CD в виде отчуждаемого продукта Обеспечение работы средствами стандартных браузеров Делопроизводство
Защита от несанкционированного копирования дисков целиком Управление документами
Защита от копирования отдельных объектов Управление документами
18. Средства разработки приложений. API-функции API ко всем объектам системы Документооборот
Интерфейсы ко всем перечисленным выше компонентам системы Документооборот
Средства поддержки стандартных интерфейсов систем управления документами (ODMA, DMA, CORBA и т. д.) Управление документами
19. Средства управления знаниями Управление голосом Управление знаниями
Классификаторы, тезаурусы Управление знаниями
Средства ввода, обработки, хранения, поиска и отображения сложноструктурированных знаний Управление знаниями
Системы автоматического перевода Управление знаниями
Системы типа OLAP Управление знаниями