Развитие инструментария для работы с неструктурированной информацией и особенности унифицированной системы Oracle Universal Content Management.

Информация — важнейший актив любой организации, но при этом от 70 до 90% накопленных компаниями сведений хранится в виде неструктурированных данных. Учитывая это обстоятельство, неудивительно, что предприятия уделяют повышенное внимание эффективности работы с такого рода информационными ресурсами.

Инструментарий для работы с неструктурированными информационными ресурсами за последнее десятилетие в своем развитии прошел три основных этапа: специализированные решения, единая корпоративная среда управления контентом и унифицированные средства управления.

Специализированные решения

Исторически приложения для работы с неструктурированной информацией создавались в рамках специализированных технологических решений, ориентированных на частные бизнес-задачи, причем каждое из таких решений, как правило, предназначалось для управления строго ограниченным набором типов контента. В число решаемых ими задач входили следующие.

Документо-ориентированное управление — регистрация, контроль версий, разграничение доступа, поддержка бизнес-процессов для деловых документов.

Работа с образами документов — работа с бумажными документами, включая их преобразование в электронный вид и оцифровку.

Управление записями и политиками хранения — архивирование и автоматизация сохранения документов в соответствии с государственными нормативными требованиями и требованиями организаций.

Базы знаний — наглядные формы визуализации, полнотекстовый поиск, сквозной поиск по разнородным федеративным источникам, автоматическая категоризация.

Управление Web-контентом — автоматизация функций Web-мастера, управление динамическим контентом, управление стилями и шаблонами визуализации, распределение между сотрудниками обязанностей по созданию, публикации и изменению содержания.

Управление цифровыми активами — управление преобразованием формата контента и расширения для работы с мультимедиа.

Сотрудничество (документо-ориентированная групповая работа) — коллективная работа с документами и поддержка проектных команд, позволяющая организовать эффективное взаимодействие в тех случаях, которые не поддаются строгой формализации.

Каждое из этих специализированных технологических решений предлагает свои собственные, характерные только для него, функциональные возможности работы с неструктурированной информацией. Но при этом все они построены на общем фундаменте — регистрация, поддержка версионности, поиск, классификация, статистика, бизнес-процессы. По мере развития технологий и накопления практического опыта становилось все более очевидно, что использование специализированных решений приводит к серьезной фрагментации единого информационного поля организации.

Рассмотрим в качестве примера достаточно простую на первый взгляд задачу — предоставление видеоматериалов через Интернет. Любой видеофильм порождает массу обычного текстового контента — договора, документы, подтверждающие права собственности, маркетинговые материалы. Но для работы с договорами существуют пакеты для документо-ориентированного управления и работы с образами документов. С другой стороны, сроки хранения такого контента определяются регламентом, и эта задача относится к сфере управления записями и политиками хранения. Маркетинговые материалы готовятся в рамках рабочих групп; хранение и преобразование видеофильмов в поддерживаемые в Интернете форматы выполняются средствами решений для управления цифровыми активами, а публикация рекламы и собственно видеофильмов происходит через Web-сайты. Таким образом, для решения вполне рядовой задачи придется задействовать по крайней мере пять различных пакетов (рис. 1).

Единая корпоративная среда управления контентом

Проблема фрагментации информации устраняется или хотя бы значительно сглаживается за счет интеграции разнородных пакетов. И вполне закономерно, что следующий этап развития технологий управления неструктурированной информацией связан с концепцией «Корпоративной среды управления контентом» (Enterprise Content Management, ECM). Архитектура таких систем предполагает множество интегрированных, но все еще вполне самостоятельных специализированных вертикальных технологических решений с независимыми хранилищами контента (рис. 2).

Если вернуться к нашему примеру с видеофильмами, реализация системы на основе концепции ECM несомненно даст неоспоримые преимущества. Например, теперь мы имеем возможность определять и поддерживать связи между информационными компонентами, соотнесенными с видеофильмом, согласовывать версии, планы хранения и т. д. Однако интеграция — это необязательно единые классификаторы метаданных, правила ограничения доступа, единые хранилища контента. Кроме того, требования пользователей все сильнее размывают границы между традиционной функциональностью, представляемой специализированными решениями, так что многие из специфических возможностей, характерных для одного типа систем, оказываются востребованы в смежных. Например, организации может понадобиться управлять версиями Web-сайта как записями или реализовать композитное решение, объединяющее функциональность документо-ориентированного управления и управления цифровыми активами.

Унифицированная среда управления контентом

Идея, заложенная в основу концепции унифицированных средств управления контентом, предельно проста. Существует единое хранилище контента и метаданных, во-первых, и единый унифицированный интерфейс и средства администрирования, во-вторых, а между ними располагается единая библиотека функциональных компонентов, покрывающих весь спектр традиционных для ECM функциональных возможностей.

Основная инновация в решениях этого поколения — переход от унаследованной архитектуры с множеством интегрированных, но все еще до определенной степени самостоятельных специализированных решений, к унифицированному стеку системных (хранение контента и метаданных, администрирование, регламенты доступа) и функциональных компонентов, которые можно применять к любому типу контента — электронным документам, образам документов, отчетам, электронным таблицам, сообщениям электронной почты, изображениям, аудио- и видеофайлам, чертежам, другим цифровым форматам.

Решение Oracle UCM

Система Oracle Universal Content Management (рис. 3) относится именно к классу унифицированных платформ управления контентом. На физическом уровне хранилище контента Oracle UCM реализуется на основе традиционных файловых систем или непосредственно в базе данных Oracle. Оба подхода имеют свои достоинства, и вариант реализации хранилища выбирается на этапе развертывания на основе анализа требований к прикладной системе. Вне зависимости от используемого способа хранения и типов хранимого контента за администрирование и управление хранением отвечает один и тот же набор служб, обеспечивающих регистрацию и активизацию компонентов в стеке компонентов разделяемого функционала, настройку и управление метаданными, управление индексацией, архивное копирование, настройку правил синхронизации контента между узлами (федеративная архитектура).

Решение основывается на единой для всех типов контента расширяемой модели метаданных, позволяющей реализовать эффективную и гибкую структуру классификации и управления контентом. Например, классификацию можно проводить вручную или в автоматизированном режиме. В последнем случае специальный компонент категоризации можно настроить для извлечения метаданных из регистрируемого контента. Причем помимо собственного механизма и языка описания правил извлечения метаданных компонент предоставляет интерфейс для интеграции с системами категоризации третьих фирм.

Универсальность решения на основе Oracle UCM обеспечивается тем, что все компоненты из стека разделяемого функционала пригодны для работы практически с любым типом контента. При этом как сам набор компонентов, так и набор поддерживаемых решением типов контента, можно расширять.

Такая архитектура позволяет легко развивать и адаптировать уже реализованную прикладную систему к возможным изменениям в бизнес-требованиях. Например, если на очередном этапе развития возникает необходимость организовать документо-ориентированную групповую работу, не потребуется дополнительно устанавливать новый экземпляр решения. Достаточно просто активизировать компонент Collaboration Management, входящий в общий стек разделяемого функционала, и пользователи получат возможность совместной работы с контентом в рамках проектных команд или рабочих групп. При этом сохраняются все ранее сделанные наработки, а существующие функциональные возможности просто расширяются. Например, в данном случае к возможностям полнотекстового поиска и поиска по метаданным в рамках локального или федеративного хранилища контента добавится новая опция — поиск контента, связанного с данным проектом. А если в системе уже была активирована функциональность для работы с видео, эта функциональность будет доступна и в рамках проектных команд.

Вернемся к нашему примеру с видеофильмами. Весь необходимый функционал для такой системы уже представлен в стеке разделяемого функционала, и для развертывания системы дополнительно ничего не потребуется. Более того, если позже возникнет необходимость реализовать, например, функциональность баз знаний (рецензии на фильмы, публикации о творчестве актеров и т. д.), точно так же не потребуется больше ничего устанавливать. Вся необходимая функциональность — полнотекстовый поиск, классификация, поиск по метаданным, автоматическая категоризация, настройки пользовательского интерфейса — уже доступна, и ею можно начинать пользоваться.

Управление Web-контентом

Как видно из рис. 3, функциональность, обеспечивающая управление разработкой Web-сайтов, выделена в особый слой. Задача управления Web-контентом предполагает автоматизацию функций Web-мастера, управление динамическим контентом, управление стилями и шаблонами визуализации, возможность распределения между сотрудниками обязанностей, связанных с созданием, публикацией и изменением содержания сайта. И если функциональность для управления Web-контентом и его хранения уже представлена в стеке, то задачи, связанные с разработкой дизайна сайтов, как правило, решаются средствами специализированных пакетов — в случае Oracle UCM это Oracle Site Studio. Данный пакет устанавливается поверх стандартного базового решения Oracle UCM и поддерживает расширенные графические возможности для разработки дизайна сайта, управления им и публикаций.

Поскольку решение Oracle Site Studio представляет собой надстройку над общей базовой функциональностью, при проектировании сайта и собственно при работе с ним может использоваться весь функционал, предоставляемый Oracle UCM: поиск, настройка безопасности, активизация рабочих бизнес-процессов, контроль изменений, работа в рамках проектных групп, совместное редактирование контента, динамическое преобразование публикуемых документов (на основе предопределенных правил и шаблонов) в формат HTML.

Следует заметить, что, говоря о том, что Oracle Site Studio использует весь унифицированный базовый функционал, мы имеем в виду не только разработчиков и пользователей. Все системные объекты, создаваемые и используемые в процессе реализации сайта (например, шаблоны, стили, дизайн страниц, картинки), сохраняются в хранилище контента, и к ним точно так же применим весь базовый функционал (версионность, контроль изменений и т. д.).

Управление записями и политиками хранения контента

Как показывают аналитические отчеты, в 78% организаций уже имеется более одного хранилища контента, а в 43% их более шести. Кроме того, сюда надо добавить общекорпоративные и локальные архивы бумажных документов. Но организации необходима возможность согласованно применять политики управления хранением ко всем типам контента (от электронной почты и данных на файловых серверах до бумажных записей в архивах), независимо от того, где они физически размещены.

Вернемся к нашему примеру. Как уже говорилось, любой видеофильм порождает массу сопутствующих электронных и бумажных документов. И если вся функциональность, необходимая для управления хранением и жизненным циклом электронного контента, в локальном хранилище встроена в основной стек разделяемого функционала, то как быть с традиционными бумажными архивами?

Проведем простейшие вычисления. Предположим, что:

  • за год в систему добавляется 500 фильмов;
  • фильм находится в списке активных в течение пяти лет;
  • финансовые и юридические документы, соотнесенные с фильмом, должны храниться в архиве в течение пяти лет после удаления фильма из списка активных;
  • средняя толщина папки с документами для одного фильма составляет 5 см.

В результате получаем, что через 10 лет мы будем иметь бумажную стопку высотой в 80-этажный дом. Как этим управлять и как с ним работать?

Именно на решение этой задачи и ориентирован расширенный функционал управления записями и политиками хранения внешнего и физического контента. Его задача — обеспечить ведение единой электронной картотеки учета, что позволит применять политики хранения к информационным ресурсам, хранящимся в разнородных локальных системах.

В нашем примере для каждого фильма в учетной карточке помимо информации о соотнесенных с фильмом электронных документах будет храниться информация о месте хранения их бумажных эквивалентов. Таким образом, в любой момент заинтересованное лицо сможет найти всю соотнесенную с фильмом информацию. По истечении предусмотренных регламентом сроков хранения электронные документы будут автоматически удаляться. А сотрудники ответственного подразделения так же автоматически получат по почте извещение о том, что надо, например, подойти к 25-му стеллажу, снять с 31-й полки папку №7 и отправить эти документы на уничтожение.

В заключение хотелось бы отметить, что хотя в качестве примера в данной статье выбрана область видеосервисов, это сделано исключительно из соображений простоты и доступности для понимания. Ровно такая же ситуация и аналогичные, если не большие, проблемы возникают при реализации систем управления неструктурированной информацией в промышленном и финансовом секторе, медицине, образовании и государственных организациях. Неструктурированная информация — важнейший интеллектуальный актив любой организации, но, например, интеллектуальный актив промышленной корпорации — это не договора и даже не заявки на выдачу канцелярских принадлежностей, а проектная, технологическая и техническая документация, аналитические, маркетинговые и учебные материалы, технологические базы знаний. И здесь опять-таки возникает проблема, связанная с тем, что это разные типы контента, обрабатываемые разными решениями.