Андрей Колесов

Управление контентом и IBM DB2

Большинство исследований корпоративных систем показывает, что организации хранят в базах данных лишь около 20% своей информации. В значительной степени это обусловлено тем, что до относительно недавнего времени СУБД ориентировались в первую очередь на обработку и хранение сложной структурированной информации. В то же время основной объем информационных ресурсов предприятий (именно их теперь принято называть термином content, т. е. информационное наполнение) состоит из неструктурированных данных, хранящихся, как правило, в виде отдельных файлов (офисные документы, отсканированные изображения, данные, сгенерированные компьютером, файлы XML и HTML, передаваемые по факсу сообщения, аудио- и видеоклипы, электронная почта и т. п.). Да и многие структурированные данные зачастую хранятся в виде неупорядоченных наборов файлов, например, электронных таблиц.

Сегодня создание единой информационной среды - одна из наиболее актуальных задач, включающая два основных аспекта: формирование единых хранилищ и применение механизмов интеграции данных (на практике оба варианта обычно используются совместно). В любом случае центральное место в решении этой задачи занимают СУБД. Ключевая роль в программных технологиях IBM, ориентированных на управление данными, отводится направлению DB2. Эта технология представляет собой не просто СУБД, а целое семейство продуктов и интегрированных средств.

С помощью универсальной базы данных DB2 можно управлять различными видами информации. В частности, расширения DB2 Extenders позволяют работать с изображениями, видео, речью, документами XML, сложными текстами, пространственными объектами и т. п. Кроме того, дополнительное средство DB2 Data Links Manager поддерживает работу с внешней файловой системой, обеспечивая при этом ссылочную целостность данных, контроль доступа и т. д. DB2 Relational Connect (также дополнительная функция DB2) может запрашивать данные в других реляционных СУБД, например, Oracle и Microsoft SQL Server.

Однако для управления данными в системах масштаба предприятия желательно использовать специализированные продукты, такие, как IBM Content Manager, восьмая версия которого появилась на рынке в 2002 г. Данное решение ориентировано в первую очередь на создание хранилищ данных (электронных архивов), в которых объем информации весьма значителен, но при этом сами данные (например, мультимедийные клипы) не изменяются после сохранения. Следовательно, в таких случаях оказываются ненужными возможности СУБД для управления самими физическими объектами, кроме как в случае их каталогизации.

В частности, эта система хорошо подходит для банков, которые обрабатывают и хранят миллионы изображений чеков; для страховых компаний, которые сканируют и хранят информацию о страховых полисах; для мультимедийных коллекций (в качестве примера можно назвать Музей искусства Ватикана) или для архива новостей компании типа CNN. Говоря о практическом применении данной технологии, можно упомянуть и о российском проекте, выполненном для электронного архива Эрмитажа.

В новой версии Content Manager 8.0 большое внимание уделено повышению эффективности поиска, в том числе по графическим образам документов. Однако возможности работы с русскоязычными документами в нем пока весьма ограниченны: сейчас можно использовать только контекстный поиск, без учета морфологии языка. В то же время одна из самых сильных сторон Content Manager с точки зрения организаций, ориентированных на клиентов, - это средства управления отношениями с клиентами. С помощью таких средств можно извлекать и представлять в удобном виде всю корреспонденцию клиентов, сопроводительные документы и их историю, чтобы персонал ясно понимал потребности клиентов и эффективно обслуживал их.

IBM Content Manager

IBM Content Manager реализован на базе СУБД IBM DB2, специальная версия которой входит в состав его поставки. При этом пакет может также использовать другие хранилища данных (Oracle, Sybase, Microsoft SQL Server, Documentum, FileNet, Lotus Notes), но модули для работы с ними нужно приобретать отдельно. IBM Content Manager - это одновременно и старый, и новый продукт: в принципе он представляет собой дальнейшее развитие цифровой библиотеки DB2 Digital Library и EDMSuite VisualInfo.

Говоря о Content Manager, мы по сути ведем речь о портфеле решений, включающем несколько продуктов. Базовое ПО Content Manager - ключевой компонент для хранения широкого спектра бизнес-информации в цифровом виде, от сканированных изображений и факсимиле до XML и разнообразных мультимедийных данных. Он также обеспечивает автоматизацию документооборота и управление версиями.

Content Manager OnDemand имеет дело с потоками компьютерных выходных печатных материалов, таких, как счета, различные документы о транзакциях и отчеты. Логически этот продукт тесно примыкает к Content Manager ImagePlus и MQSeries Workflow - приложениям для обслуживания клиентов, рассчитанным на большие объемы данных. MQSeries Workflow помогает быстро проектировать и автоматизировать бизнес-процессы, а Content Manager ImagePlus обеспечивает обработку большого объема изображений. Оба указанных продукта также базируются на DB2.

Еще один продукт, Content Manager VideoCharger, обрабатывает мультимедийные потоки в режиме реального времени. При этом используются обычные Web-браузеры на рабочих станциях. VideoCharger может работать с информацией в многочисленных форматах видео и аудио, включая MPEG и QuickTime.

Информационный портал предприятия IBM дает возможность бизнес-пользователям создавать персонализированные запросы и использовать обширные поисковые возможности для традиционных структурированных и неструктурированных источников данных.

Content Manager CommonStore for SAP, Content Manager CommonStore for Lotus Domino и Content Manager CommonStore for Exchange Server - компоненты, обеспечивающие архивирование и длительное хранение сред соответствующих приложений.

Архитектура Content Manager

В состав Content Manager входят сервер библиотеки, серверы объектов (для хранения, их число может быть любым) и клиент, предоставляющий пользовательский интерфейс.

Сервер Content Manager использует запатентованную "пирамидальную" архитектуру (патент США 6.044.373), показанную на рис. 1. Его клиент, а также любые другие приложения используют единый объектно-ориентированный интерфейс API для вызова сервисов Content Manager. Сервисы разделены между библиотечным (Library) и одним или несколькими ресурсными (Resource) серверами.

Fig.1 Рис. 1. Архитектура Content Manager.

Библиотечный сервер обеспечивает хранение метаданных, индексацию, авторизацию пользователей и управление хранением документов в качестве "объектов" на ресурсных серверах. Все обращения к библиотечному серверу осуществляются с помощью стандартного языка запросов SQL и скрыты от пользователя. Результаты запросов передаются клиенту и содержат ссылки на объекты, к которым пользователь может получить доступ согласно его полномочиям. После этого клиент напрямую получает выбранный объект с ресурсного сервера с помощью стандартных Интернет-протоколов HTTP, FTP или FILE.

Базы данных DB2, Oracle или Microsoft SQL Server могут использоваться в рамках данной технологии как хранилище метаданных (к Content Manager прилагается лицензия на ограниченное использование DB2 для тех клиентов, у которых такой лицензии еще нет). В этом хранилище содержится главный индекс всей информации, на которую ссылается Content Manager. В числе прочего это данные о правилах защиты и параметрическая информация для контекстного поиска. В ответ на запросы пользователей серверы ресурсов извлекают контент из различных источников, указанных в хранилище. Пользовательский интерфейс используется приложениями для сбора, поиска контента и манипулирования им. Когда клиент делает запрос, происходит обращение к серверу библиотеки. Тот направляет запрос на любой сервер ресурсов, способный этот запрос удовлетворить.

Такая архитектура позволяет размещать ресурсные серверы удаленно, рядом с группами пользователей, которые создают и поддерживают информационное наполнение. Эти серверы могут работать под управлением различных операционных систем.

Технология, предусматривающая полное отделение управления метаданными и контроля доступа от управления объектами и доставки содержимого, обеспечивает:

  • высокую производительность независимо от объемов хранилища;
  • неограниченную масштабируемость и распределенность;
  • использование инструментов базы данных для управления метаданными;
  • использование высокоскоростных файловых протоколов передачи данных для доступа к ресурсным серверам;
  • использование открытых стандартов, включая SQL, XML, HTTP, FTP, MPEG-4 и Java.

Благодаря специализированным менеджерам ресурсов можно использовать различные интерфейсы для доставки объектов. Например, специализированные видеосерверы могут функционировать в качестве менеджеров ресурсов, производя преобразование "на лету" с учетом загрузки канала и требований пользователей, а также обеспечивая выполнение специальных операций с потоками, включая кадрирование и поиск.

Кроме того, система обеспечивает полную поддержку транзакций с контролем целостности ссылок для доступа к объектам через высокоуровневые интерфейсы API. В состав транзакций входят как метаданные, так и объекты.

Высокая масштабируемость обусловлена использованием ресурсных серверов для хранения самих документов. Серверы можно добавлять в любое время при возрастании нагрузки. Одним из примеров использования нескольких ресурсных серверов служит хранение различных классов документов и объектов на разных серверах в зависимости от того, насколько оперативно эти объекты должны предоставляться пользователям. В частности, видеоинформацию лучше хранить на сервере, подключенном к сети через высокоскоростной канал; в то же время редко используемые документы можно поместить на сервер с низким быстродействием.

Для оптимизации использования ресурсных серверов можно применять пакет Tivoli Storage Manager (TSM), позволяющий поместить каждый объект-документ на подходящий носитель. При этом работа происходит с так называемым пулом хранения, который обеспечивает соответствующий объем хранения и уровень производительности, указанный в политиках архивирования.

Документы, находящиеся на ресурсном сервере, доступны пользователям немедленно. Если необходимо предоставить документ, который в настоящий момент сохранен на внешнем носителе, TSM автоматически проведет поиск нужного носителя и считает с него объект в ресурсный сервер, после чего документ будет предоставлен пользователю. В любом случае уровень архитектуры CommonStore гарантирует, что все компоненты архивного решения полностью скрыты от пользователя. Он получает документы в привычном для себя виде и может даже не подозревать о том, что за сценой осуществляются массированные процессы обработки. Возможно, правда, пользователь все же заметит одно изменение, а именно - повышение производительности бизнес-приложений!

Tivoli Storage Manager

TSM - это масштабируемая система управления хранением корпоративного уровня. Ее функции включают резервное копирование, создание нескольких копий архивов данных, в том числе географически разнесенных. Но у TSM есть и другие ценнейшие свойства. Так, в среде SAP этот продукт обеспечивает абсолютную уверенность в высокопроизводительном и сверхнадежном управлении документами.

TSM с логической точки зрения находится уровнем ниже Content Manager и отвечает за размещение и перенос электронных документов в иерархии логических пулов хранения. Управление хранением упрощается благодаря применению политик администрирования, которые направляют определенные классы данных в соответствующие места иерархии хранения. Это сокращает потребность в администраторском персонале и снижает общие затраты. В рамках методологии TSM политики хранения данных базируются исключительно на потребностях бизнеса.

Система TSM хранит копии документов в течение длительного периода времени (до нескольких десятилетий), по мере прохождения жизненного цикла перенося их на резервный диск, оптический диск, ленту и т. п. Наконец, когда все законодательно установленные сроки хранения истекают, документ можно перенести на самый медленный носитель.

В решении на базе Content Manager несколько серверов TSM могут, например, обслуживать одну среду SAP. При необходимости масштабирования или повышения надежности (скажем, в случае нехватки ресурсов) можно просто добавлять серверы TSM.

Создание электронного архива

Электронный архив на основе IBM Content Manager способен обеспечить высокую сохранность и защиту документов, прозрачную интеграцию и быстрый поиск информации. Интеграция с приложениями SAP R/3, системами документооборота и почтовыми серверами может осуществляться с помощью специального компонента IBM CommonStore, который входит в состав описываемого решения.

Для минимизации нагрузки на корпоративную интрасеть и повышения скорости работы можно создавать локальные копии архива в удаленных структурных подразделениях компании. Встроенные механизмы репликации обеспечат синхронизацию архивов и перемещение новых документов между удаленными архивами в зависимости от типов документов и настроек администратора. Архитектура предлагаемого решения представлена на рис. 2. В центральном архиве осуществляется ввод информации и интеграция с другими системами. Управлять архивом (в том числе удаленным) можно централизованно, из одного места. Все изменения и настройки, сделанные администратором в центральном архиве, могут автоматически рассылаться в удаленные системы. Такой подход избавляет от необходимости обучать и держать специальный персонал в местах развертывания удаленных архивов. При осуществлении процедур управления и обслуживания можно обойтись малым количеством специалистов.

Fig.2 Рис. 2. Архитектура электронного архива на базе IBM Content Manager.

Content Manager служит фундаментом для создания электронного архива. Далее в зависимости от существующей инфраструктуры предприятия и решаемых задач можно использовать различные компоненты, строя их них, как из кубиков, необходимую функциональность архива и интегрируя его с другими приложениями.

В частности, для интеграции информации из SAP R/3 и ее архивирования предназначен продукт IBM CommonStore for SAP, сертифицированный компанией SAP AG. Он использует специальный программный интерфейс SAP ArchiveLink для взаимодействия с R/3, архивации и восстановления документов. CommonStore для SAP абсолютно прозрачен для пользователей и не изменяет пользовательский интерфейс SAP. Благодаря полной интеграции с SAP пользователи R/3 могут при помощи SAP DocFinder искать нужные документы не только в самой базе R/3 или заархивированных из нее документах, но и среди всего корпоративного электронного архива при наличии соответствующих полномочий.

Аналогично, для работы с почтовыми серверами или системами документооборота можно использовать модули IBM CommonStore for Lotus/Exchange, которые обладают аналогичной функциональностью и позволяют архивировать вложения в сообщения электронной почты и сами сообщения, а также предоставлять доступ к ним из любого места, любому авторизованному пользователю.