Андрей Колесов

Информационно-аналитическая система "Астарта" от Cognitive Technologies позволяет обрабатывать текстовые материалы, в первую очередь из СМИ, проводить их анализ и составлять отчеты.

В июне 2000 г. компания Cognitive Technologies (http://www.cognitive.ru) официально представила свою новую программную разработку - информационно-аналитическую систему "Астарта" для автоматизации решения аналитических задач на основе обработки полнотекстовых документов. Легко увидеть, что ее появление стало логическим продолжением развития основных направлений деятельности компании: разработки программных продуктов для управления документами (в первую очередь "Евфрат"), исследований в области искусственного интеллекта (наиболее известны здесь программы распознавания текстов) и создания информационных систем масштаба предприятия. В данном случае технологическая готовность разработчиков удачно сочетается с появлением реального спроса на подобную продукцию.

"Астарта" ориентирована в первую очередь на обработку материалов, представляемых СМИ. Ее основные функции: ввод информации из различных источников, первичная обработка (приведение документов к единому формату), полнотекстовая индексация, аналитическая обработка (автоматическое рубрицирование, группировка и т. п.), полный набор поисковых операций, подготовка отчетов (обзоров, дайджестов и т. д.) для печати и/или электронной рассылки (рис. 1).

Fig.1
Рис. 1. Структурная схема работы системы "Астарта".

Система построена на использовании семантического анализа текстов. Например, на базе информации, извлекаемой из Интернета, можно отследить, как участились упоминания об определенной компании. Если компания начинает мелькать в прессе и новостях существенно чаще, чем это было раньше, нетрудно сделать вывод, что она начала активную PR-кампанию или как минимум решила пересмотреть свои позиции на рынке. Более того, подробнее анализируя появляющуюся в прессе информацию, можно сделать выводы о том, на какую именно новую нишу рынка претендует компания и каким образом она себя позиционирует.

Получаемые новости будут не просто собраны, скажем, по названию интересующей компании, а разложены по разным подрубрикам: финансы, новые продукты, награды, негативные публикации. Более того, если вас больше интересует информация деловых изданий, то эти сведения будут идти первыми. По желанию все сообщения, полученные в результате такого анализа информации, можно собрать в одну новость, отражающую только основную информацию.

Технологические основы

Основной модуль "Астарты" разрабатывался на основе технологий пакета "Евфрат"*. Последний представляет собой комплекс средств создания и ведения электронных архивов, как персональных, так и корпоративных, в которых документы представлены в виде файлов различных форматов: графических, текстовых (файлы Microsoft Word), структурированных (файлы Microsoft Excel) и смешанных, состоящих из нескольких файлов.


* Родство двух технологий подчеркивается в их названиях (Астарта - финикийская и вавилонская богиня любви и плодородия).

Одно из ключевых новшеств системы - полнотекстовая индексация вводимой информации и нормализация индекса. Это означает, что при вводе или, правильнее сказать, при регистрации документов система выполняет их морфологический анализ, выделяет и учитывает в индексной базе данных только уникальные словоформы, приведенные к "нормальной" форме (единственное число, именительный падеж, неопределенная форма и т. д.). При этом производные формы распознаются системой и фиксируются как вхождения "нормальной", что существенно сокращает объем хранимой служебной информации (индексной базы данных). А если учесть, что на основе разработанных и построенных так называемых стоп-словарей отбрасываются все служебные, не несущие семантической нагрузки слова (по желанию оператора можно не учитывать и глаголы), то база данных полнотекстового индекса получается уникально компактной.

Абсолютное новшество по сравнению с "Евфратом" состоит в использовании рубрикаторов, которые обеспечивают автоматическое отнесение поступающих информационных материалов к тем или иным темам - рубрикам. Отличительная особенность используемого рубрикатора - возможность его обучения под конкретного эксперта. Внешне это выглядит примерно так: специалист вручную сортирует документы по разным категориям, а система параллельно анализирует содержимое документов, пытаясь понять, по какому принципу выполняется сортировка. После прохождения такого обучения "Астарта" выполняет рубрикацию самостоятельно.

В системе реализован расширенный аппарат запросов, который при помощи индексной базы и данных регистрации документов (реквизиты), в том числе и рубрикации, позволяет искать и находить действительно необходимую информацию.

Исходным материалом служат в основном новостные ленты, которые представляют собой файлы регулярного формата, содержащие последовательно расположенные сообщения. Анализируя подобные сообщения и новостные ленты в целом, "Астарта" выделяет и фиксирует в качестве реквизитов сообщений такие параметры, как дата получения сообщения, дата информации сообщения, источник, автор, регион и т. п. Система обеспечивает автоматическое сканирование Web-сайтов.

Система имеет интуитивно понятный интерфейс (рис. 2), который содержит стандартные элементы управления и основан на общепринятых понятиях ("рабочий стол", "мусорная корзина", "контекстное меню", drag-and-drop и т. д.). Основное окно "Астарты" воплощает концепцию "рабочего стола", на котором система и пользователь размещают объекты, используемые в работе. К основным объектам относятся такие ставшие уже стандартными элементы пользовательского интерфейса, как папки (в том числе и вложенные), картотеки - средства редактирования значений реквизитов, контекстные меню, "корзина" и другие.

Fig.2
Рис. 2. Пользовательский интерфейс "Астарты".

Для удобства пользователей в системе имеются "мастера", которые простым и доступным способом (разбивая задачу на элементарные операции) позволяют производить сложные манипуляции с данными и помогают в освоении программного комплекса.

Пример: анализ патентной информации

Для демонстрации использования "Астарты" на практике расскажем о проекте, реализованном в 2001 году в Заполярном филиале ОАО "Горнометаллургическая компания "Норильский никель" (Норильск). Эта компания - один из флагманов российской металлургии и активно работает на мировом рынке. Именно такое позиционирование комбината определяет актуальность задач стратегического планирования его деятельности, что требует постоянного изучения ситуации в мире. Экспертные исследования рынка ведутся в компании уже давно, но ранее все это делалось "ручными" методами. Необходимость автоматизации определялась не только желанием повысить производительность работы экспертов, но и настоятельным требованием повысить качество и глубину анализа, в частности, увеличив количество источников информации.

Реализация проекта началась с автоматизации патентных исследований, которые представляют собой необходимый и важный этап создания конкурентоспособных технических решений и качественного прогнозирования перспектив развития отрасли. Это обусловлено в первую очередь следующими особенностями патентного фонда:

  • полнотой - подавляющее большинство новых научно-технических идей описано в патентных документах, и они охватывают всю научно-техническую деятельность человека;
  • непротиворечивостью - основная функция патентных ведомств состоит в обеспечении непротиворечивости массива патентной информации;
  • индексированностью по времени - в соответствии с международным политическим статусом патентных документов они являются первыми опережающими публикациями;
  • отображением на предметную область - патентный фонд всех основных стран классифицирован по единой для них Международной патентной классификации, что позволяет работать с ним в терминах предметной области.

С помощью патентной информации можно выявить конкурентов и потенциальных партнеров, дать анализ текущего состояния и прогноз развития рынка тех или иных материалов, изучить требования потребителей и т. п. Однако почти сразу стало понятно, что анализ патентной информации крайне желательно дополнить возможностью полнотекстовой обработки неструктурированных документов из различных источников (в том числе из Интернета и СМИ).

В ходе первого этапа проекта, завершенного в середине 2001 г., на базе технологии "Астарта" был разработан программный комплекс, включающий две подсистемы: "Патент" и "Дайджест". Первая выполняет анализ патентной документации, в том числе с применением методов математической статистики. Задача подсистемы "Дайджест" - создание тематических папок с помощью запросов, в том числе с применением семантического разбора текста. Специальные средства обработки входной информации позволяют автоматически отбирать нужные (по заданным темам) документы и рубрицировать их.

В обе подсистемы входят средства визуализации результатов обработки и формирования отчетов. Для ввода исходной информации годятся как бумажные (с применением систем распознавания образов), так и электронные документы. Специальный Интернет-агент обеспечивает мониторинг различных Web-сайтов в реальном масштабе времени и перекачку с них нужной информации в локальное хранилище.

По состоянию на сентябрь 2001 г. в базе данных системы хранилось почти 80 тыс. патентов по профильной тематике. Пополнялась она в основном через Интернет со специализированных Web-сайтов (в частности, Американского патентного ведомства). Кроме того, здесь же находятся все внутренние стандарты, описывающие технологические процессы предприятия, а также около 400 единиц документации, в которых аккумулирован уникальный научно-технический опыт норильских исследователей за последние 30 лет.

Внедренная система решает следующие основные задачи:

  • поиск, отбор и фильтрация патентов и другой научно-технической документации в Интернете и в локальном электронном архиве (поиск по маске, правое/левое усечение, сложные запросы с использованием логических операций, учет морфологии русского и английского языков);
  • динамический анализ информационного объекта (выбор аспектов развития, поиск альтернатив для каждого аспекта, построение моделей и прогнозирование, оценка результатов);
  • статический анализ информационного объекта (выделение структуры патентования по фирмам, странам и т.д.);
  • статистический анализа различными методами (авторегрессия, с учетом временных разрезов, корреляционный анализ и т.п.).

В системе также имеется инструментарий для визуального представления результатов анализа и составления отчетов.

Статический анализ позволяет выявлять структуру внешней и внутренней среды для исследуемого объекта. На первом шаге такого анализа документы, описывающие исследуемый объект, группируют в папку на основе запросов. Второй шаг - ранжирование по выбранным параметрам: папке, реквизиту ранжирования, длине маски и т. п. В результате ранжирования получается структура выбранного сегмента рынка (рис. 3).

Fig.3 Рис. 3. Результаты анализа: структура рынка.

Для примера приведем результаты анализа данных об объеме патентования по двум способам использования никеля: в автомобильных катализаторах и в катализаторах для газовой и нефтехимической промышленности. Удалось выявить динамику развития альтернативных технологий за последние 10 лет (рис. 4).

Fig.4 Рис. 4. Результаты анализа: временная динамика.

Анализ графика позволяет сделать предварительные выводы о тенденциях развития интересов ведущих фирм в выбранных для наблюдения областях. В области автокатализаторов рост, начавшийся в 1996 г., прошел свой пик в 1997 г., после чего спад шел практически по линейному закону, достигнув в 2000 г. нулевой активности. Отсутствие интереса в этой области, по-видимому, сохранится и в ближайшем будущем. По катализаторам для переработки нефти и газа все последние годы наблюдается стабильный интерес с некоторой тенденцией к росту. В последнем случае очевидно, что для уточнения направленности тенденций развития активности требуются аналитические методы регрессионного анализа.

Для этого вначале выбирается модель, в рамках которой ведется прогнозирование, и подбираются ее исходные параметры. На основании полученной модели строится прогноз на известный отрезок временного ряда (рис. 5). Как видно из графика, предсказанная кривая близка (т. е. лежит в "конусе ошибки") к реальной кривой на этот период. Значит, модель подобрана удачно и, исходя из нее, можно строить прогноз на будущее. На основании полученных графиков можно сделать вывод о том, что технологии использования никеля, связанные с газовой и нефтехимической промышленностью, более перспективны. Кроме того, с помощью одного из методов статического анализа была "грубо" обрисована структура рынка потребителей этой технологии. Результаты эксперт обобщает в виде отчета, в который в качестве иллюстрации помещаются данные визуальные объекты.

Fig.5 Рис. 5. Прогноз развития ситуации.

Система, реализованная в Норильске, - это достаточно сложный программный комплекс, использующий в числе прочего методы статистической обработки. Однако в его основе лежит обработка огромного числа исходных текстовых документов с помощью технологии "Астарта".

Что впереди

Исходно "Астарта" позиционировалась как технология создания аналитических систем, адаптируемых под нужды конкретных клиентов, в первую очередь из числа крупных корпоративных заказчиков. По оценкам представителей Cognitive Technologies, систему можно установить у пользователя в сроки от одного дня до 3 недель, в зависимости от того, насколько полно ее нужно интегрировать с имеющимися в компании бизнес-процессами и что именно требуется заказчику.

Однако компания хочет сделать систему более доступной для средних предприятий. На них рассчитана коробочная версия "Астарты", появление которой ожидается в I квартале 2002 г. По предварительным оценкам, цены на этот продукт в целом будут сопоставимы со стоимостью "Евфрата".

Кроме того, в первой половине нынешнего года разработчики планируют представить новую версию системы "Астарта" с расширенной функциональностью и возможностью использования тонкого клиента для удаленной работы с системой.