Сайт о телевидении

Сайт о телевидении

» » Технология эффективного анализа текстовых данных: Добыча знаний. Data Mining: что внутри

Технология эффективного анализа текстовых данных: Добыча знаний. Data Mining: что внутри

Сегодня вопросы анализа структурированной информации в различных прикладных областях в зависимости от специфики задач решены на 90-100%. С точки зрения технологий это объясняется очень просто: современные инструменты анализа позволяют "видеть" данные, хранящиеся в БД. На рынке широко представлены такие привычные пользователям технологии, как OLAP, BI и Data Mining, основанные на популярных методах статистической обработки, прогнозирования и визуализации.

Совершенно противоположная ситуация сложилась с анализом неструктурированных данных, проще говоря - текста, написанного естественным человеческим языком. Проблемы, связанные с автоматизацией этой области, для большинства пользователей пока не решены. Сразу отметим, что, говоря об анализе, всегда имеем в виду поиск ответа на конкретный вопрос того или иного человека.

Например, аналитик из службы надзора спрашивает: "Какие российские банки являются наиболее рискованными?" В упрощенном виде результат должен представлять собой отсортированный по надежности список банков, содержащий оценки рисков. В случае, когда информация находится в базе данных, все понятно: настроили инструмент анализа на запрос к базе, ввели формулу и "попросили" вывести таблицу с сортировкой по степени риска. Но в том-то и сложность, что, как правило, этой информации в базе данных нет. В той или иной форме она присутствует в Интернете и других источниках. Но как добыть ее из неструктурированных данных, например из отчетов банков и других документов, опубликованных в Сети?

Практически все пользователи делают следующее: заходят в поисковик, например Yandex, вводят запрос - и... Получают тысячи и тысячи ссылок... А теперь самое интересное: закатываем рукава и щелкаем на ссылках, просматриваем текст, выделяем нужные фрагменты с названием банка, сведениями о его услугах, уставном капитале, доходности, расходах и прочих показателях, необходимых, cогласно методике или нашему пониманию, для оценки рисков. Полученные данные загружаем в MS Excel, применяем формулы, рисуем графики и наконец любуемся на полученный честным и тяжким трудом результат.

Подобных примеров как в быту, так и в бизнесе встречается очень много. Объединяет их одно - рутина, связанная с ручным поиском и добычей данных. Очень это все напоминает картину средневековых рудников: тысячи людей кирками и лопатами вгрызаются в неподатливую породу, добывая крупицы полезных минералов. Получается, что по способу работы с неструктурированной информацией мы находимся в Средних веках. Есть ли сегодня возможность автоматизировать тяжкий труд этих "рудокопов"?

Как показывает анализ российской и зарубежной практики, такие технологии имеются. Попробуем понять, чем могут они быть полезны пользователям, и отделить мифы от реальности.

Наш путь: поиск, извлечение, анализ

Из приведенного выше упрощенного примера видно, что процесс получения конечного результата (ответа на вопрос) можно условно разделить на три фазы. Сначала ищем релевантные документы, потом из того, что найдено, извлекаем данные и в завершение анализируем их. Соответственно современные подходы можно разделить на три группы по степени автоматизации различных фаз указанного процесса: поиска документов, извлечения информации, анализа.

При этом подход, основанный только на автоматизации поиска, практикуется в 90% случаев, извлечение информации автоматизировано приблизительно в 10% решений, и только в редких случаях подобные системы берут на себя аналитическую работу. Хотя именно инструменты анализа наиболее понятны конечному пользователю. Причины такого расклада будут рассмотрены далее.

Применение поисковых систем

Этот подход подразумевает наличие на предприятии поисковой системы, используемой как основное средство в работе с неструктурированными текстами.

Менеджер или аналитик вводит ключевые слова, обрабатывает ссылки, получает документ, просматривает содержание, выбирает нужную информацию, загружает ее в программу анализа или базу данных и генерирует отчет. Известно, что производительность такой работы составляет от 400 до 1000 статей в сутки в зависимости от опытности аналитика. Это тяжкий труд, сравнимый с упомянутой выше работой на рудниках. Человек здесь занят в основном рутинными операциями, а потому не может много внимания уделить действительно интеллектуальной работе.

Основные преимущества такого подхода вполне очевидны: распространенность и общедоступность поисковых технологий. Это так называемое one-click-решение, когда вы набрали ключевое слово, нажали на одну кнопку и.... Добавьте к этому привычку думать, что с дальнейшей обработкой информации, кроме человека, никто справиться не может.

Поскольку инструменты поиска развиваются уже давно и достигли высокой стадии зрелости, они вполне успешно отвечают на вопрос, где находится информация. Их можно сравнить с компасом, который позволяет ориентироваться в мире неструктурированных данных. Пользователи уже успели настолько привыкнуть к поисковикам, что нет необходимости проводить какое-то специальное обучение.

Однако если речь идет об обработке больших массивов данных, применение одних только поисковых систем становится малоэффективным, так как требует значительных человеческих ресурсов на этапах "добычи" фактов и их анализа.

Автоматизация извлечения информации

Этот подход предполагает наличие технологически "продвинутого" инструмента, способного выделять из текста нужные элементы (Text Mining). Его работа заключается в том, что на вход подается текст, написанный на естественном языке, а на выходе пользователь получает запрошенную информацию в структурированном виде. Структуры могут представлять собой как простые сущности (персоны, организации, географические названия), так и сложные (факты, содержащие некое событие, его участников, дату, финансовые параметры и пр.). События бывают самые разные: происшествия, сделки, суды и т. п. Указанный инструмент позволяет автоматически собирать результаты своей работы в коллекции данных, которые уже пригодны для проведения анализа.

Анализировать подобные наборы данных, безусловно, проще и быстрее, чем результаты работы поисковика. Однако и здесь требуются усилия по интеграции средств Text Mining с источниками документов, поисковиком и аналитическими инструментами. Сегодня поставщики инструментов Text Mining снабжают свои продукты возможностями интеграции с источниками документов (в основном с Web-ресурсами) и с базами данных через файлы в формате XML. Предоставляется также набор SDK, применение которого подразумевает довольно дорогую дальнейшую разработку. Но основной проблемой использования этих технологий является сложность настройки и поддержки таких инструментов. Это обусловлено спецификой компьютерной лингвистики, оперирующей терминами синтаксиса, и семантики. Как правило, конечные пользователи и разработчики далеки от этих материй, а в итоге возможности таких инструментов используются лишь на 5-10%.

Тем не менее пользователь уже избавлен от необходимости вручную просматривать тысячи документов и подбирать ключевые слова. За него это делает система. Появляются дополнительные возможности автоматической классификации и сопоставления подобных документов. Кроме того, программа способна сама распознавать смысловые элементы текста, например факты, события, и передавать их на последующую обработку.

Автоматизация аналитических процедур

В простейшем случае в руках конечного пользователя есть такие аналитические инструменты, как MS Excel и MS Access, в усовершенствованном - BI и Data Mining. В отдельных заказных разработках реализуются те или иные ноу-хау. Как бы там ни было, напрашивается очевидное решение: сформировать технологическую цепочку поисковик - Text Mining - инструмент анализа. Интегрировать элементы указанной цепочки можно через базу данных. Для автоматизации процесса в идеале нужен некий механизм, который запросит информацию у поисковика, сам просканирует документы, обнаружит искомые факты, структурирует их, сохранит в базе и сообщит о выполненном задании. Тогда аналитик должен будет только открыть отчеты и проанализировать результаты.

Text Mining - как это работает?

Text Mining - это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации. Назовем основные технологии Text Mining.

1. Information Extraction (извлечение информации):

а) Feature (Entity) Extraction - извлечение слов или групп слов, которые, с точки зрения пользователя, важны для описания содержания документа. Это могут быть упоминания персон, организаций, географических мест, терминов предметной области и других слов или словосочетаний. Извлекаемые сущности также могут быть наиболее значимыми словосочетаниями, характеризующими документ по его основной теме;

б) Feature (Entity) Association Extraction - более сложные с технологической точки зрения. Прослеживаются различного рода связи между извлеченными сущностями. Например, даже если выбранные субъекты упомянуты в разных документах, но имеют какую-то общую характеристику (время, место и т. д.), можно с большой степенью определенности сказать, есть ли между ними какая-то связь или нет;

в) Relationship, Event and Fact Extraction - самый сложный вариант извлечения информации (Information Extraction), включающий в себя извлечение сущностей, распознавание фактов и событий, а также извлечение информации из этих фактов. Например, система может сделать заключение, что Иван Петров купил компанию "Пупкин и Ко", даже если в тексте содержатся только косвенные указания на это событие. Поисковая система здесь беспомощна, так как обычная человеческая речь подразумевает очень много вариантов изложения. Пользуясь лишь поисковиком, мы должны были бы идентифицировать этот факт по всем ключевым словам, которые его характеризуют. А технология Text Mining делает это сама, причем в соответствии с заданными ограничениями отличает относящиеся к делу факты от тех, что никак с ними не связаны. Например, если мы проводим анализ сделок купли-продажи компаний, система способна отнести к разным категориям факты "Мужик купил бутылку водки" и "Иван Петров купил компанию "Пупкин и Ко"".

2. Summarization (автоматическое реферирование, аннотирование) - построение краткого содержания документа по его полному тексту.

3. Categorization (категоризация, классификация) - отнесение документа или его части к одной или нескольким категориям. Категории могут определять "направленность" текста - тематическую, жанровую, эмоциональную, оценочную.

4. Clusterization - объединение документов в группы по принципу их схожести.

Проблемы такого подхода очевидны и связаны с многокомпонентностью решения. Нужно инсталлировать поисковик, инструмент извлечения данных из текста, средства анализа, а кроме того, произвести всю сопутствующую интеграцию. Тем не менее представляется, что именно этим путем будут двигаться поставщики решений для конечных пользователей. Оснований для этого несколько.

1. Инструменты анализа, в частности BI и Data Mining, во всем мире становятся стандартом де-факто, и все больше специалистов опирается на них как на основные средства создания аналитической среды. Наряду с коммерческими продуктами такого рода развивается мир открытых ресурсов (проекты Pentaho и Eclipse), доступных широкой аудитории пользователей.

2. Технологии Text Mining, включая средства интеграции с источниками информации и аналитическими инструментами, также коммерциализируются (их предлагают такие фирмы, как Clarabridge, Nstein Technologies, Attensity).

3. Развиваются и сами научные области - компьютерная лингвистика, методы анализа текстов. Появились консультанты, в основную сферу деятельности которых входит решение подобных задач. Привлечение этих экспертов делает проекты такого рода исключительно эффективными.

Чтобы не ходить далеко за примерами...

Приведем несколько примеров работы технологической связки поиска - добычи - анализа неструктурированной информации, реализованных нашей компанией на базе платформы Clarabridge. Отметим, что они иллюстрируют лишь часть возможностей такого рода инструментов. Функционал решения может быть гораздо шире.

Система, построенная по принципу технологической связки, позволяет составлять различного рода рейтинги и прогнозы на основе информации, содержащейся в открытых и корпоративных источниках. Так, при расчете рейтинга упоминаемости автомобильных брендов в новостях, публикуемых на сайте Yandex, система нашла ссылки, извлекла факты, выявила связи между ними, структурировала полученную информацию и провела ее анализ (см. рис. 1). Поскольку процесс автоматизирован, пользователь сразу получает готовый информационный продукт, позволяющий судить о том, какие позитивные (негативные) качества ассоциируются с каждым из представленных брендов и как со временем меняются мнения покупателей. Если кнопкой мыши щелкнуть на той или иной части графика - например демонстрирующей падение рейтинга BMW, - система подскажет причины этого падения (в данном случае причиной стал отзыв автомобилей с рынка).

брендов в онлайновых новостных источниках

Кроме того, технологические комплексы, подобные Clarabridge, могут использоваться для выявления "голоса клиента" или "дыхания рынка" - анализа переписки, заметок call-центров, новостных статей в СМИ и Интернете, мнений покупателей на онлайновых форумах и в блогах. При этом информация из неструктурированных документов интегрируется с данными из CRM-систем и других источников.

Историческая справка

Началом развития технологии Text Mining можно считать эпоху правления президента США Ричарда Никсона (1969-1974 гг.). Тогда были выделены десятки миллионов долларов на развитие научных направлений, связанных с автоматизацией перевода. Это происходило в эпоху холодной войны, когда, в частности, очень актуальной была задача компьютерного перевода с русского языка на английский самых разнообразных документов, начиная с научных докладов и заканчивая технической документацией. Неудивительно, что проект этот носил закрытый характер.

В то же самое время появилась новая область знаний - Natural Language Processing (NLP), называвшаяся в России компьютерной лингвистикой. В 90-х годах в открытых источниках стали появляться не только доклады с научных конференций, но и программные коды, что позволило привлечь к разработкам более широкое международное научное сообщество. Наиболее активны в этой области ученые США, Великобритании, Франции и Германии.

В нашей стране развитие компьютерной лингвистики имело свою специфику. Она развивалась в основном в интересах оборонных предприятий и служб безопасности и не была ориентирована на решения конкретных бизнес-задач. Сказалось и отсутствие в последние годы целевого финансирования этой области. Тем не менее бурное развитие СМИ и Интернета порождает спрос как со стороны федеральных служб, так и со стороны коммерческих организаций (конкурентная разведка, например).

Так, для сравнительного анализа популярности тарифов сотовых операторов, обсуждаемых на интернет-форумах, система проанализировала более 20 форумов и блогов, извлекла факты в соответствии с установленными классификаторами и ограничителями, провела сравнительный анализ и представила данные в удобном для принятия решений виде (см. рис. 2).

Рис. 2. Тенденции упоминаемости тарифов

Анализ тенденций обсуждаемости различных тарифов позволяет увидеть развитие их популярности и причины, стоящие за этим, а также смоделировать и спрогнозировать продвижение новых тарифов. При этом те или иные показатели можно детализировать до уровня исходного текста, что дает возможность проводить аудит информации с целью проверки достоверности данных и корректности настроек системы.

Выводы

В силу инерции мышления массовая аудитория с недоверием относится к тому,что машина может оперировать понятиями фактов, событий, персон, организаций и т. п. В основном именно это заставляет нас отказываться от технологий Text Mining и загружать себя ручной обработкой результатов поиска. Есть, конечно, и объективные трудности. Методы Text Mining должны быть адаптированы к предметной области, что нередко требует временных и прочих ресурсов. Некоторые типы текстов (например, художественная литература, профессиональный и иной сленг) плохо поддаются машинной обработке.

Между тем технологии добычи информации из неструктурированных текстов (Text Mining) используются на практике уже сегодня. Со временем их применение будет только расширяться, поскольку объемы доступной и полезной информации растут с каждым днем, а потребность в их анализе по-прежнему не удовлетворена.

Статья Дмитрия Ландэ "Добыча знаний" - одна из первых прочитанных мной статей о Text Mining - которая была опубликована в журнале CHIP в октябре 2003 г.

Сырые неструктурированные данные составляют не менее 90% информации, с которой имеют дело пользователи. Найти в таких данных нечто ценное можно лишь посредством специализированных технологий.

Электронная информация играет все большую роль во всех сферах жизни современного общества. В информационных хранилищах, распределенных по всему миру, собраны террабайты текстовых данных. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки.

Исследовательская служба Cyveillance сообщила, что в еще в 2001 году общее количество страниц в Интернете превысило 4 миллиарда. Средний размер Web-страницы - 10 КБ, среднестатистическая страница содержит 23 внутренних ссылок, 5.6 - внешних и 14-15 изображений. Если к этому добавить массивы неструктурированных документов в корпоративных фаловых системах и базах данных, то легко видеть, почему многие организации заинтересованы в технологиях автоматизированного анализа и классификации информации, представленной на естественном языке. Ведь по существующим оценкам, неструктурированные данные - главным образом, текст - составляют не менее 90% информации, с которой имеют дело фирмы и организации. И лишь 10% приходится на структурированные данные, загружаемые в реляционные СУБД.

"Люди будут искать то, что они знают, обращаясь к документальным репозитариям. Однако они вообще не будут или просто не смогут выразить запросом то, чего они не знают, даже имея доступ к собранию документов", заметил Джим Нисбет, вице-президент компании Semio, которая является одним из ведущих производителей систем добычи данных. "Вид эффективного анализа текста - Text Mining - используя вычислительные мощности должен выявить отношения, которые могут приводить к добыче новых знаний пользователем."

Технология эффективного анализа текста Text Mining способна выступить в роли репетитора, который, проштудировав весь курс, преподает лишь наиболее ключевую и значущую информацию. Таким образом, пользователю незачем самому "просеивать" огромное количество неструктурированной информации. Разработанные на основе статистического и лингвистического анализа, а также искусственного интеллекта, технологии Text Mining как раз и предназначены для проведения смыслового анализа, обеспечения навигации и поиска в неструктурированных текстах. Применяя построенные на их основе системы, пользователи смогут получить новую ценную информацию - знания.

Отделяя зерна от плевел...

Не так давно ЦРУ опубликовало "План стратегических инвестиций анализа разведсообщества" (Strategic Investment Plan for Intelligence Community Analysis). В плане разведчики признают, что не использовали полностью возможности открытых источников, и теперь работа с ними должна стать "высшим приоритетом для инвестиций". Теперь в ЦРУ резонно полагают, что брать информацию из открытых источников безопаснее и дешевле, чем пользоваться разведданными. Технология глубинного анализа текста - Text Mining - это тот самый инструментарий, который позволяет анализировать большие объемы информации в поисках тенденций, шаблонов и взаимосвязей, способных помочь в принятии стратегических решений. Кроме того, Text Mining - это новый вид поиска, который в отличие традиционных подходов не только находит списки документов, формально релевантных запросам, но и помогает ответить на вопрос: "Помоги мне понять смысл, разобраться с этой проблематикой". Клод Фогель, один из основателей и главный технолог компании Semio, поясняет: "Используя аналогию с библиотекой, технология Text Mining подобна открытию книги перед читателем с почеркнутой необходимой информацией. Сравните это с выдачей читателю кипы документов и книг, в которых где-нибудь содержится информация, нужная читателю, однако найти ее будет непросто". Процесс осмысленного поиска является далеко не тривиальным, часто в коллекции документов присутствует только намек на необходимую информацию. Необходимы мощные интеллектуальные возможности, чтобы найти то, что требуется. В названии технологии слово "mining" (добыча руды) выступает как метафора нахождения глубоко "зарытой" информации.

Следует заметить, что технологии глубинного анализа текста исторически предшествовала технология добычи данных (Data Mining), методология и подходы которой широко используются и в методах Text Mining . Для добычи текстов вполне справедливо определение, данное для добычи данных одним из ведущих мировых экспертов Григорием Пятецким-Шапиро из GTE Labs: "Процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности." Как и большинство когнитивных технологий - Text Mining - это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых данных.

Оформившись в середине 90-х годов ХХ века как направление анализа неструктурированных текстов, технология Text Mining сразу же взяла на вооружение методы классической добычи данных, такие как классификация или кластеризация. В Text Mining появились и дополнительные возможности, такие как автоматическое реферирование текстов и выделение понятий, феноменов, фактов. Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического "выталкивания" или размещения информации по интересующим пользователей профилям, создавать обзоры документов. Технологии Text Mining , кроме того, присуща объективность - отсутствует субъективизм, свойственный человеку-аналитику.

Важный компонент технолгоии Text Mining связан с извлечением из текста его характерных элементов или свойств, которые могут использоваться в качестве метаданных документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов.

Основы технологии Text Mining

В соответствии с уже сложившейся методологией к основным элементам Text Mining относятся суммаризация (summarization), выделение феноменов, понятий (feature extraction), кластеризация (clustering), классификация (classification), ответ на запросы (question answering), тематическое индексирование (thematic indexing) и поиск по ключевым словам (keyword searching). Также в некоторых случаях набор дополняют средства поддержки и создания таксономии (oftaxonomies) и тезаурусов (thesauri).

Александр Линден, директор компании Gartner Research, выделил четыре основных вида приложений технологий Text Mining :

Классификация текста, в которой используются статистические корреляции для построения правил размещения документов в предопределенные категории. Кластеризация, базирующаяся на признаках документов, использующая лингвистические и математические методы без использования предопределенных категорий. Результат - таксономия или визуальная карта, которая обеспечивает эффективный охват больших объемов данных. Семантические сети или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспеченияи навигации. Извлечение фактов предназначено для получения некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации.

Так сложилось, что наиболее часто встречается в Text Mining задача - это классификация - отнесение объектов базы данных к заранее определенным категориям. Фактически задача классификации - это классическая задача распознавания, где по обучающей выборке система относит новый объект к той или иной категории. Особенность же системы Text Mining состоит в том, что количество объектов и их атрибутов может быть очень большим; поэтому должны быть предусмотрены интеллектуальные механизмы оптимизации процесса классификации. В существующих сегодня системах классификация применяется, например, в таких задачах: группировка документов в intranet-сетях и на Web-сайтах, размещение документов в определенные папки, сортировка сообщений электронной почты, избирательное распространение новостей подписчикам.

Вторая задача - кластеризация - выделение компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Она, как правило, предшествует задаче классификации, поскольку позволяет определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную. Иерархическая кластеризация заключается в построении дерева кластеров, в каждом из которых размещается небольшая группа документов. Пример утилиты двоичной кластеризации приведен на сервере корпорации IBM по адресу http://www.software.ibm.com/data/iminer/fortext. Двоичная кластеризация обеспечивает группировку и просмотр документальных кластеров по ссылкам подобия. В один кластер помещаются самые близкие по своим свойствам документы. В процессе кластеризации строится базис ссылок от документа к документу, основанный на весах и совместном употреблении определяемых ключевых слов. Кластеризация сегодня применяется при реферировании больших документальных массивов, определение взаимосвязанных групп документов, упрощения процесса просмотра при поиске необходимой информации, нахождения уникальных документов из коллекции, выявления дубликатов или очень близких по содержанию документов.

Можно назвать еще несколько задач технологии Text Mining , например, прогнозирование, которое состоит в том, чтобы предсказать по значениям одних признаков объекта значения остальных.

Еще одна задача - нахождение исключений, то есть поиск объектов, которые своими характеристиками сильно выделяются из общей массы. Для этого сначала выясняются средние параметры объектов, а потом исследуются те объекты, параметры которых наиболее сильно отличаются от средних значений. Как известно, поиск исключений широко применяется, например, в работе спецслужб. Подобный анализ часто проводится после классификации, для того чтобы выяснить, насколько последняя была точна.

Несколько отдельно от задачи кластеризации стоит задача поиска связанных признаков (полей, понятий) отдельных документов. От предсказания эта задача отличается тем, что заранее не известно, по каким именно признакам реализуется взаимосвязь; цель именно в том и состоит, чтобы найти связи признаков. Эта задача сходня с кластеризацией, но не по множеству документов, а по множеству присущих им признаков.

И наконец, для обработки и интерпретации результатов Text Mining большое значение имеет визуализация. Визуализация данных подразумевает обработку структурированных числовых данных, однако она также является ключевым звеном при представлении схем неструктурированных текстовых документов. В частности, современные системы класса Text Mining могут осуществлять анализ больших массивов документов и формировать предметные указатели понятий и тем, освещенных в этих документах. Визуализация обычно используется как средство представления контента всего массива документов, а также для реализации навигационного механизма, который может применяться при исследовании документов и их классов.

Реализации систем

В настоящее время многие ведущие производители программного обеспечения предлагают свои продукты и решения в области Text mining. Как правило - это масштабируемые системы, в которых реализованы различные математические и лингвистические алгоритмы анализа текстовых данных. Они имеют развитыке графические интерфейсы, богатые возможности визуализации и манипулирования с данными, предоставляют доступ к различным источникам данных, функционируют в архитектуре клиент-сервер. Вот несколько примеров таких систем:

  • Intelligent Miner for Text (IBM)
  • TextAnalyst, WebAnalyst (Мегапьютер Интеллидженс)
  • Text Miner (SAS)
  • SemioMap (Semio Corp.)
  • Oracle Text (Oracle)
  • Knowledge Server (Autonomy)
  • Galaktika-ZOOM (корпорация "Галактика")
  • InfoStream (Информационный центр "ЭЛВИСТИ")

Ниже мы рассмотрим некоторые из этих систем более подробно.

Intelligent Miner for Text

Продукт фирмы IBM Intelligent Miner for Text представляет собой набор отдельных утилит, запускаемых из командной строки или скриптов независимо друг от друга. Эта система является одним из лучших инструментов глубинного анализа текстов. Система содержит такие основные утилиты (Tools) для построения приложений управления знаниями:

Language Identification Tool - утилита определения языка - для автоматического определения языка, на котором составлен документ.

Categorisation Tool - утилита классификации - автоматического отнесения текста к некоторой категории (входной информацией на обучающей фазе работы этого инструмента может служить результат работы следующей утилиты - Clusterisation Tool).

Clusterisation Tool - утилита кластеризации - разбиения большого множества документов на группы по близости стиля, формы, различных частотных характеристик выявляемых ключевых слов.

Feature Extraction Tool - утилита определения нового - выявление в документе новых ключевых слов (собственные имена, названия, сокращения) на основе анализа заданного заранее словаря.

Annotation Tool - утилита "выявления смысла" текстов и составления рефератов - аннотаций к исходным текстам.

IBM Intelligent Miner for Text объединяет мощную совокупность инструментов, базирующихся в основном на механизмах поиска информации (information retrieval), что является спецификой всего продукта. Система включает ряд базовых компонент, которые имеют самостоятельное значение вне пределов технологии "добычи текстов" - это информационно-поисковая система Text Search Engine, утилита сканирования Web-пространства Web crawler, Net Question Solution - решение для поиска в локальном Web-сайте или на нескольких intranet/Internet-серверах, Java Sample GUI - набор интерфейсов Java Beans для администрирования и организации поиска на основе Text Search Engine.

Intelligent Miner for Text как продукт IBM включен в комплекс "Information Integrator for Content" для СУБД DB2 вкачестве средства Information Mining ("глубинного анализа информации").

Стоимость продуктов разных уровней семейства Intelligent Miner составляет от 18 до 75 тысяч долларов.

TextAnalyst

Российская компания Мегапьютер Интеллидженс, известная своей системой PolyAnalyst класса Data Mining, разработала также систему TextAnalyst (http://www.megaputer.com/products/ta/index.php3, которая решает такие задачи Text Mining : создание семантической сети большого текста, подготовка резюме текста, поиск по тексту и автоматическая классификация и кластеризация текстов. Построение семантической сети - это поиск ключевых понятий текста и установление взаимоотношений между ними. По такой сети можно не только понять, о чем говорится в тексте, но и осуществить контекстную навигацию. Подготовка резюме - это выделение в тексте предложений, в которых чаще других встречаются значимые для этого текста слова. В 80% случаев этого вполне достаточно для получения представления о тексте. Для поиска информации в системе предусмотрено использование запросов на естественном языке. По запросу строится уникальная семантическая сеть, которая при взаимодействии с сетью документа позволяет выделить нужные фрагменты текста. Кластеризация и классификация проводятся стандартными методами добычи данных.

Система Text-Analyst, рассматривает Text Mining в качестве отдельного математического аппарата, который разработчики программного обеспечения могут встраивать в свои продукты, не опираясь на платформы информационно-поисковых систем или СУБД. Основная платформа для применения системы - MS Windows 9x/2000/NT. Существует плагин TextAnalyst для браузера Microsoft Internet Explorer.

WebAnalyst

Система WebAnalyst (http://www.megaputer.com/products/wa/index.php3) - также продукт "Мегапьютер Интеллидженс" -представляет собой интеллектуальное масштабируемое клиент/серверное решение для компаний, желающих максимизировать эффект анализа данных в Web-среде. Сервер WebAnalyst функционирует как экспертная система сбора информации и управления контентом Web-сайта. Модули WebAnalyst решают три задачи: сбор максимального количества информации о посетителях сайта и запрашиваемых ими ресурсах; исследование собранных данных и генерация персонализированного, на основе результатов исследований, контента. Решение этих задач в совокупности должно по мнению разработчиков системы привести к максимизации количества новых посетителей Web-сайта и удержанию уже имеющихся, а следовательно, увеличению популярности ресурса.WebAnalyst и способен интегрировать возможности Text Mining напрямую в web-сайт организации. Это позволяет предложить индивидуализированный, автоматизированный и целевой маркетинг, автоматический поиск и реализацию перекрестных продаж и расширить набор данных, настраиваемых пользователем. По сути WebAnalyst представляет собой интеллектуальный сервер приложений электронной коммерции.

Техническая платформа - та же, что и у TextAnalyst.

Text Miner

Американская компания SAS Institute выпустила систему SAS Text Miner для сравнения определенных грамматических и словесных рядов в письменной речи. Text Miner - весьма универсальна, поскольку может работать с текстовыми документами различных форматов - в базах данных, файловых системах и даже в Web.

Text Miner обеспечивает логическую обработку текста в среде мощного пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с существующими структурированными данными - такими, как возраст, доход и характер покупательского спроса. Text Miner.

Пример успешного применения логических возможностей Text Miner демонстрирует компания Compaq Computer Corp., которая в настоящее время тестирует Text Miner, анализируя более 2,5 гигабайт текстовых документов, полученных по e-mail и собранных представителями компании. Ранее обработать такие данные было практически невозможно

Программа Text Miner позволяет определять, насколько правдив тот или иной текстовый документ. Обнаружение лжи в документах производится путем анализа текста и выявления изменений стиля письма, которые могут возникать при попытке исказить или скрыть информацию. Для поиска таких изменений используется принцип, заключающийся в поиске аномалий и трендов среди записей баз данных без выяснения их смысла. При этом в Text Miner включен обширный набор документов различной степени правдивости, чья структура принимается в качестве шаблонов. Каждый документ, "прогоняемый" на детекторе лжи анализируется и сравнивается с этими эталонами, после чего программа присваивает документу тот или иной индекс правдивости. Особенно полезной программа может стать в организациях, получающих большой объем электронной корреспонденции, а также в правоохранительных органах для анализа показаний наравне с детекторами лжи, чье действие основано на наблюдении за эмоциональным состоянием человека.

Интересен пример применения Text Miner в медицине: в одной из американских национальных здравоохранительных организаций было собрано свыше 10 тыс. врачебных записей о заболеваниях сердца, собранных из клиник по всей стране. Анализируя эти данные с помощью Text Miner, специалисты обнаружили некоторые административные нарушения в отчетности, а также смогли определить взаимосвязь между сердечно-сосудистыми заболеваниями и другими недугами, которые не были определены традиционными методами.

Вместе с тем, компания SAS отмечает, что выпустит свой продукт Text Miner в основном для привлечения внимания бизнес-интеллигенции.

SemioMap

SemioMap - это продукт компании Entrieva, созданный в 1996 г. ученым-семиотиком Клодом Фогелем (Claude Vogel). В мае 1998 г. продукт был выпущен как промышленный комплекс SemioMap 2.0 - первая система Text Mining , работающая в архитектуре клиент-сервер. Система SemioMap состоит из двух основных компонент - сервера SemioMap и клиента SemioMap. Работа системы протекает в три фазы:

  • Индексирование; сервер SemioMap автоматически читает массивы неструктурированного текста, извлекает ключевые фразы (понятия) и создает из них индекс;
  • Кластеризация понятий; сервер SemioMap выявляет связи между извлеченными фразами и строит из них, на основе совместной встречаемости, лексическую сеть ("понятийную карту");
  • Графическое отображение и навигация; визуализация карт связей, которая обеспечивает быструю навигацию по ключевым фразам и связям между ними, а также возможность быстрого обращения к конкретным документам.

SemioMap поддерживает разбиение материала по "папкам", создание отдельной базы данных для каждой папки. Связи между понятиями, которые выявляет SemioMap, базируются на совместной встречаемости фраз в абзацах исходного текстового массива.

Центральным блоком SemioMap является лексический экстрактор - программа, которая извлекает фразы из текстовой совокупности и выявляет совместную встречаемость этих фраз (их взаимные связи). Лексический экстрактор базируется на патентованной технологии SEMIOLEX. Она реализует идеи вычислительной семиотики, науки о знаках в языковой коммуникации, разработанной Клодом Фогелем.

InterMedia Text, Oracle Text

Средства Text Mining , начиная с Text Server в составе СУБД Oracle 7.3.3 и картриджа interMedia Text в Oracle8i, являются неотъемлемой частью продуктов Oracle. В Oracle9i эти средства развились и получили новое название - Oracle Text - программмный комплекс, интегрированный в СУБД, позволяющий эффективно работать с запросами, относящимися к неструктурированным текстам. При этом обработка текста сочетается с возможностями, которые предоставлены пользователю для работы с реляционными базами данных. В частности, при написании приложений для обработки текста стало возможным использовать SQL.

Основной задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию - словам или фразам, которые при необходимости комбинируются с использованием булевых операций. Результаты поиска ранжируются по релевантности, с учетом частоты встречаемости слов запроса в найденных документах. Для повышения полноты поиска Oracle Text предоставляет ряд средств расширения поискового запроса, среди которых можно выделить три группы. Во-первых, это расширение слов запроса всеми морфологическими формами, что реализуется привлечением знаний о морфологии языка. Во-вторых, Oracle Text допускает расширение слов запроса близкими по смыслу словами за счет подключения тезауруса - семантического словаря, а также расширение запроса словами, близкими по написанию и по звучанию - нечеткий поиск и поиск созвучных слов. Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании - фамилии, названия организации и т.п.

Система Oracle Text обеспечивает проведение тематического анализа текстов на английском языке. В ходе обработки текст каждого документа подвергается процедурам лингвистического и статистического анализа, в результате чего определяются его ключевые темы и строятся тематические резюме, а также общее резюме - реферат.

Все описанные средства могут использоваться совместно, что поддерживается языком запросов в сочетании с традиционным синтаксисом SQL и PL/SQL для поиска документов. Oracle Text предоставляет возможность работать с современными реляционными СУБД в контексте сложного многоцелевого поиска и анализа текстовых данных.

Возможности обработки текстовой информации на русском языке в Oracle Text достаточно ограничены. Для решения этой проблемы компанией "Гарант-Парк-Интернет" было разработан модуль Russian Context Optimizer (RCO), предназначенный для совместного использования с interMedia Text (или Oracle Text). Помимо поддержки русскоязычной морфологии, RCO включает в себя средства нечеткого поиска, тематического анализа и реферирования документов.

Autonomy Knowledge Server

Архитектура системы компании Autonomy, известной своими разработками в области статистического контент-анализа, объединяет интеллектуальный парсинг по шаблонам со сложными методами контекстного анализа и извлечения смысла для решения задач автоматической классификацию и организации перекрестных ссылок. Основное преимущество системы Autonomy - мощные интеллектуальные алгоритмы, основанные на статистической обработке. Эти алгоритмы базируются на информационной теории Клода Шаннона, Байесовых вероятностях и нейронных сетях.

Концепция адаптивного вероятностного моделирования (APCM) позволяет системе Autonomy идентифицировать шаблоны в тексте документа и автоматически определять подобные шаблоны во множестве других документов.

Важный момент в системе Autonomy Knowledge Server - это возможность анализа тектов и идентификации ключевых концепций в пределах документов путем анализа корреляции частот и отношений терминов со смыслом текста. Компонета системы Autonomy - Agentware использует уникальную технологию анализа шаблонов (нелинейная адаптивная цифровая обработка сигнала) для извлечения из документов смысла и определения характеристик, содержащихся в текстах. APCM позволяет идентифицировать уникальные "сигнатуры" смысла текста, а также создавать агентов концепций, с помощью которых ищутся подобные по смыслу записи на Web-сайтах, в новостях, архивах электронной почты и в других документах. Поскольку система не базируется на предопределенных ключевых словах, она может работать с любыми языками.

Ядро системы агентов Autonomy - это механизм динамического рассуждения (DRE), основанный на технологии обработки шаблонов, в которой используются методы нейронных сетей, получившие стартовое развитие в родительской компанией Автономии, Neurodynamics. В DRE используется концепция адаптивного вероятностного моделирования для реализации четырех главных функций: выявления концепции, создание агента, обучение агента и стандартный поиск текста. DRE воспринимает запросы на естественном языке, или термины, связанные булевыми операторами, и возвращает список документов, упорядоченных по релевантности запросу. Этот механизм является основой всех продуктов системы агентов от Autonomy. Описание сервера знаний (Knowledge Server) компании Autonomy приведено по адресу http://www.autonomy.com/tech/whitepaper.pdf .

Galaktika-ZOOM

Система Galaktika-ZOOM - продукт российской корпорации "Галактика". Основное назначение системы - интеллектуальный поиск по ключевым словам с учетом морфологии русского и английского языков, а также и формирование информационных массивов по конкретным аспектам. При этом объемы информации могут достигать сотен гигабайт. Именно ориентация на большие информационные объекты - сообщения и статьи СМИ, отраслевую печать, нормативную документацию, деловую переписку и материалы внутреннего документооборота предприятия, информацию из Интернет. При этом система предоставляет определенный инструментарий для анализа объективных смысловых связей отобранных данных и формирования "образа" проблемы - многомерной модели в информационном потоке в форме ранжированного списка значимых слов, употребляемых совместно с темой проблемы. Большое внимание в системе уделено выявлению тенденций динамики развития изучаемой проблемы. Система содержит конверторы часто встречающихся форматов: простой текст, RTF, DOC, HTML. Galaktika-ZOOM функционирует в среде ОС Windows 2000.

InfoStream

Охват, обобщение больших динамических информационных массивов, непрерывно генерируемых в Cети, потребовал качественно новых подходов. Возникла необходимость создания методов мониторинга информационных ресурсов, тесно связанных с методологией контент-анализа - контент-мониторинга. Для получения качественных и количественных срезов такой мониторинг должен производится постоянно на протяжении не определенного заранее времени. Для решения этой задачи в Украине в Информационном центре "ЭЛВИСТИ" разработана технология InfoStream™. Программно-технологические средства InfoStream включают три основные составляющие:

  • центр сбора и обработки информации;
  • центр организации интерактивного доступа к базам данных;
  • центр контент-мониторинга.

Ядром механизма обработки контента InfoStream является полнотекстовая информационно-поисковая система InfoReS. Технология позволяет создавать полнотекстовые базы данных и осуществлять поиск информации, формировать тематические информационные каналы, автоматически рубрицировать информацию, формировать дайджесты, таблицы взаимосвязей понятий (относительно встречаемости их в сетевых публикациях), гистограммы распределения весовых значений отдельных понятий, а также динамики их встречаемости по времени. Технология InfoStream позволяет обрабатывать данные в форматах MS WORD (DOC, RTF), PDF, и всех текстовых форматов (простой текст, HTML, XML). Системы на основе InfoStream в настоящее время функционируют на платформах таких ОС: FreeBDS, Linux, Solaris.

Заглянем в будущее

Не так давно Центральное Разведывательное Управление США представило широкой публике свои технологии "добычи данных", используемые для поиска информации в текстах, радио- и телепередачах.Отдел современных информационных технологий, входящий в состав управления науки и техники Центрального разведывательного управления США, продемонстрировал общественности технологии "извлечения текстовых данных" ("Text Data Mining"), используемые для поиска значимой информации в огромной массе документов и в радио- и телепередачах на различных языках. Поиск ведется как по систематизированным, так и по случайным источникам, причем объектами поиска являются тексты в печатных изданиях и в цифровом виде, графические изображения, аудиоинформация на 35 языках. Для отсеивания аудиоинформации используется методика "Oasis", которая распознает речь и превращает ее в текст. При этом технология позволяет отделять мужские голоса от женских, а также голоса, принадлежащие разным людям, и записывать их в виде диалогов. Методика "Oasis" позволяет выделять из аудиопотока только те голоса или ту конкретную информацию, которая заложена в настройках поиска.

Другая компьютерная технология под названием Fluent позволяет подразделениям ЦРУ искать информацию в текстовых документах. Эта технология подразумевает поиск по ключевым словам, причем вводится слово или сочетание на английском языке, которое тут же переводится на целый ряд других языков, и найденная информация из базы данных на разных языках поступает исследователю после автоматического перевода. Еще одна программа, Text Data Mining, позволяет автоматически создавать предметные указатели для текстовых документов, а также получать данные по частоте употребления тех или иных слов в документах. Эти технологии ЦРУ использует сегодня в отслеживании незаконных финансовых операций и наркотрафика.

Назваными выше технологиями занимается отдел Advanced Information Technology (AIT) Директората науки и технологии ЦРУ. "Мы развиваемся не так быстро, чтобы поспеть за стремительным ростом информационных потоков, стекающихся сюда каждый день, - сказал директор AIT Ларри Ферчайлд (Larry Fairchild) - Мы должны снабжать сотрудников технологией, которая поможет им справиться с гигантскими объемами оперативно обрабатываемых данных".

В плане профессионального использования инструментов Text Mining ЦРУ - далеко не монополист. По прогнозам аналитической компании IDC, спрос на подобные программы существенно возрастет в течение ближайших 4-5 лет. Так, к 2005 году ожидается повышение прибылей от такого ПО с $540 млн. (в 2002 году) до полутора миллиардов долларов. Такие возможности, как экспресс-анализ найденной информации, информационная разведка (добыча разрозненной прямой и косвенной информации по некоторой проблеме), формирование и ведение тематических досье с возможностью выявления тенденций и взаимосвязей персон, событий, процессов уже используются рядом крупных предприятий и наверняка будут востребованы в дальнейшем.

К 2006 году такого рода программы станут доминирующими при анализе информации от клиентов в компаниях любого уровня, будь то телефонные центры поддержки, интернет-агентства или аналитические агентства, утверждает эксперт Алессандро Занаси (Alessandro Zanasi), ранее сотрудник META Group. Кадровые отделы будут использовать программы класса text mining для поиска резюме, подходящих по сложной сетке показателей. А маркетинговые подразделения найдут применение таким программам в качестве анализаторов ситуации на рынке, отслеживающих тенденции, положение конкурентов и другие показатели на основе информации и самых разных источников - новостных лент, отчетов о НИР, обзоров, патентов.

Я не думаю, что открою Америку, если скажу, что не вся информация одинаково полезна. Иногда для объяснения какого-то понятия необходимо написать много текста, а иногда для объяснения сложнейших вопросов достаточно посмотреть на простую диаграмму. Для сокращения избыточности информации были придуманы математические формулы, чертежи, условные обозначения, программный код и т.д. Кроме того, важным является не только сама информация, но и ее представление. Понятно, что котировки акций более наглядно можно продемонстрировать с помощью графика, а математические формулы опишут законы Ньютона в более компактном виде.

В процессе развития информационных технологий, а также систем сбора и хранения данных - баз данных (databases), хранилищ данных (data warehousing), и с недавних пор, облачных репозиториев, возникла проблема анализа больших объемов данных, когда аналитик или управленец не в состоянии вручную обработать большие массивы данных и принять решение. Понятно, что аналитику необходимо каким-то образом представить исходную информацию в более компактном виде, с которой может справится человеческий мозг за приемлемое время.

Выделим несколько уровней информации:

  • исходные данные (сырые данные, исторические данные или просто данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой или объекта и отображающие его состояние в конкретные моменты времени (например, данные о котировках акций за прошедший год);
  • информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде (например, результаты поиска);
  • знания - несут в себе некое ноу-хау, отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация); данные с большой энтропией (или мерой неопределенности).
Рассмотрим пример. Допустим, у нас есть некие данные о валютных операциях на рынке Forex за определенный промежуток времени. Эти данные могут хранится в текстовом виде, в XML формате, в базе данных или в бинарном виде и сами по себе не несут никакой полезной смысловой нагрузки. Далее аналитик загружает эти данные, к примеру, в Excel и строит график изменений, таким образом получая информацию. Дальше он загружает данные (полностью или частично обработанные в Excel), например, в Microsoft SQL Server и с помощью Analysis Services получает знание о том, что завтра акции лучше продать. После этого аналитик может использовать уже полученные знания для новых оценок, таким образом получив обратную связь в информационном процессе.

Между уровнями нет четких граней, но такая классификация позволит нам в дальнейшем не запутаться с терминологией.

Data Mining

Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода (и значений):
  • извлечение, сбор данных, добыча данных (еще используют Information Retrieval или IR);
  • извлечение знаний, интеллектуальный анализ данных (Knowledge Data Discovery или KDD, Business Intelligence).
IR оперирует первыми двумя уровнями информации, соответственно, KDD работает с третьим уровнем. Если же говорить о способах реализации, то первый вариант относится к прикладной области, где главной целью являются сами данные, второй - к математике и аналитике, где важно получить новое знание из большого объема уже имеющихся данных. Чаще всего извлечение данных (сбор) является подготовительным этапом для извлечения знаний (анализ).

Осмелюсь ввести еще один термин для первого пункта - Data Extracting , который буду использовать в дальнейшем.

Задачи, решаемые Data Mining:

  1. Классификация - отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
  2. Кластеризация - разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
  3. Сокращение описания - для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
  4. Ассоциация - поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя».
  5. Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных)
  6. Анализ отклонений - например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
  7. Визуализация данных.

Information retrieval

Information retrieval используется для получения структурированных данных или репрезентативной выборки меньшего размера. По нашей классификации information retrieval оперирует данными первого уровня, а в результате выдает информацию второго уровня.

Самым простым примером information retrieval является поисковая система, которая на основании неких алгоритмов выводит часть информации из полного набора документов. Кроме того, любая система, которая работает с тестовыми данными, метаинформаций или базами данных тем или иным способом использует инструменты information retrieval. Инструментами могут выступать методы индексации, фильтрации, сортировки данных, парсеры и т.д.

Text Mining

Другие названия: text data mining, text analysis, очень близкое понятие – concern mining.

Text mining может работать как с сырыми данными, так и с частично обработанными, но в отличие от information retrieval, text mining анализирует текстовую информацию с помощью математических методов, что позволяет получать результат с элементами знания.

Задачи, которые решает text mining: нахождение шаблонов данных, получение структурированной информации, построение иерархий объектов, классификация и кластеризация данных, определение тематики или области знаний, автоматическое реферирование документов, задачи автоматической фильтрации контента, определение семантических связей и другие.

Для решения задач text mining используют статистические методы, методы интерполяции, аппроксимации и экстраполяции, нечеткие методы, методы контент-анализа.

Web Mining

Ну и наконец мы добрались к web mining – наборе подходов и техник для извлечения данных из веб-ресурсов.
Так как веб-источники, ка правило, не являются текстовыми данными, то и подходы к процессу извлечения данных отличаются в этом случае. В первую очередь необходимо помнить, что информация в вебе хранится в виде специального языка разметки HTML (хотя есть и другие форматы – RSS, Atom, SOAP, но об этом поговорим позже), веб-страницы могут иметь дополнительную метаинформацию, а также информацию о структуре (семантике) документа, каждый веб-документ находится внутри некого домена и к нему могут применяться правила поисковой оптимизации (SEO).

Это первая статья из цикла, посвященного data mining / extracting / web mining. Пожелания и аргументированная критика принимаются.



ЛЕКЦИЯ 6. Основы технологии Text Mining

Глава 5

Основы технологии Text Mining

Сегодня в информационных хранилищах, распределенных по всему миру, собраны терабайты текстовых данных. Сырые неструктурированные данные составляют большую часть информации, с которой имеют дело пользователи. Найти в таких данных нечто ценное можно лишь посредством специализированных технологий. Развитие информационных ресурсов Internet многократно усугубило проблему информационной перегрузки.

Исследовательская служба Cyveillance сообщила, что еще в 2001 году общее количество страниц в Internet превысило 4 млрд. Средний размер Web-страницы - 10 Кбайт, среднестатистическая страница содержит 20-25 внутренних ссылок, 5-6 внешних и 14-15 изображений. Если к этому добавить массивы неструктурированных документов в корпоративных файловых системах и базах данных, то легко видеть, почему многие организации заинтересованы в технологиях автоматизированного анализа и классификации информации, представленной на естественном языке. Ведь по существующим оценкам, неструктурированные данные, главным образом текст, составляют не менее 90% информации. И лишь 10% приходится на структурированные данные, загружаемые в реляционные СУБД.

"Люди будут искать то, что они знают, обращаясь к документальным репозитариям. Однако они вообще не будут или просто не смогут выражать запросом то, чего они не знают, даже имея доступ к собранию документов", - заметил Джим Нисбет, вице-президент компании Semio, которая является одним из ведущих производителей систем "добычи данных" (Data Mining). "Метод эффективного анализа текста - Text Mining, - используя вычислительные мощности, позволяет выявить отношения, которые могут приводить к получению новых знаний пользователем."

Задача Text Mining - выбрать ключевую и наиболее значимую информацию для пользователя . Таким образом, ему будет незачем самому "просеивать" огромное количество неструктурированной информации. Разработанные на основе статистического и лингвистического анализа, а также методов искусственного интеллекта, технологии Text Mining как раз и предназначены для проведения смыслового анализа, обеспечения навигации и поиска в неструктурированных текстах. Применяя системы класса Text Mining, пользователи в принципе должны получить новую ценную информацию, т.е. знания.

В конце 2000 года ЦРУ опубликовало документ "Анализ плана стратегических инвестиций разведсообщества" (Strategic Investment Plan for Intelligence Community Analysis- http://www.cia.gov/cia/reports/unclass_sip - рис. 5.1). В этом документе разведчики признают, что ранее не использовали полностью возможности открытых источников, и теперь работа с ними должна стать "высшим приоритетом для инвестиций". Иначе говоря, в ЦРУ резонно по-

Лагают, что брать информацию из открытых источников безопаснее и дешевле, чем пользоваться разведданными. Технология глубинного анализа текста - Text Mining - и представляет собой тот самый инструментарий, который позволяет анализировать большие объемы информации в поисках тенденций, шаблонов и взаимосвязей, способных помочь в принятии стратегических решений. Кроме того, Text Mining - это новый вид поиска, который, в отличие от традиционных подходов, не только находит списки документов, формально релевантных запросам, но и позволяет получить ответ на просьбу: "Помоги мне понять смысл, разобраться с этой проблематикой".

Клод Фогель (Claude Vogel), один из основателей легендарной компании Semio, используя аналогию с библиотекой поясняет: "Технология Text Mining открывает перед читателем книги с подчеркнутой необходимой ему информацией. Сравните это с выдачей читателю кипы документов и книг, в которых где-нибудь содержится нужная читателю информация, однако найти ее читателю будет непросто". Процесс осмысленного поиска является далеко не тривиальным, часто в коллекции документов имеется только намек на необходимую информацию. Необходимы мощные интеллектуальные возможности, чтобы найти то, что требуется. В названии технологии слово mining ("добыча руды") выступает как метафора отыскания глубоко "зарытой" информации.

Следует заметить, что технологии глубинного анализа текста исторически предшествовало создание технологии глубинного анализа (добычи) данных (Data Mining), методология используются и в методах Text Mining. Для "добычи текстов" вполне справедливо определение, данное для добычи данных одним из ведущих мировых экспертов Григорием Пятецким-Шапиро из GTE Labs: "Процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности". Как и большинство когнитивных технологий, Text Mining - это алгоритмическое выявление прежде неизвестных связей и корреляций в уже имеющихся текстовых данных.

Оформившись в середине 90-х годов XX века как направление анализа неструктурированных текстов, технология Text Mining сразу же взяла на вооружение методы классической добычи данных, такие как классификация или кластеризация. В Text Mining появились и дополнительные возможности, такие как автоматическое реферирование текстов и выявление феноменов, т.е. понятий и фактов. Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического "проталкивания" информации или ее распределения по интересующим пользователей профилям, а также для создания обзоров документов. Технологии Text

160 Глава 5. Основы технологии Text Mining

Mining, кроме того, присуща абсолютная объективность - в ней отсутствует субъективизм, свойственный человеку-аналитику.

Важный компонент технологии Text Mining связан с извлечением из текста его характерных элементов или свойств, которые затем могут использоваться в качестве метаданных документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов.

5.1. Основные элементы Text Mining

В соответствии с уже сложившейся методологией, к основным элементам Text Mining относятся реферирование (summarization), выявление феноменов (feature extraction), классификация (classification), кластеризация (clustering), ответ на вопросы (question answering), тематическое индексирование (thematic indexing) и поиск по ключевым словам (keyword searching). Также в некоторых случаях указанный набор дополняют средства поддержки и создания таксономии (taxonomies) и тезаурусов (thesauri).

Александр Линден (Alexander Linden), директор компании Gartner Research, выделил четыре основных вида приложений технологии Text Mining.

1. Классификация текста, в которой используются статистические корреляции для построения правил размещения документов в предопределенные категории.

2. Кластеризация, базирующаяся на признаках документов; используются лингвистические и математические методы без применения предопределенных категорий. Результат - таксономия или визуальная карта, которая обеспечивает эффективный охват больших объемов данных.

3. Построение семантической сети или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспечения поиска и навигации.

4. Извлечение фактов, цель которого - получение некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации.

Так сложилось, что чаще всего решаемая в Text Mining задача - это классификация, т.е. отнесение объектов базы данных к заранее определенным категориям. Фактически задача классификации - это вариант классической задачи распознавания, когда система по обучающей выборке относит новый объект к той или иной категории. Особенность же системы Text Mining состоит лишь в том, что количество таких объектов и их атрибутов может быть очень большим; поэтому должны быть предусмотрены интеллектуальные механизмы оптимизации процесса классификации. В существующих сегодня системах классификация применяется, например, для решения таких задач, как группировка документов в intranet-сетях и на Web-сайтах, размещение документов в определенные папки, сортировка сообщений электронной почты, избирательное распространение новостей подписчикам и пр.

Вторая задача - кластеризация - состоит в выделении компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти

Глава 5. Основы технологии Text Mining 161

признаки и разделить объекты по подгруппам. Решение этой задачи, как правило, предшествует задаче классификации, поскольку позволяет определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную (двоичную). Иерархическая кластеризация заключается в построении дерева кластеров, в каждом из которых размещается небольшая группа документов. Пример утилиты двоичной кластеризации можно найти на сервере корпорации IBM по адресу http://www.software.ibm.com/data/iminer/fortext. Двоичная кластеризация обеспечивает группировку и просмотр документальных кластеров по ссылкам подобия. В один кластер помещаются самые близкие по своим свойствам документы. В процессе-кластеризации строится базис ссылок от документа к документу, основанный на весах и совместном употреблении определяемых ключевых слов. Сегодня кластеризация широко применяется при реферировании больших документальных массивов или определении взаимосвязанных групп документов, а также для упрощения процесса просмотра при поиске необходимой информации, для нахождения уникальных документов из коллекции, для выявления дубликатов или очень близких по содержанию документов.

Можно назвать еще несколько задач, которые могут решаться средствами технологии Text Mining, - например, прогнозирование, которое состоит в том, чтобы предсказать по значениям одних признаков объекта значения остальных. Еще одна задача - нахождение исключений, т.е. поиск объектов, которые своими характеристиками сильно выделяются из общей массы. Для этого сначала выясняются средние параметры объектов, а затем исследуются те объекты, параметры которых наиболее сильно отличаются от средних значений. Как правило, поиск исключений проводится после классификации или кластеризации, для того чтобы выяснить, насколько последние были точны.

Несколько отдельно от кластеризации стоит задача поиска связанных признаков (полей, понятий) отдельных документов. От прогнозирования эта задача отличается тем, что заранее неизвестно, по каким именно признакам реализуется взаимосвязь; цель именно в том и состоит, чтобы найти связи между отдельными признаками. Эта задача сходна с кластеризацией, но выполняется не по множеству документов, а по множеству присущих документу признаков.

И наконец, для обработки и интерпретации результатов Text Mining большое значение имеет визуализация данных, что подразумевает обработку структурированных числовых данных. Однако визуализация также является ключевым звеном при представлении схем неструктурированных текстовых документов. В частности, современные системы класса Text Mining могут осуществлять анализ больших массивов документов и формировать предметные указатели понятий и тем, освещенных в этих документах. Визуализация обычно используется как средство представления контента всего массива документов, а также для реализации навигационного механизма, который может применяться при исследовании документов и их классов.

5.2. Контент-анализ

Сегодня весьма актуальной является задача мониторинга ресурсов Internet, которая тесно связана с достаточно популярным в последние десятилетия контент-анализом. Это перспективное направление развития систем сетевой интеграции рассматривается сегодня многими экспертами как контент-мониторинг,

162 Глава 5. Основы технологии Text Mining

появление которого вызвано, прежде всего, задачей систематического отслеживания тенденций и процессов в постоянно обновляемой сетевой информационной среде. Контент-мониторинг - это содержательный анализ информационных потоков с целью получения необходимых качественных и количественных срезов, который производится постоянно, т.е. на протяжении не определяемого заранее промежутка времени. Важнейшей теоретической основой контент-мониторинга является контент-анализ, - понятие, достаточно "заезженное" социологами.

Контент-анализ начинался как количественно-ориентированный метод анализа текстов для изучения массовых коммуникаций. Впервые этот метод был применен в 1910 году социологом Максом Вебером (Max Weber), чтобы проанализировать охват прессой политических акций в Германии (рис. 5.2). Американский исследователь средств коммуникации Гарольд Лассвелл (Harold Lasswell) в 30-40-е годы использовал подобную методику для изучения содержимого пропагандистских сообщений военного времени. В 1943 году Абрахам Каплан (Abraham Kaplan) увеличил фокус контент-анализа от статистической семантики (значения текстов) политических дискуссий до анализа значений символов (семиотики). Во время Второй мировой войны растущая популярность семиотики способствовала использованию качественно-ориентированного контент-анализа для изучения "идеологических" аспектов в таких жанрах, как телевизионные шоу и коммерческая реклама. Ряд современных исследований с применением методологии контент-анализа включает, наряду с анализом текста, и анализ изображений.

Начиная с 60-х годов, с появлением средств автоматизации и текстов в электронном виде, получил начальное развитие контент-анализ информации больших объемов - баз данных и интерактивных медиа-средств. Традиционное "политическое" использование современных технологий контент-анализа дополнено неограниченным перечнем рубрик и тем, охватывающих производственную и социальную сферы, бизнес и финансы, культуру и науку, что сопровождается большим количеством разнородных программных комплексов. При этом выделилось направление, получившее самостоятельное развитие - Data Mining, все еще не имеющее устойчивого русского термина-эквивалента. Так, даже выше в этой главе использовались сразу два перевода этого термина: "добыча данных" и "глубинный анализ данных".

Под Data Mining понимается механизм обнаружения

В потоке данных интересных новых знаний, таких как модели, конструкции, ассоциации, изменения, аномалии и структурные новообразования. Большой вклад в развитие контент-анализа внесли психологические исследования в области феноменологии, ведущая идея которой заключается в обращении к каждодневному миру через различные явления (phenomena) в фактических ситуациях. С феноменологией неразрывно связаны имена ее основателя Эдмунда Хассерла (Edmund Husserl) и нашего современника Амадео Джиорджи (Amadeo Giorgi).

Однозначная трактовка понятий необходима, прежде всего, в технических системах. Развитие технологических систем невозможно без стандартизации. В качестве примера можно привести операционную систему UNIX, определение

5.2. Контент-анализ 163

стандартов на которую в рамках ISO (POSIX) привело к преобладанию клонов этой системы на серверных платформах. Понятие же контент-анализа, имеющее корни в психологии и социологии, сегодня пока не имеет однозначного определения. Это порождает ряд проблем, важнейшая из которых заключается в том, что программные системы, построенные на основе различных подходов к контент-анализу, будут несовместимы. Приведем лишь некоторые существующие определения контент-анализа.

Контент-анализ - это методика объективного качественного и систематического изучения содержания средств коммуникации (Д. Джери, Дж. Джери).

Контент-анализ - это систематическая числовая обработка, оценка и интерпретация формы и содержания информационного источника (Д. Мангейм, Р. Рич).

Контент-анализ - это качественно-количественный метод изучения документов, который характеризуется объективностью выводов и строгостью процедуры и состоит в квантификационной обработке текста с дальнейшей интерпретацией результатов (В. Иванов).

Контент-анализ состоит в нахождении в тексте определенных содержательных понятий (единиц анализа), выявлении частоты их встречаемости и соотношения с содержанием всего документа (Б. Краснов).

Контент-анализ - это исследовательская техника для получения результатов путем анализа содержания текста о состоянии и свойствах социальной действительности (Е. Таршис).

Большинство из приведенных определений конструктивны, т.е. являются процедурными. Из-за разных начальных подходов они порождают различные, а порой и противоречащие друг другу алгоритмы. Принятые в современной литературе различные подходы к пониманию контент-анализа поддаются полностью оправданной критике. Так, высказываются сомнения в информационной насыщенности частотных характеристик в плане определения элементов, весомых с точки зрения содержания. Также подчеркивается игнорирование роли контекста. Однако, несмотря на многообразие трактовок контент-анализа, большое прикладное значение методологии все же позволяет избежать многих противоречий. Объединение средств и методов, их естественный отбор путем многократной оценки полученных результатов позволяют выделять и подтверждать знания, выявлять фактическую силу и полезность инструментария.

Диапазон методов и процедур, касающихся самого процесса контент-анализа, весьма широк. К примеру, при подготовке исследования выполняются следующие действия:

Описание проблемной ситуации, поиск цели исследования;

Уточнение объекта и предмета исследования;

Смысловое уточнение понятий;

Эмпирическая интерпретация понятий;

Описание процедур регистрации свойств и явлений;

Предварительный целостный анализ объекта;

164 Глава 5. Основы технологии Text Mining

Определение общего плана исследования;

Определение типа выборки и т.д. Методы сбора данных также многообразны:

Наблюдение;

Анкетный опрос;

Интервью;

Телефонный опрос;

Накопление совокупности писем;

Получение потока документов Сети.

Для отбора информации применяются такие методы:

Гнездовой;

Квотная выборка;

Неслучайная выборка;

Метод нетипичных представителей;

Метод "снежного кома";

Стихийная выборка;

Случайная выборка;

Одно- и многоступенчатая выборка;

Районированная (расслоение) выборка;

Систематическая выборка и т.д.

В контент-анализе применяются такие математические методы, как:

Дисперсионный анализ для выявления влияния отдельных, независимых факторов на наблюдаемый признак;

Кластерный анализ для классификации объектов и описывающих их признаков;

Логлинейный анализ для статистической проверки гипотезы о системе одновременных парных и множественных взаимосвязей в группе признаков;

Причинный анализ для моделирования причинных отношений между признаками с помощью систем статистических уравнений;

Регрессионный анализ для исследования регрессионной зависимости между зависимыми и независимыми признаками;

Факторный анализ для получения обобщенной информации о структуре связи между наблюдаемыми признаками изучаемого объекта на основе выделения скрытых факторов;

Корреляционный анализ для выявления зависимости между числовыми случайными величинами, одна из которых зависит и от ряда других случайных факторов.

5.2. Контент-анализ 165

От поиска информации - к поиску знаний

В последнее время происходят изменения подходов к форме и семантике взаимодействия пользователей с поисковыми системами в Internet. Через десятилетие после возникновения первых поисковых серверов в Сети оказалось, что надежды на интеллект пользователя при формулировке запросов были тщетны. Это замечание относится как к обычным пользователям, так и к пользователям-профессионалам. В результате современные поисковые системы сами все более интеллектуализируются, включают семантические инструменты, пытаясь выявлять информационные потребности пользователей и учитывать их при поиске.

Сегодня естественно желание пользователя видеть достаточно короткий список классов, в который попадают все возвращенные информационно-поисковой системой документы. Пользуясь этой классификацией, пользователь сможет существенно сузить границы своего поиска. При этом к классификации предъявляются такие два основных требования:

Классы должны содержать близкие по смысловому признаку документы;

Этот признак должен быть основой названия класса, которое должно восприниматься пользователем.

Новые подходы к организации поиска заставляют заново взглянуть на модели представления информации в базах данных поисковых машин и методы автоматической группировки, применяемые при поиске информации в сети Internet.

5.3. Модели поиска

В настоящее время используется несколько подходов к представлению информации в базах данных для обеспечения последующего поиска этой информации . Рассмотрим два наиболее популярных подхода. Первый базируется на теории множеств, а второй на векторной алгебре. Оба подхода достаточно эффективны на практике, однако у них есть общий недостаток, который следует из основного упрощающего предположения, заключающегося в том, что смысл документа, его основное содержание определяется множеством ключевых слов - терминов и понятий, входящих в него. Конечно же, такие подходы частично ведут к потере содержательных оттенков текстов, зато позволяют выполнять быстрый поиск и группировку документов по формальным признакам. Сегодня эти подходы - самые популярные. Следует заметить, что существуют и другие методы, например семантические, в рамках которых делаются попытки выявить смысл текста за счет анализа грамматики текста, использования баз знаний и различных тезаурусов, отражающих семантические связи между отдельными словами и их группами. Очевидно, что такие подходы требуют больших затрат на поддержку баз знаний и тезаурусов для каждого языка, тематики и вида документов.

5.3.1. Булева модель поиска

Булева модель является классической и широко используемой моделью представления информации, базирующейся на теории множеств, и, следовательно, моделью информационного поиска, базирующейся на математической логике. Популярность этой модели связана, прежде всего, с простотой ее реализации, позволяющей индексировать и выполнять поиск в массивах документов большого объема. В настоящее время популярным является объединение булевой модели

166 Глава 5. Основы технологии Text Mining

с алгебраической векторно-пространственной моделью представления данных, что обеспечивает, с одной стороны, быстрый поиск с использованием операторов математической логики, а с другой стороны - качественное ранжирование документов, базирующееся на весах входящих в них ключевых слов.

В рамках булевой модели документы и запросы представляются в виде множества морфемных основ ключевых слов, будем их в дальнейшем называть термами. Пусть документальный массив С состоит из множества документов d 1 ...d n , а документ d i содержит множество различных термов T(d i). Обозначим через T = U i=1…n Т(d i) словарь массива С, представляющий собой множество всех

Термов, встречающихся в документах из С, и через Т(d i) - словарь документа d i . В булевой модели запрос пользователя представляет собой логическое выражение, в котором ключевые слова (термы запроса) связаны логическими операторами AND, OR и NOT. В различных поисковых системах в Internet пользователи могут пользоваться умолчаниями, не используя в явном виде логических операций, а просто перечисляя ключевые слова. Чаще всего по умолчанию предполагается, что все ключевые слова соединяются логической операцией AND - в этих случаях в результаты поиска включаются только те документы, которые содержат одновременно все ключевые слова запроса. В тех системах, в которых пробел между словами приравнивается к оператору OR, в результаты поиска включаются документы, в которые входит хотя бы одно из ключевых слов запроса.

При использовании булевой модели база данных включает индекс, организуемый в виде инвертированного массива, в котором для каждого терма из словаря базы данных содержится список документов, в которых этот терм встречается.

В индексе могут храниться также значения частоты вхождения данного терма в каждом документе, что позволяет сортировать список по убыванию частоты вхождения. Классическая база данных, соответствующая булевой модели, организована таким образом, чтобы по каждому терму можно было быстро получить доступ к соответствующему списку документов. Кроме того, структура инвертированного массива обеспечивает его быструю модификацию при включении в базу данных новых документов. В связи с этими требованиями, инвертированный массив часто реализуется в виде В-дерева.

Существует несколько подходов к формированию архитектуры поисковых систем, соответствующих булевой модели и нашедших свое воплощение в реальных системах. Одной из наиболее удачных реализаций структуры базы данных информационно-поисковой системы на мэйнфреймах фирмы IBM была признана модель данных системы STAIRS (Storage and Information Retrieval System), которая, благодаря изначально удачным архитектурным решениям до сих пор продолжает развиваться. База данных информационно-поисковых систем этой традиционной архитектуры состоит из следующих основных таблиц :

Текстовой, содержащей текстовую часть всех документов;

Таблицы указателей текстов, включающей указатели местонахождения документов в текстовой таблице, а заодно и форматные поля всех документов;

Словарной, содержащей все уникальные слова, встречающиеся в полях документов, т.е. те слова, по которым может осуществляться поиск. Слова могут быть связаны в синонимические цепочки;

Инверсной, содержащей списки номеров документов и координаты всех вхождений отдельных слов в полях документов.

5.3. Модели поиска 167

Процессы, происходившие при поиске информации в базе данных STAIRS, сегодня реализуются средствами современных СУБД и ИПС документального типа. Поиск термина в базе данных осуществляется следующим образом.

1. Происходит обращение к словарной таблице, по которой определяется, входит ли слово в состав словаря базы данных, и если входит, то определяется ссылка на цепочку появлений этого слова в документах.

2. Выполняется обращение к инверсной таблице, по которой определяются координаты всех вхождений терма в текстовую таблицу базы данных.

3. По номеру документа происходит обращение к записи таблицы указателей текстов. Каждая запись этого файла соответствует одному документу в базе данных.

4. По номеру документа осуществляется прямое обращение к фрагменту текстовой таблицы - документу - и последующий его вывод.

5. В случае, когда обрабатывается выражение, состоящее не из одного слова, а из некоторого словосочетания, в результате отработки поиска по каждому слову запроса формируется массив записей, соответствующих вхождению этого термина в базу данных. После окончания формирования массивов результатов поиска происходит выявление релевантных документов путем выполнения теоретико-множественных операций над записями этих массивов.

5.3.2. Векторно-пространственная модель

Большинство известных информационно-поисковых систем и систем классификации информации в той или иной мере основываются на использовании векторной модели описания данных (Vector Space Model) . Векторная модель является классической алгебраической моделью. В рамках этой модели документ описывается вектором в некотором евклидовом пространстве, в котором каждому используемому в документе терму ставится в соответствие его весовой коэффициент (значимость), который определяется на основе статистической информации о его вхождении в отдельном документе или в документальном массиве. Описание запроса, который соответствует необходимой пользователю тематике, также представляет собой вектор в том же евклидовом пространстве термов. В результате для оценки близости запроса и документа используется скалярное произведение соответствующих векторов описания тематики и документа.

В рамках этой модели с каждым термом t i в документе d j (и запросе q) сопоставляется некоторый неотрицательный вес w ij . Таким образом, каждый документ и запрос могут быть представлены в виде ^-мерного вектора ||w ij || i=1,…, к, где к - общее количество различных термов во всех документах. Согласно векторной модели, близость документа d i к запросу q оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена как скалярное произведение соответствующих векторов описаний. При этом весовые коэффициенты отдельных термов можно вычислять множеством различных способов.

Один из возможных простейших (но эффективных) подходов - использовать в качестве веса терма wtj в документе dt нормализованную частоту его использования freg ij в данном документе.

W ij = tf ij = freq ij / max i 1 frequ i 1

168 Глава 5. Основы технологии Text Mining

Этот подход не учитывает частоту вхождения отдельного терма во всем информационном массиве, так называемую дискриминационную силу терма. Поэтому в случае, когда доступна статистика использований термов во всем информационном массиве, более эффективно следующее правило вычисления весов:

W = tfidf ij - tf ij  log N /n i ,

Где n i - число документов, в которых используется терм t j , а N - общее число документов в массиве.

Обычно значения весов w ij нормируются (дополнительно делятся на квадратный корень из суммы весов всех термов, входящих в документ), что позволяет рассматривать документ как ортонормированный вектор. Такой метод взвешивания термов имеет стандартное обозначение - tfidf, где tf указывает на частоту использования термина в документе (term frequency), a idf- на величину, обратную числу документов массива, содержащих данный терм (inverse document frequency).

Когда возникает задача определения тематической близости двух документов или документа и запроса, в этой модели используется простое скалярное произведение sim(d 1 , d 2) двух векторов ||w i1 || i= 1, …k и ||w i2 || i= 1, …k , которое, очевидно, соответствует косинусу угла между векторами-образами документов d 1 и d 2 . Очевидно, sim(d 1 , d 2) принадлежит диапазону . Чем больше величина sim(d 1 , d 2) - тем более близки документы d 1 и, d 2 . Для любого документа d i , имеем sim(d i , d i) = 1. Аналогично мерой близости запроса q документу d i считается величина sim(q, d i).

Векторно-пространственная модель представления данных автоматически обеспечивает системам, построенным на ее основе, такие возможности:

Обработку сколь угодно больших запросов;

Простую реализацию режима поиска документов, подобных уже найденным;

Сохранение результатов поиска в некотором виртуальном массиве с последующим уточняющим поиском в нем.

5.3.3. Гибридные модели поиска

Несмотря на то что приведенные выше модели являются классическими, в чистом виде они применяются только в моделях систем. На практике чаще всего используются гибридные подходы, в которых объединены возможности булевой и векторно-пространственной моделей и зачастую добавлены оригинальные методы семантической обработки информации. Чаще всего в информационно-поисковых системах процедура поиска выполняется в соответствии с булевой моделью, а результаты ранжируются по весам в соответствии с моделью векторного пространства.

5.4. Группировка текстовых данных

Названные выше модели представления данных обладают общим недостатком, связанным с большой размерностью как векторного пространства (векторная модель), так и множества (булева модель). Для обеспечения эффективной работы необходимо сгруппировать как подмножества термов, так и тематически подобные документы. Только в этом случае может быть обеспечена обработка информационных массивов в режиме реального времени. В этом случае на помощь приходят два основных приема группировки - классификация

5.4. Группировка текстовых данных 169

и кластеризация. Здесь классификация - это отнесение каждого документа к определенному классу с заранее известными признаками, полученными на этапе обучения. Число классов строго ограничено.

Тематические каталоги, построенные с участием людей (например, Yahoo! или Open Directory), приводят к естественному вопросу: а не могут ли подобные каталоги быть построены автоматически? Один из путей решения этой проблемы - кластеризация, т.е. автоматическая группировка тематически близких документов.

При кластеризации гипертекстовых документов возникают некоторые осложнения, связанные с множественностью выбора алгоритмов кластеризации. Разные алгоритмы используют различные алгоритмы подобия при наличии большого количества признаков.

Гипертекст достаточно богат возможностями: текстовые блоки, теги разметки, URL-адреса, имена доменов в URL, подстроки в URL, которые могут быть значащими словами, и т.д. Как в этом случае определить меру подобия таким образом, чтобы достичь хорошей кластеризации?

Как только класс определен методом кластеризации, возникает необходимость его сопровождения, так как Сеть постоянно изменяется и растет. В этом случае на помощь приходит классификация. Механизм классификации сначала обучается на основе выявления признаков документов, которые соответствуют определенным темам. На этой стадии определяются корреляции между отдельными признаками, после чего механизм становится способен классифицировать новые документы.

Классификация и кластеризация представляют собой две противоположные крайности в отношении человеческого участия в процессе группировки документов.

Механизм классификации обычно обучается на отобранных документах только после того, как заканчивается стадия автоматического выявления классов (кластеров).

Кластеризация - это разбиение множества документов на кластеры, представляющие собой подмножества, смысловые параметры которых заранее неизвестны. Количество кластеров может быть произвольным или фиксированным. Если классификация предполагает приписывание документам определенных, известных заранее признаков, то кластеризация - это более сложный процесс, который предполагает не только приписывание некоторых признаков, но и выявление самих этих признаков-классов.

Итак, основная идея современных методов кластеризации - снижение размерности пространства признаков, по которым происходит классификация документов. В то время как классификация документов заключается в автоматическом определении тематики документа по заданному множеству возможных тематик, задачей кластеризации документов является автоматическое выявление групп семантически подобных документов. Однако, в отличие от классификации, тематическая ориентация этих групп не задана заранее. Иными словами, цель кластеризации некоторого множества документов состоит в выделении подмножеств (кластеров), где все документы, попавшие в один кластер, в определенном смысле будут близки друг другу. Иначе говоря, кластер можно рассматривать как группу документов со схожими признаками. Цель всех методов кластеризации заключается в том, чтобы схожесть документов, попадающих в кластер, была максимальной, семантической.

Числовые методы кластеризации базируются на определении кластера как множества документов, 1) значения семантической близости между любыми двумя элементами которого не меньше определенного порога или 2) значения

170 Глава 5. Основы технологии Text Mining

близости между любым документом множества и центроидом этого множества не меньше определенного порога. Под центроидом кластера в этом случае понимается вектор, который вычисляется как среднее арифметическое векторов всех документов кластера. Нечисловые семантические методы кластеризации не накладывают таких ограничений на кластеры, однако в результате применения большинства семантических методов в полученных множествах приведенные условия близости, как правило, выполняются.

Начальным пространством признаков обычно является пространство термов, которое сжимается в результате анализа большого массива документов. Для проведения такого анализа используются различные подходы - весовой, вероятностный, семантический и т.д., определяющие правила классификации.

В области информационного поиска кластеризация применяется для решения двух задач - группировки документов и результатов поиска.

При использовании векторно-пространственной модели представлений данных в информационно-поисковых системах всегда актуальна задача снижения размерности, что должно повысить скорость обработки и выполнения быстрого поиска по заданному векторному образу запроса релевантных ему векторных представлений документов. Если разбить все множество документов на кластеры, содержащие семантически близкие друг другу документы, то можно реализовать следующую процедуру: сравнить образ запроса с центроидами ("типичными представителями" - осредненными значениями векторов из кластера), выбрать кластеры, центроиды которых наиболее близки запросу, после чего сравнить запрос со всеми документами в выбранных кластерах.

Таким образом, процедурно все множество документов разбивается на несколько кластеров, каждый из которых содержит множество близких друг другу документов, и для каждого кластера находится центроид - документ, образ которого расположен наиболее близко к геометрическому центру кластера. В этом случае поиск по запросу разбивается на два этапа. Вначале запрос сопоставляется с центроидами всех кластеров и определяются кластеры, образы центроидов которых наиболее близки образу запроса. Далее поиск проводится исключительно в выбранных кластерах.

5.4.1. Кластеризация

В результате выполнения поисковой процедуры пользователю предъявляются списки документов, как правило, упорядоченные по убыванию соответствия запросу. В результате неизбежных неточностей при ранжировании результатов поиска, такой вид представления не всегда оказывается удобным.

И тогда на помощь приходит кластеризация результатов поиска, которая позволяет представить полученные результаты в обобщенном виде, что упрощает выделение области, соответствующей информационным потребностям пользователя .

В этом случае используют два класса методов кластеризации - иерархический и неиерархический. Наиболее популярны сегодня методы иерархической кластеризации, которые благодаря своей простоте широко применяются в современных информационных системах.

При иерархической кластеризации (снизу вверх либо сверху вниз) формируется дерево кластеров. При иерархической кластеризации снизу вверх два документа, попавшие в один кластер, будут принадлежать одному и тому же кластеру и на более высоких уровнях иерархии. При использовании кластеризации сверху вниз документы, попавшие в различные кластеры, будут принадлежать различным

5.4. Группировка текстовых данных 171

кластерам на более низких иерархических уровнях. Иначе говоря, принятое один раз решение о принадлежности документов одному (кластеризация снизу вверх) или разным (кластеризация сверху вниз) кластерам в дальнейшем не пересматривается, что обеспечивает вычислительную простоту и эффективность метода.

Методы неиерархической кластеризации обеспечивают качественную кластеризацию за счет более сложных алгоритмов. Для этих методов, как правило, имеется некоторая пороговая функция качества кластеризации, максимизация которой достигается за счет распределения документов между отдельными кластерами.

5.4.2. Тематическая близость

Теоретически предполагается, что тематика документа определяется его словарным запасом, а тематическая близость термов характеризуется тем, насколько часто эти термы используются в документах одной и той же тематики. Отметим, что это не всегда подразумевает обязательное использование этих термов в одних и тех же документах.

Обозначим тематическую близость двух термов wt и Wj как FSR(wb wj). Вычисление оценок тематической близости термов и, как следствие, задание функции FSR выполняются по результатам анализа использования термов в массиве документов, которыми описываются тематики. По исходному массиву документов строится матрица А, строки которой отражают распределение термов по документам. В качестве оценки тематической близости двух термов используется скалярное произведение соответствующих строк этой матрицы. Таким образом, для вычисления оценок близости между всеми парами термов достаточно вычислить матрицу ААТ.

Такой подход аналогичен классическим методам представления информации, основанным на векторно-пространственной модели. Поэтому ему присущи следующие недостатки:

Не определяет зависимости между термами, которые используются в документах одной и той же тематики, но редко встречаются вместе;

Случайные неточности и зависимости оказывают существенное влияние на получаемые оценки и негативно влияют на точность метода;

Размер матрицы А очень велик - использование этой матрицы весьма ресурсоемко.

Дальнейшим развитием такого подхода является использование так называемого латентно-семантического анализа (LSA). По матрице АА Т строится ее аппроксимация ĂĂ Т, где Ă - это аппроксимация А, полученная методом латентно-семантического анализа (подробнее на этом мы остановимся далее).

Функция тематической близости двух термов FSR(wi, и>г) однозначно задается

Матрицей ĂĂ Т:

FSR(w 1 , w 2) = ĂĂ Т .

Отметим, что матрица ĂĂ Т имеет размерность k, где k - это выбранная при аппроксимации желаемая размерность пространства тематик. Таким образом, при данном подходе трудоемкость вычисления тематической близости двух термов составляет О(k), т.е. она не зависит от количества анализируемых документов и размера общего словаря.

Глава 5. Основы технологии Text Mining

-----------------------

Web Mining можно перевести как "добыча данных в Web". Web Intelligence или Web Интеллект готов "открыть новую главу" в стремительном развитии электронного бизнеса. Способность определять интересы и предпочтения каждого посетителя, наблюдая за его поведением, является серьезным и критичным преимуществом конкурентной борьбы на рынке электронной коммерции.

Системы Web Mining могут ответить на многие вопросы, например, кто из посетителей является потенциальным клиентом Web-магазина, какая группа клиентов Web-магазина приносит наибольший доход, каковы интересы определенного посетителя или группы посетителей.

Технология Web Mining охватывает методы, которые способны на основе данных сайта обнаружить новые, ранее неизвестные знания и которые в дальнейшем можно будет использовать на практике. Другими словами, технология Web Mining применяет технологию Data Mining для анализа неструктурированной, неоднородной, распределенной и значительной по объему информации, содержащейся на Web-узлах.

Согласно таксономии Web Mining , здесь можно выделить два основных направления: Web Content Mining и Web Usage Mining .

Web Content Mining подразумевает автоматический поиск и извлечение качественной информации из разнообразных источников Интернета, перегруженных " информационным шумом ". Здесь также идет речь о различных средствах кластеризации и аннотировании документов.

В этом направлении, в свою очередь, выделяют два подхода: подход, основанный на агентах, и подход, основанный на базах данных.

Подход, основанный на агентах (Agent Based Approach ), включает такие системы:

  • интеллектуальные поисковые агенты (Intelligent Search Agents);
  • фильтрация информации / классификация;
  • персонифицированные агенты сети.

Примеры систем интеллектуальных агентов поиска:

  • Harvest (Brown и др., 1994),
  • FAQ -Finder (Hammond и др., 1995),
  • Information Manifold (Kirk и др., 1995),
  • OCCAM (Kwok and Weld , 1996), and ParaSite (Spertus, 1997),
  • ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
  • ShopBot (Doorenbos и др., 1996).

Подход, основанный на базах данных (Database Approach ), включает системы:

  • многоуровневые базы данных;
  • системы web-запросов (Web Query Systems);

Примеры систем web-запросов:

  • W3QL (Konopnicki и Shmueli, 1995),
  • WebLog (Lakshmanan и др., 1996),
  • Lorel (Quass и др., 1995),
  • UnQL (Buneman и др., 1995 and 1996),
  • TSIMMIS (Chawathe и др.., 1994).

Второе направление Web Usage Mining подразумевает обнаружение закономерностей в действиях пользователя Web-узла или их группы.

Анализируется следующая информация:

  • какие страницы просматривал пользователь;
  • какова последовательность просмотра страниц.

Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.

Web Usage Mining включает следующие составляющие:

  • предварительная обработка;
  • операционная идентификация;
  • инструменты обнаружения шаблонов;
  • инструменты анализа шаблонов.

При использовании Web Mining перед разработчиками возникает два типа задач. Первая касается сбора данных, вторая - использования методов персонификации. В результате сбора некоторого объема персонифицированных ретроспективных данных о конкретном клиенте, система накапливает определенные знания о нем и может рекомендовать ему, например, определенные наборы товаров или услуг. На основе информации о всех посетителях сайта Web-система может выявить определенные группы посетителей и также рекомендовать им товары или же предлагать товары в рассылках.

Задачи Web Mining согласно можно подразделить на такие категории:

  • Предварительная обработка данных для Web Mining .
  • Обнаружение шаблонов и открытие знаний с использованием ассоциативных правил, временных последовательностей, классификации и кластеризации;
  • Анализ полученного знания.

Text Mining

Text Mining охватывает новые методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text - поиск или обнаружение знаний в тексте).

В отличие от технологии Data Mining , которая предусматривает анализ упорядоченной в некие структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации.

Программы, реализующие эту задачу, должны некоторым образом оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Один из методов, на котором основаны некоторые Text Mining системы, - поиск так называемой подстроки в строке.

Call Mining

По словам Энн Беднарц , "добыча звонков" может стать популярным инструментом корпоративных информационных систем.

Технология Call Mining объединяет в себя распознавание речи, ее анализ и Data Mining . Ее цель - упрощение поиска в аудио-архивах, содержащих записи переговоров между операторами и клиентами. При помощи этой технологии операторы могут обнаруживать недостатки в системе обслуживания клиентов, находить возможности увеличения продаж, а также выявлять тенденции в обращениях клиентов.

Среди разработчиков новой технологии Call Mining ("добыча" и анализ звонков) - компании CallMiner, Nexidia, ScanSoft, Witness Systems. В технологии Call Mining разработано два подхода - на основе преобразования речи в текст и на базе фонетического анализа.

Примером реализации первого подхода, основанного на преобразовании речи, является система CallMiner. В процессе Call Mining сначала используется система преобразования речи, затем следует ее анализ, в ходе которого в зависимости от содержания разговоров формируется статистика телефонных вызовов. Полученная информация хранится в базе данных, в которой возможен поиск, извлечение и обработка.

Пример реализации второго подхода - фонетического анализа - продукция компании Nexidia. При этом подходе речь разбивается на фонемы, являющиеся звуками или их сочетаниями. Такие элементы образуют распознаваемые фрагменты. При поиске определенных слов и их сочетаний система идентифицирует их с фонемами.

Аналитики отмечают, что за последние годы интерес к системам на основе Call Mining значительно возрос. Это объясняется тем фактом, что менеджеры высшего звена компаний, работающих в различных сферах, в т.ч. в области финансов, мобильной связи, авиабизнеса, не хотят тратить много времени на прослушивание звонков с целью обобщения информации или же выявления каких-либо фактов нарушений.

По словам Дэниэла Хонг, аналитика компании Datamonitor: "Использование этих технологий повышает оперативность и снижает стоимость обработки информации".

Типичная инсталляция продукции от разработчика Nexidia обходится в сумму от 100 до 300 тыс. долл. Стоимость внедрения системы CallMiner по преобразованию речи и набора аналитических приложений составляет около 450 тыс. долл.

По мнению Шоллера, приложения Audio Mining и Video Mining найдут со временем гораздо более широкое применение, например, при индексации учебных видеофильмов и презентаций в медиабиблиотеках компаний. Однако технологии Audio Mining и Video Mining находятся сейчас на уровне становления, а практическое их применение - на самой начальной стадии.