Сущность проблемы анализа текста в полнотекстовых поисковых системах. Подходы и пути решения

Сущность проблемы анализа текста в полнотекстовых поисковых системах. Подходы и пути решения

Калиниченко Алла Викторовна,

соискатель, ассистент Северо-Кавказского горно-металлургического института (Государственного технологического университета).

Большие объемы информации, хранящейся в электронном виде, привели к неэффективности применения в поисковых системах алгоритмов контекстного поиска, выполняющих поиск путем последовательного просмотра текста документов. Так как в данном случае, при получении очередного запроса от пользователя приходится просматривать всю коллекцию документов заново, и, как следствие, время выдачи результата поисковой системой становится неприемлемо большим. В связи с этим получили распространение системы с предпроцессингом, то есть с предварительной обработкой (индексированием) всех имеющихся в системе документов. Далее в статье рассматривается только этот класс поисковых систем.

В настоящее время в распоряжении разработчиков различные методы обработки текстов на естественном языке, у каждого из которых есть свои достоинства и недостатки. Несмотря на то, что с момента появления полнотекстовых информационно-поисковых систем прошло более 15 лет, в задаче обработки текста остается еще много нерешенного.

1. Проблемы анализа текста в полнотекстовых поисковых системах.

Как уже было отмечено, при попадании в поисковую систему документ проходит процедуру индексирования, результатом которой является формирование поискового образа. В дальнейшем система работает не с самим документом, а именно с его поисковым образом. Процесс формирования поискового образа заключается в автоматической обработке документов и выявлении признаков, которые в дальнейшем будут использоваться для «представления» их содержания в поисковой системе. С обработкой информации на естественном языке связан ряд проблем, основные из которых перечислены ниже:

l Синонимия. Одно и тоже понятие может быть выражено различными словами. В результате релевантные документы, в которых используются синонимы понятий, указанных пользователем в запросе, могут быть не обнаружены системой.

Предметный фотограф

Яркие визитки для фотографа! Тысячи вариантов! Доставка на дом

drogunov.ru

Террасная доска дпк

доски и комплектующих. Доступные цены. Удобная доставка

prompolimer43.ru

l Устойчивые сочетания слов. Словосочетания могут иметь смысл отличный от смысла, который имеют слова по отдельности.

l Омонимия и явления «смежные с омонимией». Грамматические омонимы - разные по значению слова, но совпадающие по написанию в отдельных грамматических формах. Это могут быть слова одной или разных частей речи. Лексические омонимы - слова одной части речи, одинаковые по звучанию и написанию, но разные по лексическому значению. Как следствие, системой могут быть выданы нерелевантные документы.

l Морфологические вариации. Во многих естественных языках слова имеют несколько морфологических форм, различающихся по написанию.

2. Подходы к обработке текста на естественном языке.

Можно выделить два основных подхода к обработке документов в поисковых системах: статистический и лингвистический.

В основе статистического подхода лежит предположение, что слова, которые наиболее часто встречаются в тексте, будут отражать его содержание. Суть статистического анализа заключается в подсчете количества вхождений слов в документ. В рамках данного подхода разработано большое количество методов. Распространенным приемом является сопоставление каждому терму t в документе некоторого неотрицательного веса. Веса термов можно вычислять множеством различных способов. Самый простой из них – положить «вес» равным количеству появлений терма t в документе d, обозначается tf_t_,_d[1]. Эта схема взвешивания известна как term frequency. Этот метод взвешивания не учитывает дискриминационную силу терма. Поэтому в случае, когда доступна статистика использования термов по коллекции, лучше работает схема tf-idf вычисления весов, определяемая следующим образом: , где - обратная документальная частота (inverse document frequency) терма t , df_t - документальная частота (document frequency), определяемая как количество документов в коллекции, содержащих терм t, N - общее количество документов в коллекции. Схема tf-idf и ее модификации широко используются на практике.

Эффективным подходом, основанным на статистическом анализе, является латентно-семантическое индексирование. Латентно-семантический анализ – это теория и метод для извлечения контекстно-зависимых значений слов при помощи статистической обработки больших наборов текстовых данных [1]. Более подробное рассмотрение метода выходит за рамки данной работы.

Главный недостаток статистических методов состоит в том, что они не учитывают связности текста. Представление текста как простого множества слов недостаточно для отражения его содержания. Текст представляет набор слов, выстроенных в определенной заданной последовательности. Преодолеть этот недостаток позволяет использование лингвистических методов анализа текста.

При формировании поискового образа документа могут использоваться следующие виды лингвистического анализа: графематический, синтаксический, морфологический, семантический.

Этап графематического анализа предназначен для выделения элементов структуры текста: параграфов, абзацев, предложений, отдельных слов и т. д.

Целью морфологического анализа является определение морфологических характеристик слова и его основной словоформы. Особенности анализа сильно зависят от выбранного естественного языка.

Целью синтаксического анализа является определение синтаксической зависимости слов в предложении. В связи с присутствием в русском языке большого количества синтаксически омонимичных конструкций, наличием тесной связи между семантикой и синтаксисом, процедура автоматизированного синтаксического анализа текста является трудоемкой. Сложность алгоритма увеличивается экспоненциально при увеличении количества слов в предложении и числа используемых правил.

Разработки в области семантического анализа текста связаны с областью искусственного интеллекта, делающей акцент на смысловом понимании текста. В настоящее время успехи в этом направлении достаточно ограничены. Разработанные семантические анализаторы обладают высокой вычислительной сложностью и неоднозначностью выдаваемых результатов. Сейчас интенсивно развивается направление, связанное с применением различных видов онтологий для целей полнотекстового поиска в электронных коллекциях документов.

3. Функционирующие системы.

В области разработки информационно поисковых систем российскими коллективами создан ряд систем, которые позволяют работать с большими полнотекстовыми массивами, и обладают широкими функциональными возможностями. Это, например, ODB-Text компании «Интелтек плюс», Russian Context Optimizer от ООО «Парк-Гарант-Интернет», SearchInform от СофтИнформ, Галактика-ZOOM и другие. Имеют место разработки, предоставляющие собой модули работы с русскоязычными текстами для таких систем, как Oracle interMedia Text, RetrievalWare. В рамках данной статьи интересен обзор методов анализа текста на естественном языке, использующихся в данных системах. В отличие от поисковых машин Internet, в данной категории поисковых систем может быть применен более глубокий анализ текстов, нежели контекстный поиск по вхождению слов в документ.

3.1. Галактика-ZOOM.

Система позволяет работать с массивами неструктурированной и слабоструктурированной текстовой информации в режиме реального времени без использования специальных тезаурусов и языковых алгоритмов [2]. Запросы пользователей представляют собой некоторые логические конструкции, записанные по специальным правилам языка запросов. В основу положены статистические методы обработки текстовой информации. Для каждого документа система формирует список слов и словосочетаний, статистически отличающих данный документ от прочих в выборке.

3.2. УИС Россия.

Университетская информационная система РОССИЯ (УИС РОССИЯ) содержит ресурсы в области экономики, социологии, политологии, международных отношений и других гуманитарных наук и формируется из электронных версий первоисточников.

Поступающие на вход информационной системы потоки документов подвергаются автоматической лингвистической обработке, включающей в себя следующие этапы: морфологический анализ, терминологический анализ, рубрицирование, аннотирование [3]. Терминологический анализ реализован на основе Тезауруса по общественно-политической тематике. На базе Тезауруса осуществляется автоматическое концептуальное индексирование входящего потока текстов и производится процедура разрешения многозначных терминов, что принципиально при поиске по многозначным словам, обозначающим разные понятия в разных контекстах.

3.3. Russian Context Optimizer (RCO).

В СУБД Oracle разработана компонента Oracle Text, которая представляет собой поисковую систему с широким спектром возможностей. Oracle Text позволяет работать с различными языками, в том числе и с русским. Однако в данной компоненте отсутствует лингвистическое обеспечение для русского языка, как следствие, не все возможности Oracle Text могут быть задействованы. Russian Context Optimizer (RCO) представляет собой модуль поддержки русского языка для работы совместно с картриджем Oracle interMedia Text. Модуль предоставляет такие возможности, как поиск по всем словоформам, расширение запроса синонимами и гипонимами на основе тезауруса, тематический анализ, построение рубрикаторов, классификация документов и другие [4].

3. Выводы.

Продолжительное время статистический подход был доминирующим при обработке текстов на естественных языках. Последние годы активно ведутся исследования в области разработки интеллектуальных ИПС. Тем не менее, в большинстве коммерческих систем используется статистический подход в сочетании с морфологическим анализом. В некоторых работах отмечается возможность частичного применения синтаксического анализа для снятия омонимии. В большинстве случаев синтаксический и семантический анализ используются в экспериментальных системах ввиду высокой вычислительной сложности и неоднозначности выдаваемых результатов.

Литература

1. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008.

2. Антонов А., Курзинер Е. Автоматическое выделение предметной области большого необработанного текстового массива //Компьютерная лингвистика и интеллектуальные технологии, Труды Международного семинара Диалог-2002.

3. Журавлев С.В., Добров Б.В. УИС «РОССИЯ». Автоматическое тематическое индексирование полнотекстовых документов //Материалы научно-практической конференции «Проблемы обработки больших массивов неструктурированных текстовых документов», 2001.

4. Руководство администратора. Введение в RCO for Oracle. Версия 4.0.1. http://www.rco.ru.

Поступила в редакцию 18.05.2010 г.