ОБЗОР МЕТОДОВ ЭФФЕКТИВНОГО ИЗВЛЕЧЕНИЯ ПОЛНОТЕКСТОВОЙ ИНФОРМАЦИИ

Иванов Дмитрий Фёдорович

Отдел информатизации Правительства Республики Марий Эл, г.Йошкар-Ола

В статье рассматриваются тенденции развития методов эффективного для пользователя извлечения информации. Отражены основные механизмы статистического, семантического и визуального подходов реализаций принципа. Указаны их достоинства и недостатки. Высказаны предположения о будущем развитии средств поиска в данном тематическом ракурсе.

задать вопрос автору

В настоящее время, вследствие недостатка учебных материалов, качественно и полно отражающих раскрываемую предметную дисциплину, преподаватель нередко обращается к широкодоступным электронным материалам — всемирной сети Internet. Благодаря множеству реализаций поисковых механизмов, при определенных затратах, в ней можно найти практически любую требуемую информацию. В данной статье проводится анализ основных методов и тенденций развития поисковых механизмов и интерфейсов.

Определим основные тенденции в области эффективного доступа к информации как: повышение качества поиска информации при обработке запросов и максимальное упрощение действий, производимых пользователем в процессе поиска информации, с сокращением их количества.

Прежде всего означим группу широко известных и глубоко изученных методов, реализующих статистическую и синтаксическую корректировку запроса, к сожалению, уже достигших предела повышения эффективности поиска. Во-первых, это семейство так называемых методов поиска с положительной и отрицательной обратной связью по релевантности [1,4] с вариациями, например, “найти похожий”, стратегия последовательного уточнения запроса и т.д. Во-вторых, алгоритмы форсирования запроса, сутью которых является расширение запроса поисковой системой некоторым множеством связанных терминов за счёт собственного словаря синонимов системы, в лучшем случае тезауруса.

Второй, более прогрессивный подход представляет семантические методы улучшения запроса. Их появление стало возможным благодаря нечеткому поиску и ранжированию результатов поиска. Большинство методик данного подхода ориентировано на использование ИПС и реализуются как вторичные поисковые средства. Одним из самых простых, эффективных, потому и самых популярных методов реализации данных теорий является алгоритм расширения запроса с использованием тезаурусов предметных областей. Стоит отметить, что полностью автоматизированного процесса составления тезауруса без ущемления его некоторых важных особенностей, таких как корректность определения вершин, морфологическая чистота терминов, строгое определение синонимов и связей, в ближайшее время ждать не приходится, что определяется нечёткостью морфологических и семантических правил естественного языка, отсутствием отлаженных действенных алгоритмов и др. В пику этому появились методы выявления семантических связей и построения запросов, реализующие относительную семантичность за счёт анализа статистических распределений, присущих терминам текстовых документов. Благодаря подобным методам возможно полностью освободить пользователя от рутинного составления запроса.

Следующим подходом можно считать доступ к информационным хранилищам документов через визуальные интерфейсы. На данный момент широко известны два различных механизма. Оба построены с использованием нейронных сетей. Первая — это система "The brain", разработанная фирмой "НейрОК", предоставляющая доступ к хранилищу текстовой информации через визуальное отображение терминологического дерева семантической сети системы, используемого для навигации пользователя и нахождения документов, отражающего релевантную область сети. Реализация другого механизма визуализации — разработка фирмы "ГарантПарк" [2,3]. Здесь реализован принцип нейрообработки текстового хранилища с получением графической карты кластеров документов, соответствующих определённой предметной области.

Аппроксимируя процесс развития рассмотренных технологий, можно сказать, что поиск информации всё теснее и глубже интегрируется с семантической и нейрообработкой текстовой информации при более лёгких для человеческого восприятия поисковых интерфейсах. По намеченным тенденциям можно утверждать, что в ближайшее время будет реализован поиск по голосовым запросам.

Литература

  1. Солтон Дж., Динамические библиотечно-информационные системы Москва: Мир, 1979
  2. Плешко В.В., Визуализация массивов полнотекстовых документов в информационных системах
  3. ПлешкоВ.В., Визуальные средства поиска информации в документированных базах данных
  4. Сметанников А.А., Использование в информационно-поисковой системе обратной связи по релевантности для классификации документов