Конгресс конференций
"Информационные технологии в образовании"
XI конференция-выставка
"Информационные технологии в образовании"
("ИТО-2001")
http://ito.edu.ru/2001/ito
СБОРНИК ТРУДОВ
ОБЗОР МЕТОДОВ ЭФФЕКТИВНОГО ИЗВЛЕЧЕНИЯ ПОЛНОТЕКСТОВОЙ ИНФОРМАЦИИ
Иванов Дмитрий Фёдорович
Отдел информатизации Правительства Республики Марий Эл, г.Йошкар-Ола
В статье рассматриваются тенденции развития методов эффективного для пользователя извлечения информации. Отражены основные механизмы статистического, семантического и визуального подходов реализаций принципа. Указаны их достоинства и недостатки. Высказаны предположения о будущем развитии средств поиска в данном тематическом ракурсе.
В настоящее время, вследствие недостатка учебных материалов, качественно и полно отражающих раскрываемую предметную дисциплину, преподаватель нередко обращается к широкодоступным электронным материалам — всемирной сети Internet. Благодаря множеству реализаций поисковых механизмов, при определенных затратах, в ней можно найти практически любую требуемую информацию. В данной статье проводится анализ основных методов и тенденций развития поисковых механизмов и интерфейсов.
Определим основные тенденции в области эффективного доступа к информации как: повышение качества поиска информации при обработке запросов и максимальное упрощение действий, производимых пользователем в процессе поиска информации, с сокращением их количества.
Прежде всего означим группу широко известных и глубоко изученных методов, реализующих статистическую и синтаксическую корректировку запроса, к сожалению, уже достигших предела повышения эффективности поиска. Во-первых, это семейство так называемых методов поиска с положительной и отрицательной обратной связью по релевантности [1,4] с вариациями, например, “найти похожий”, стратегия последовательного уточнения запроса и т.д. Во-вторых, алгоритмы форсирования запроса, сутью которых является расширение запроса поисковой системой некоторым множеством связанных терминов за счёт собственного словаря синонимов системы, в лучшем случае тезауруса.
Второй, более прогрессивный подход представляет семантические методы улучшения запроса. Их появление стало возможным благодаря нечеткому поиску и ранжированию результатов поиска. Большинство методик данного подхода ориентировано на использование ИПС и реализуются как вторичные поисковые средства. Одним из самых простых, эффективных, потому и самых популярных методов реализации данных теорий является алгоритм расширения запроса с использованием тезаурусов предметных областей. Стоит отметить, что полностью автоматизированного процесса составления тезауруса без ущемления его некоторых важных особенностей, таких как корректность определения вершин, морфологическая чистота терминов, строгое определение синонимов и связей, в ближайшее время ждать не приходится, что определяется нечёткостью морфологических и семантических правил естественного языка, отсутствием отлаженных действенных алгоритмов и др. В пику этому появились методы выявления семантических связей и построения запросов, реализующие относительную семантичность за счёт анализа статистических распределений, присущих терминам текстовых документов. Благодаря подобным методам возможно полностью освободить пользователя от рутинного составления запроса.
Следующим подходом можно считать доступ к информационным хранилищам документов через визуальные интерфейсы. На данный момент широко известны два различных механизма. Оба построены с использованием нейронных сетей. Первая — это система "The brain", разработанная фирмой "НейрОК", предоставляющая доступ к хранилищу текстовой информации через визуальное отображение терминологического дерева семантической сети системы, используемого для навигации пользователя и нахождения документов, отражающего релевантную область сети. Реализация другого механизма визуализации — разработка фирмы "ГарантПарк" [2,3]. Здесь реализован принцип нейрообработки текстового хранилища с получением графической карты кластеров документов, соответствующих определённой предметной области.
Аппроксимируя процесс развития рассмотренных технологий, можно сказать, что поиск информации всё теснее и глубже интегрируется с семантической и нейрообработкой текстовой информации при более лёгких для человеческого восприятия поисковых интерфейсах. По намеченным тенденциям можно утверждать, что в ближайшее время будет реализован поиск по голосовым запросам.
Литература