Компьютер-Информ || Архив || Рубрики || Поиск || Подписка || Работа || О "КИ" || Карта


Новые технологии


Поиграем в ассоциации?

В.В. Александров, д. т. н., проф., alexandr@mail.iias.spb.su


Предлагаемая статья знакомит читателей с принципами ассоциативного и визуального поиска, а также рассказывает про систему VisualWorld, предлагающую новые виды поиска в Интернет.

Очевидным фактом является взаимная связь различных слов в языке. Такими связями могут быть ассоциации или денотации. Если изобразить отдельные слова в виде кругов (квадратов), а связи между ними - в виде линий, то получится визуальная карта (семантическая сеть). Понятно, что различные области этой карты соответствуют различным областям знаний, например, область вокруг слова "транзистор" будет соответствовать всему, что связано с электроникой.

Такая карта, по сути, является сжатой версией знаний того человека, который ее составлял. Карта может быть составлена и по толковому словарю, тогда она будет отражать знания этого словаря. Такие виды карт являются статическими (фиксированными), т. е., составленными один раз на основании какого-либо знания.

Но ведь существует еще Интернет - хранилище знаний всего человечества по всем отраслям знаний одновременно! Благодаря тому, что Интернет-контент постоянно расширяется, пополняясь новыми сведениями, он, теоретически, содержит самые свежие знания. Карта, построенная по текущему Интернет-контенту, отражает самые свежие и полные знания по всем областям человеческого знания.

Осталось лишь создать интерфейс для просмотра карты и можно безгранично "путешествовать" по знаниям, всего лишь перемещаясь по связанным словам. Такой интерфейс предлагает система "визуальный словарь", находящаяся по адресу http://vslovar.ru.

Рассмотрим другую задачу - человеку необходимо найти описание какого-либо процесса или явления. Это означает, что надо переместиться в нужное место на карте и посмотреть на окружение требуемого слова. При этом окружение обычно существует вокруг реально существующих понятий, точно так же, как его нет в несвязных сочетаниях слов. Например, вокруг словосочетания "жесткий диск" существует понятийное окружение, а карта словосочетания "грустный синхрофазотрон" окажется разорванной.

Так сложилось, что все ответы требуется подкреплять ссылками на литературу (а в случае Интернет-поиска стало даже обычным явлением давать литературу вместо ответа). Для объяснения ответа, найденного на "карте знаний" поисковая система VisualWorld (http://visualworld.ru) предложит набор документов, содержащих фрагмент карты, окружающей нужные нам слова. По мнению системы, раз уж такой документ имеет схожую карту, то он и содержит ответ на искомый вопрос.

Есть еще одна интересная задача - человек хочет найти ответ, но совершенно не знаком с темой. Такое часто случается, если начальник попросил найти информацию о новом направлении деятельности компании, или в институте вдруг задали реферат на совершенно непонятную тему. Как правило, в таких случаях известно лишь одно или несколько ключевых слов, и ничего более.

Обычно решение такой задачи начинается с ввода в строку поиска поисковых систем известных слов в различных комбинациях и просмотра массы документов, предлагаемых в качестве "результата". При просмотре документов у человека складывается общее представление о теме - появляются другие ключевые слова, и поиск (а точнее, построение запросов) становится более осмысленным. Как не хватает в такие моменты человека, знающего эту тему и способного дать несколько ассоциаций, чтобы сразу сузить область поиска! В такие моменты вспоминается подсказка "помощь зала" в известной телевизионной игре.

Но ведь таким помощником может стать сам Интернет, ведь он "знает" то, что в нем находится! Механизм, помогающий разобраться в проблеме "на ходу" предлагается системой VisualWorld и называется ассоциативным поиском.

Этот механизм очень похож на пошаговый Wizard-интерфейс, когда пользователю предлагается по шагам дойти до нужной цели. После ввода одного ключевого слова ViWo предлагает несколько ассоциаций, "приходящих на ум" знатоку данной темы, - их он предлагает в виде столбика слов (по популярности их использования).

Выбрав одно из наиболее подходящих (на взгляд пользователя) слов, можно добавить его в поисковый запрос, сузив область поиска. После этого сервис предложит новые ассоциации, но соответствующие уже уточненному запросу. Например, если для слова "компьютер" ассоциациями являются слова "программа", "принтер", "сервер", то для сочетания слов "мобильный компьютер" ассоциациями станут "КПК", "Palm", но "сервер" в них вряд ли попадет. Если стало ясно, что это слово не относится к требуемой теме, то можно заменить его следующим словом из списка и повторить запрос снова. И для поиска уточняющих слов не требуется читать тексты найденных документов!

Уточнив запрос до нужного уровня, можно посмотреть на результаты поиска. Для наглядности рядом всегда находится тот фрагмент карты, который соответствует запросу.

Если в какой-то момент карта из одной сети распалась на несколько фрагментов, то есть серьезный повод задуматься, а связаны ли слова, которые были введены, и не стоит ли заменить "оторвавшиеся" от общей сети слова на другие, ведь результат поиска - это те страницы, которые содержат фрагмент карты поиска.

Бывает, что для получения ответа даже не потребуется читать текст самих документов - слова-ассоциации уже содержат ответ. Предположим, например, что вы забыли, в какой стране находится город Канберра. Воспользовавшись ассоциативным поиском, вы найдите искомую страну - Австралию - среди ассоциаций.

Сравним поисковый механизм VisualWorld с другими известными поисковыми системами:

Классический полнотекстовый механизм поиска (его предоставляют "Яндекс", "Рамблер") - это поиск введенной фразы во всех известных системе документах.

Более продвинутые варианты поиска к ищут фразу не целиком, а с "попаданием" в искомую фразу посторонних слов и т. д. Подобные алгоритмы называют учетом координат слов.

Некоторые поисковые системы пытаются использовать тезаурус запросов, с помощью которого выделяются их темы.

Ранжирование при выводе результатов в классическом поиске определяется индексом цитирования страницы (рангом) и степенью разорванности фразы в документе, а также учитывает особенности разметки страницы. Учет "ранга страницы" (Page Rank) характеризует ее популярность (вычисляется по количеству ссылок на ресурс с других ресурсов Интернет).

Теперь приведем несколько основных утверждений (аксиом), на которых основана идея визуального поиска:

  1. Если на поисковый запрос существует страница, которая точно отвечает на вопрос, то все страницы, которые ее повторяют или содержат ее фрагменты - не нужны.
  2. Положение страницы в результатах поиска определяется только свойствами самой страницы (степенью соответствия поискового запроса странице и качеством самой страницы), а не внешними факторами.
  3. Для каждой страницы существует "визуальная структура" - граф зависимостей между основными понятиями (другое название - семантическая сеть или визуальный тезаурус).
  4. Процесс поиска - это выборка документов, удовлетворяющих условию наличия семантических связей в документе между всеми словами поискового запроса.

Система VisualWorld работает именно по этим принципам.

Следует отметить, что VisualWorld не ищет все с точностью до последнего слова. Если вам требуется по известному фрагменту текста найти конкретную страницу, то VisualWorld может вам и не помочь, так как просто сочтет эту страницу неинформативной (при наличии других, более информативных страниц на эту тему). Для такой задачи лучше подходят классические поисковые системы, перейти на самые популярные из которых можно прямо со страниц VisualWorld.

Естественно, что поисковый сервис VisualWorld использует ставший теперь обязательным русский морфологический разбор слов для правильного выделения слова в запросе, независимо от падежей, склонений и спряжений, а также проверку русского правописания, что позволяет исправлять случайные опечатки.

Следует добавить, что все современные поисковики - настолько сложные системы, что уже не могут быть описаны в терминах "хорошо/плохо", каждый из них подходит для своей задачи, а универсальных решений пока не придумано.


Рубрики || Работа || Услуги || Поиск || Архив || Дни рождения
О "КИ" || График выхода || Карта сайта || Подписка

Рассылка анонсов газеты по электронной почте

Главная страница

Сайт газеты "Компьютер-Информ" является зарегистрированным электронным СМИ.
Свидетельство Эл 77-4461 от 2 апреля 2001 г.
Перепечатка материалов без письменного согласия редакции запрещена.
При использовании материалов газеты в Интернет гиперссылка обязательна.

Телефон редакции (812) 718-6666, 718-6555.
Адрес: 196084, СПб, ул.Заставская, д.23, БЦ "Авиатор", 3-й этаж, офис 307
e-mail: editor@ci.ru
Для пресс-релизов и новостей news@ci.ru