Rambler's Top100 Service калинин.ru / комментарии / интернет /  << 02.11.00 >>

Информационно-поисковые системы

Поисковые системы в интернете на сегодняшний день являются единственным способом доступа пользователя к информации, расположенной в сети. Я имею в виду самый широкий смысл понятия "информация". При этом как инструмент, поисковые системы не могут удовлетворить запросы пользователей, но за отсутствием альтернатив...

Вообще говоря, информационно-поисковая система (сокращенно, ИПС) это такая "штука", которая получает на входе набор документов (база поиска) и еще один документ в качестве искомого, и выдает в результате оценки релевантности каждого из документов искомому. После этого можно отсортировать документы из базы поиска в соответствии с релевантностью. Вообще говоря, понятие релевантности в ИПС --- ключевое: насколько точно она будет рассчитываться, настолько качественной будет ИПС. Все остальные параметры (размер используемых индексов, скорость работы и прочее) в принципе, не особенно важны.

Я об этом имею некоторое представление, потому что сам написал поисковую систему для интернет-сайтов... только, как водится, на тот момент, когда я ее начал писать, о важности понятия "релевантности" я и не догадывался, поэтому ИПС получилась "как у всех", так как я отталкивался от алгоритмов поиска, а не от оценки релевантности. Собственно, это можно приводить в качестве примера подхода к задаче "от сохи".

Теоретически, релевантность можно оценивать многими способами; лучше всего, если программа будет считать ее исходя из соответствия смысла двух документов. Другое дело, что выделение смысла... хм... само по себе задача не простая (мягко говоря) и в общем еще не решенная. Частности же таковы, что все сводится к поиску слов в рубрикаторах, для которых этот смысл известен, или построению графов с информацией о языковой структуре предложения.

Современные ИПС, применяемые в интернете, для обеспечения приемлемой скорости поиска, накладывают ограничения на формат искомого документа и на оценку релевантности. Документ обычно задается в виде логического выражения, а релевантность строится исходя из контекста. То есть, можно поискать документы, в которых находятся одновременно слова "Вася" и "Петя", но нельзя искать документы, по смыслу соответствующие фразе "Вася дружит с сестрой Пети".

Под "документами, соответствующими по смыслу", я подразумеваю, например, следующие тексты:

  • Вася дружит с девушкой. У мамы этой девушки есть сын по имени Петя.
  • У сестры Пети есть много поклонников. Один из них --- Вася.

Если искать по ключевым словам "Вася", "Петя" и "сестра", то, например, первый документ из вышеприведенных найден не будет, а вот что-то в духе "У Пети нет сестры, поэтому Васе приходится дружить с сестрой Коли" --- найдется. Работы в направлении "поиска по смыслу", конечно же, ведутся, но пока что чего-либо, приспособленного для интернета, нет.

Поисковыми системами пользуются множество людей. При этом достаточно велика вероятность того, что приход человека по ссылке из поисковой системы будет "в жилу" сайту, т.е. целевой для него (сами понимаете, что "целевой хит" много полезнее, чем простое посещение "на три клика"). Соответственно, в качестве поиска заинтересованы и владельцы сайтов, и пользователи поисковых систем.

Свойством современных ИПС в интернете является то, что пользователь должен уметь сформулировать свой запрос в виде набора ключевых слов. То есть, если он ищет какую-то информацию по интересующей его тематике, то пользователь должен быть способен выделить ключевые слова, по которым надо будет производить контекстный поиск. Если он этого сделать не сможет, то вряд ли кто-нибудь сможет ему в чем-то помочь... из-за этого, кстати, как мне кажется, новопоявившийся сервис InternetHelp.com, который предоставляет услуги по поиску в интернете посредством своих операторов (в смысле, людей), не особенно удачен: все равно оператор может найти что-либо только в том случае, когда пользователь (или, быть может будет вернее, клиент) сможет внятно сформулировать, что же он хочет найти. А если человек сможет это сделать, то ему прямая дорога к использованию традиционных поисковых систем.

В качестве примера, могу привести несколько запросов к поисковым системам, в результате которых люди попадали ко мне на страницу. Есть, к примеру, строка запроса "фотографию медведя"... Запрос "какой язык программирования использует Microsoft" просто вывел меня из себя минут на 15. Был запрос "Курск инопланетяне"... Особенно мне больно за тех, кто попадает ко мне на страничку с запросом "как установить TeX" ;-) Они точно попадают туда, где я сообщаю о том, что не буду рассказывать о процессе инсталяции TeX'а. Заранее извиняюсь перед тем человеком, который попадет по аналогичному запросу сюда, я не хотел :-) Это я все к тому, что запрос надо уметь формулировать. Если этого не уметь, то никакая ИПС не поможет...

Кстати, как вы думаете, что чаще всего ищут? Ну да, правильно. Именно это и ищут. Опять же, к слову сказать, я видел страницу, на которой был только один баннер, счетчик TOP100, и 100КБ текста, состоящего из повторяющихся слов, которые люди употребляют при поиске порнографии. Только не надо ничего выдумывать: у меня эту страничку выкачал робот, когда обходил URL'ы из некоторого списка, в котором эта страничка уже была. А смешно то, что TOP100 показывал чуть-ли не миллион посещений... куда уж тут мне с "фотографией медведя". Вы хоть представьте себе: миллион (!) людей, которых ждало разочарование на этой странице! Прямо скажем, жестоко.

Недавно Дмитрий Завалишин (dz) написал о том, что Интернет --- это несколько корневых DNS-серверов. Красивое выражение... как и не особенно правильное. Все дело в том, что популярными ресурсами можно управлять и так при помощи некоторого "рубильника" (при этом необязательно, что бы "рубильник" был, как в случае DNS, "виртуальным"; существует множество иных способов "реального" давления). А вот управлять множеством "непопулярных" ресурсов, на которых находится просто дикое количество самой разной информации, как "угодной", так и "неугодной" тем самым высшим силам, которые могут убрать DNS-сервера, не представляется возможным.

И что будет, если пропадут крупные поисковые системы? Или просто "очистятся" поисковые базы? Тогда "ой". Это я к тому, что поисковые системы --- одна из самых важных компонент интернета. Так сказать, пользовательский интерфейс.

Резюме

Поисковыми системами надо уметь пользоваться. Если этого умения нет, то искать можно долго... очень долго. Или ждать интеллектуальных систем поиска. Использование же людей для улучшения качества поиска не сильно поможет общему горю, потому что оператор вообще, скорее всего, не знает предметной области поиска, что скажется на его результативности в худшую сторону.


Версия для печати


  Ссылки по теме:
http://www.google.com
   Поисковая система Google. Рекомендую.
http://cooler.irk.ru/cl140800.
   Статья про поисковые системы у Cooler'а.
http://cooler.irk.ru/cl190800.
   Продолжение статьи "про поиск".
http://www.sai.msu.su:7000/sem
   Краткое описание ИПС с семантическим поиском "Excalibur".
http://www.searchtools.com
   Сайт, посвященный описанию различных поисковых систем.
  Рядом в разделе:
Заработок в интернете (11.12.00)
   Все-таки, Россия --- оригинальная страна. И интернет в ней --- тоже. Я уже несколько раз "между делом" писал о том, что...   >>>>
Глупости при создании сайтов (26.10.00)
   Нет, я не собираюсь в очередной раз рассказывать о том, как писать правильный HTML, или объяснять куда нужно "пихать" баннеры. Для...   >>>>
  Рядом по дате:
Определение ip-адреса по имени хоста, adns (05.11.00)
   Есть такой, характерный для организации "традиционного" UNIX'а, системный вызов под названием : struct hostent * gethostbyname(const char *name); Традиционен он тем,...   >>>>
Операционная система Unix (31.10.00)
   Unix получил очень широкое распространение в современном компьютерном мире. При этом, даже если большая часть домашних компьютеров работает под управлением операционной...   >>>>
  Содержание:
Заглавная страница
Мой блог
Мое резюме
Дайджест
Программирование
   C&C++
Сети
Unix
Алгоритмы
Оптимизация
Соревнования
Отвлеченно
XML
TeX
Просто так
Студенческое
Туризм
  Байки
Фотографии
Комментарии
   Книги
Web-ресурсы
Фильмы
Интернет
Программное обеспечение
Жизнь
Благодарности
Форум
Хронология
 
  В этом разделе:
Спамеры и антиспамеры: путь к компромиссу (14.08.03)
   Статья написана для электронного журнала . На данный момент в околокомпьютерной прессе опубликовано достаточно большое количество статей на тему спама. Большая...   >>>>
Коммерция электронная (09.10.01)
   И все таки она существует! Этот факт настолько удивителен, что заслуживает пристального внимания. Когда я пытался получить свою заказанную книжку из...   >>>>
Новые технологии в рекламе (29.07.01)
   Как хорошо, что основной операционной системой, которой я пользуюсь, является малораспространенная среди российских интернетошатающихся FreeBSD. Как хорошо, что браузеры, которые я...   >>>>
Заработок в интернете (11.12.00)
   Все-таки, Россия --- оригинальная страна. И интернет в ней --- тоже. Я уже несколько раз "между делом" писал о том, что...   >>>>
Информационно-поисковые системы (02.11.00)
   Поисковые системы в интернете на сегодняшний день являются единственным способом доступа пользователя к информации, расположенной в сети. Я имею в виду...   >>>>
Глупости при создании сайтов (26.10.00)
   Нет, я не собираюсь в очередной раз рассказывать о том, как писать правильный HTML, или объяснять куда нужно "пихать" баннеры. Для...   >>>>
Содержание раздела полностью...
   Примерно в тоже время
Определение ip-адреса по имени хоста, adns (05.11.00)
   Есть такой, характерный для организации "традиционного" UNIX'а, системный вызов под названием : struct hostent * gethostbyname(const char *name); Традиционен он тем,...   >>>>
Операционная система Unix (31.10.00)
   Unix получил очень широкое распространение в современном компьютерном мире. При этом, даже если большая часть домашних компьютеров работает под управлением операционной...   >>>>
Хронология полностью...
   Содержание
Заглавная страница
Мой блог
Мое резюме
Дайджест
Программирование
  C&C++
Сети
Unix
Алгоритмы
Оптимизация
Соревнования
Отвлеченно
XML
TeX
Туризм
  Байки
Фотографии
Комментарии
  Книги
Web-ресурсы
Фильмы
Интернет
Программное обеспечение
Жизнь
Студенческое
Просто так
Благодарности
Форум
Хронология
© 2000-2008, Andrey L. Kalinin
mailto:andrey@kalinin.ru
Rambler's Top100