Как работает поисковая система? 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Как работает поисковая система?



Основные составляющие поисковой системы: поисковый робот, индексатор, поисковик

Обычно системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста.

Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Большинство поисковых систем являются коммерческими предприятиями, которые получают прибыль за счёт рекламы, в некоторых поисковиках можно купить за отдельную плату первые места в выдаче для заданных ключевых слов. Те поисковые системы, которые не берут денег за порядок выдачи результатов, зарабатывают на контекстной рекламе, при этом рекламные сообщения соответствуют запросу пользователя. Такая реклама выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения.

Типы поисковых систем

Существует четыре типа поисковых систем: с поисковыми роботами, управляемые человеком, гибридные и мета-системы, системы использующие поисковых роботов

Поисковые системы классифицируются

I. По принципу работы

1. Поисковые машины (searchengines).

2. Поисковые каталоги (directories).

3. Метапоисковые машины.

4. Порталы.

5. Рейтинговые службы.

II. По охвату информационных ресурсов

1. Глобальные — всемирный охват материала, хотя упор делается на североамериканские ресурсы.

2. Локальные (региональные) — обеспечивают поиск по ограниченному сегменту Интернета: российский Интернет, ресурсы конкретного региона, области, города и т.п.

III. По тематике

1. Универсальные — ищут информацию по любой теме (могут быть как локальными, так и глобальными).

2. Специализированные — ищут информацию по определенному профилю или тематике (преимущественно локальные).

Современные поисковые системы имеют многоуровневую организацию, и в основе своей все они состоят из пяти программных компонентов:

· Spider (паук) — эта браузероподобная программа планомерно путешествует по Сети и скачивает все попавшиеся ей на пути Web-узлы (страницы по глобальным URL-ссылкам). По сути, Spider работает точно так же, как и любой Web-браузер, только ничего не визуализирует, а лишь считывает HTML-код;

· Crawler (сборщик, или путешествующий паук) — это порождаемый Spider’ом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Как и Spider, сборщик тоже скачивает страницы, но уже способен их анализировать в поисках перекрестных ссылок. Собственно, его основные задачи — сканирование Интернет-ресурсов в поисках изменений на страницах и определение того, куда он должен идти дальше, основываясь на найденных ссылках или исходя из заранее заданного списка адресов;

· Indexer (индексатор) — ключевая программа поисковой системы, которая анализирует Web-страницы, скачанные пауками, определяет их тематическую принадлежность, актуальность, популярность у пользователей и т.д. Индексатор разбирает страницу на части и анализирует такие ее элементы, как заголовки страниц, ссылки, тексты, структурные элементы, стилевые элементы и т.д. По окончании анализа он индексирует ресурсы, то есть строит базы данных по ключевым словам и сохраняет эти базы данных в удобном для поиска виде;

· Database (база данных) — хранилище скачанных и обработанных индексатором страниц. Такая база данных требует огромных ресурсов для хранения информации и нуждается в эффективных алгоритмах доступа;

· Gateway (шлюз) или Searchengine/Resultsengine (собственно поисковая машина) — принимает запросы от пользователей, анализирует их и извлекает результаты поиска из базы данных. Именно эта система решает, какие страницы удовлетворяют запросу пользователя, и предоставляет ему интерфейс для просмотра и уточнения этих результатов.

Поисковые сервера достаточно многочисленны и разнообразны. Принято различать поисковыеиндексы и каталоги.

Сервера-индексы работают следующим образом: регулярно прочитывают содержание большинства веб-страниц Сети ("индексируют" их), и помещают их полностью или частично в общую базу данных. Пользователи поискового сервера имеют возможность осуществлять полнотекстовый поиск по этой базе данных, используя ключевые слова, относящиеся к интересующей их теме. Выдача результатов поиска обычно состоит из выдержек рекомендуемых вниманию пользователя страниц и их адресов (URL), оформленных в виде гиперссылок. Работать с поисковыми серверами этого типа удобно, когда хорошо представляешь себе, что именно хочешь найти.

Каталоги выросли из списков интересных ссылок, закладок (bookmarks). По сути дела они представляют собой многоуровневую смысловую классификацию ссылок, построенную по принципу "от общего к частному". Иногда ссылки сопровождаются кратким описанием ресурса. Как правило, возможен поиск в названиях рубрик (категориях) и описаниях ресурсов по ключевым словам. Каталогами пользуются тогда, когда не вполне четко знают, что именно ищут. Переходя от самых общих категорий к более частным, можно определить, с каким именно ресурсом Сети следует ознакомиться. Поисковые каталоги уместно сравнивать с тематическими библиотечными каталогами, словарями-тезаурусами или биологическими классификациями животных и растений. Ведение поисковых каталогов частично автоматизировано, но до сих пор классификация ресурсов осуществляется главным образом вручную.

Поисковые каталоги бывают общего назначения и специализированные.

Поисковые каталоги общего назначения включают в себя ресурсы самого разного профиля. Специализированные каталоги объединяют только ресурсы, посвященные определенной тематике. Им часто удается достичь лучшего охвата ресурсов из своей области и построить более адекватную рубрикацию.

История поисковых служб начинается в середине 90-х годов. В 1994 году два аспиранта Стэндфордского Университета, Дэвид Фило и Джерри Янг, начали работу над созданием каталога Yahoo (http://www.yahoo.com/; англ. "yahoo" - "йеху" из "Путешествий Гулливера" Джонатана Свифта). Они преследовали простую цель: организовать собственные ссылки. Чтобы сделать это эффективным образом, им пришлось построить специальную систему с использованием базы данных. Она могла одновременно выдерживать обращения тысяч пользователей. И эти обращения не замедлили последовать.

В начале 1995 года Марк Андрессен, один из сооснователей корпорации NetscapeCommunications, предложил создателям уже завоевавшего огромную популярность Yahoo перенести систему с кампуса Стэндфордского Университета на сервера Netscape. Огромная нагрузка с университетской сети была снята, а Yahoo стал коммерческим проектом. Сегодня его создатели - мультимиллионеры; над ведением каталога трудятся тысячи специалистов в самых разных областях знания.

Один из первых индексирующих поисковых серверов, AltaVista (" вид с высоты ") корпорации Digital (теперь Compaq), появился в 1995 году. Нескольким служащим корпорации-производителя суперкомпьютеров пришла в голову мысль использовать новейшие сервера для считывания содержимого Всемирной Паутины в базу данных и осуществления поиска по ней. Сервер AltaVista, расположенный по адресу http://altavista.digital.com/, - один из крупнейших поисковых серверов сегодняшней Сети.

В последнее время поисковые каталоги общего назначения и индексирующие поисковые сервера интенсивно интегрируются. Yahooуже не только каталог, но и поисковый сервер. AltaVista, как и многие другие поисковые сервера, исходно предлагавшие исключительно поиск по базе данных, сегодня включает в выдачу результатов поискового запроса еще и список рубрик, соответствующих теме запроса. Поисковые технологии не стоят на месте. Традиционные индексирующие сервера искали в базе данных документы, содержащие ключевые слова из поискового запроса. При таком подходе очень сложно оценить значение и качество ресурса, выдаваемого пользователю. Альтернативный подход - искать такие веб-страницы, на которые ссылаются другие ресурсы по данной тематике. Чем больше ссылок на страницу существует в Сети - тем больше шансов, что вы ее найдете. Такой своеобразный мета-поиск осуществляет поисковый сервер Google (http://www.google.com/), появившийся совсем недавно, но уже отлично себя зарекомендовавший.

Кроме поисковых серверов, заносящих в свои базы веб-страницы по всей Сети, есть поисковые сервера, ориентированные более узко в географическом и языковом отношении. Так, существует много русских поисковых серверов. Их краткий список вы найдете в следующем разделе.

В мире существует огромное количество WWW серверов самого разного назначения. Без специальных средств ориентировка в этом гигантском объеме информации просто невозможна. Решают эту проблему поисковые серверы, которые хранят миллионы ссылок на разные темы и производят поиск нужных документов по запросу пользователя.

Для того чтобы облегчить поиск документов были созданы каталоги WEB-серверов и поисковые машины. В большинстве случаев каталог представляет собой тематические подборки ссылок на Web-ресурсы (медицина, политика, программирование и т. д.). Поисковые же машины позволяют попасть на страничку, текст которой содержит заданный набор слов. Каждая поисковая машина обладает своими специфическими возможностями, достоинствами и недостатками. Следует отметить, что наполнение сети Интернет русскоязычной информацией, хотя и происходит быстрыми темпами, все еще значительно отстает от уровня англоязычной информацией. Английский язык продолжает оставаться основным языком общения пользователей Интернет.

Познакомимся с возможностями некоторых поисковых серверов.

AltaVista - http://www.av.com

Это одна из первых наиболее мощных поисковых машин. Она имеет встроенный переводчик страниц с английского языка на французский, немецкий, итальянский, испанский и т. д. и обратно. Правда, на русский язык она переводить не умеет. Схема использования стандартна: в строке для ввода пишутся ключевые слова, а затем нажимается кнопка Search (поиск). Далее выдается список ссылок на страницы с краткой аннотацией.

Yahoo! - http://www.yahoo.com

Это не только поисковая машина, но и крупнейший классификатор ресурсов сети. Здесь выделено несколько разделов верхнего уровня: исскуство, бизнес, компьютеры, образование, развлечения, правительство и другие. Каждый из разделов помимо ссылок содержит подразделы, которые в свою очередь тоже содержат подразделы и т. д.

Искать интересующую информацию можно как с помощью строки запроса аналогично AltaVista, так и перемещаясь по разделам, но в последнем случае необходимо точно знать, к какой именно категории относится предмет поиска.

Благодаря тому, что классификация узлов выполняется людьми, а не компьютером, качество ссылок обычно очень высокое. Однако если заказанный пользователем поиск не увенчался успехом, то и уточнить его будет непросто, т.к. средств для этого у Yahoo! немного. Эти средства представлены в графической форме, в которой можно задать базовые логические операторы AND и OR; можно задать поиск по точному совпадению текста или по основам слов. В состав Yahoo! входит поисковый механизм AltaVista, поэтому в случае неудачи при поиске на Yahoo! автоматически происходит его повторение, но уже с использованием поискового механизма AltaVista. Затем полученные результаты передаются в Yahoo!. Если пользователь захочет выполнить свой запрос при помощи другого поискового механизма, ему следует щелкнуть мышью на необходимой связи с нужным поисковым механизмом в нижней части страницы с ответами.

При выполнении поиска с помощью Yahoo! сначала будет выведен на экран список категорий, к которым отнесен запрос пользователя, а затем перечень узлов Yahoo! и категории, которым эти узлы соответствуют. Запрос будет загружен в текстовое окно и выполнен в AltaVista, если ни одна из попыток в Yahoo! не принесла результатов.

Недостатком ограничения поиска категориями и заголовками узлов является то, что число полученных результатов существенно меньше, чем при использовании многих других поисковых узлов.

Rambler - http://www.rambler.ru

Этот поисковик был запущен в октябре 1996 года и сначала предназначался для выявления материалов на серверах в пределах бывшего СССР. К началу нового тысячелетия Rambler на время утратил лидирующие позиции, устарев практически по всем параметрам. Однако проведенная в декабре 2002 года коренная модернизация всей программно-аппаратной части позволила этой поисковой системе вновь обрести былой авторитет. По результатам тестов Rambler занимает второе место после Яндекса по величине базы данных — около 120 млн. страниц.

Помимо известной поисковой системы, сервер "Rambler" включает классификационный каталог "RamblerTop 1000", состоящий из категорий, которые охватывают все основные тематические направления российских Web-серверов.

В разделах списки серверов оформлены в виде таблицы. На одном экране выводится 20 ссылок. По умолчанию сортировка идет по текущей посещаемости серверов в каждой категории. Для каждого ресурса приводится дополнительная информация о числе посещений и динамике популярности сервера.

Таким образом, сервер помогает получить верное представление о популярности отечественныхWeb-серверов. Российская часть Интернет представлена здесь достаточно полно.

Яndex - http://www.yandex.ru

Запущенный в сентябре 1997 года, этот поисковик в настоящее время является одним из лидеров российского поискового сервиса. Занимает одно из ведущих мест среди русскоязычных(в Рунете) поисковых серверов. Активно и динамично развивается.

Стратегии, применяемые для поиска информации в Интернет, постоянно совершенствуются. Так Google (www.google.com), некоторое время назад считавшийся экспериментальной поисковой системой, сейчас пользуются пятнадцать миллионов человек ежемесячно. Поисковая система Google, запущенная в 1998 году, является ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам.

Секрет Google в удачном алгоритме отбора документов, отвечающих поисковому запросу. Предшественники Google пытались определить "ценность" документа только на основании анализа его текста: как часто и как близко к началу документа встречаются там слова из запроса, есть ли они в заголовке и т.д.

Создатели Google решили оценивать соответствие документа запросу с помощью специального числа, похожего по смыслу на индекс цитирования: чем больше ссылок на данный документ, тем это число, называемое PageRank, больше. Если же сервер не находит запрашиваемой комбинации в своем каталоге, то пользуется тематическим каталогом Yahoo. Результаты оказались столь хороши, что Google стал "народной" поисковой системой. Google постоянно совершенствует свой сервис: проиндексированы все документы в формате pdf, организован поиск картинок в Интернет (images.google.com).

Одним из недостатков Google можно считать отсутствие диалога с пользователем во время подбора документов. Этот недостаток стараются исправить конкуренты Google, классифицируя найденные документы. Так поисковая система Teoma (www.teoma.com) автоматически классифицирует найденные ссылки на документы. Результаты при выводе делятся на три части: собственно классификация, занимающая верхнюю часть окна, документы, лучше всего соответствующие запросу, размещаются слева, а справа выводятся документы, в которых много ссылок на страницы, стоящие слева.

Еще одним претендентом на роль заменителя Google является метапоисковая система Vivisimo(www.vivisimo.com), разработанная в университете Карнеги. Как и Google в прошлом, Vivisimo - экспериментальный некоммерческий проект. Основной особенностью этой системы является представление в виде дерева (иерархическая кластеризация) документов, найденных другими поисковыми системами, такими как Altavista и Fast (www.allthemes.com). В сущности Vivisimo даже не метапоисковая система, а приставка, способная кластеризовать любые данные. Алгоритм кластеризации Vivisimo присоединяется к любой поисковой системе. В окошке правее окна запросов можно вместо "SearchtheWeb" выбрать например "Альтависту". Vivisimo перехватит ссылки, выданные "Альтавистой", отсортирует их и разместит их на ветках дерева в левой части своего окна.

 

Апорт (http://www.aport.ru)

Эта поисковая система, запущенная в феврале 1996 года, сегодня замыкает группу лидеров отечественных поисковых сервисов. Объем ее индексного файла составляет примерно 70 млн. документов. Особенностью Апорта является то, что он не ограничивает своих роботов пределами доменов России и СНГ — в перечне результатов можно встретить ссылки на многие зарубежные серверы.

Апорт - одна из лучших русскоязычных поисковых систем. Имея те же основные черты, что и AltaVista, этот сервер содержит намного больше современных ресурсов российскогоInternet. Также Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии MicrosoftInternetExplorer.

Одним из существенных преимуществ Апорта является англо-русский и русско-английский перевод в режиме online запросов и поисков результата, благодаря чему можно вести поиск в русских ресурсах Internet, даже не зная русского языка. Более того, благодаря ряду уникальных особенностей системы, можно искать информацию, используя выражения, даже для предложений.

Среди основных свойств поисковой системы Апорт можно выделить следующие:

·    перевод запроса и результатов поиска с русского на английский язык и наоборот;

·    автоматическую проверку орфографических ошибок запроса;

· информативный вывод результатов поиска для найденных сайтов. В результат поиска включается несколько предложений, а не одно, как в большинстве систем;

 - возможность поиска в любой грамматической форме (что особенно важно для русского языка);

· мощный язык расширенных запросов для профессиональных пользователей.

К другим удобным свойствам поиска можно отнести поддержку пяти основных кодовых страниц (разных операционных систем) для русского языка, технологию поиска с использованием ограничений по URL и дате документов, реализацию поиска не только по тексту, но и по заголовкам, комментариям и подписям к картинкам и т. д., сохранение параметров поиска и определенного числа предыдущих запросов пользователя, объединение копий документа, находящихся на разных серверах.

Рынок поисковых систем

Google — самая популярная поисковая система в мире с долей на рынке 68,69 %. Baidu занимает вторую позицию, его доля 17,17 %.

 

 

Самые популярные поисковые системы в мире:

Поисковая система Доля рынка в июле 2014 Доля рынка в октябре 2014
Google 68,69 % 58.01 %
Baidu 17,17 % 29.06 %
Bing 6.22 % 8.01 %
Yahoo! 6.74 % 4.01 %
AOL 0,13 % 0.21 %
Excite 0.22 % 0,00 %
Ask 0,13 % 0,10 %

Приемы эффективного поиска

Простой поиск: поиск Web-ресурсов по одному или нескольким ключевым словам. Недостаток: слишком много документов.

Расширенный поиск: ключевые слова связывают между собой операторами логических отношений. Применяют тогда, когда приёмы простого поиска дают слишком много результатов.

Контекстный поиск — это поиск по точной фразе.

Специальный поиск применяют при розыске Web-страниц, содержащих ссылки на заданные адреса URL, а также содержащих заданные данные в служебных полях, например в поле заголовка.

Правила поиска в Яndex



Поделиться:


Последнее изменение этой страницы: 2020-10-24; просмотров: 273; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.222.162.216 (0.054 с.)