Программные поисковые сервисы 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Программные поисковые сервисы



 

Отправной точкой в поиске информации для пользователей интернета являются программные поисковые сервисы. Следует учитывать, что бесцельное перемещение по веб-страницам не поможет найти нужную информацию, поэтому поиск различных данных осуществляется с использованием информационно-поисковых систем (ИПС). ИПС представляет собой совокупность информационно-поискового языка, программных средств и правил перевода текстов на этот язык (индексирования), а также обеспечения поиска по заданным критериям.

Главной целью ИПС является формирование перечня веб-страниц, которые максимально удовлетворяют требованиям информационного запроса пользователя, т.е. релевантны ему. Релевантность — это характеристика степени соответствия смыслового содержания документа, найденного в результате поиска, содержанию информационного запроса.

Программные средства ИПС представляют собой комплекс программ, основные из которых перечислены ниже.

1. Spider («паук») — программа, основанная на просмотре HTML-кода веб-страниц. Найденные сайты и страницы загружаются в базу данных.

2. Crawler («путешествующий паук») — задача данной программы — поиск на веб-странице ссылки и осуществление перехода на нее, тем самым обнаруживая новые сайты и страницы.

3. Indexer (индексатор) — программа, анализирующая скачанные страницы на предмет их соответствия различным поисковым запросам.

4. Database (база данных) — программа, служащая для хранения найденных и загруженных поисковыми роботами страниц сайтов.

5. Система обработки запросов и выдачи результатов — программа, принимающая запрос пользователя, формирующая запрос к базе данных, получающая оттуда результат и передающая его пользователю.

Результаты поиска оформляются по определенному стандарту.

В качестве примера рассмотрим результат поиска фразы «введение в программирование» в поисковой системе «Яндекс». На рис. 2.54 показано расположение нижеперечисленных пунктов по итогам поиска:

1) заголовок найденной страницы;

2) отрывок из текста страницы, по которому видно, в каком контексте используются заданные для поиска слова, причем, как правило, они выделены жирным шрифтом или отличаются по цвету от основного текста;

3) адрес найденной страницы в интернете;

4) ссылка на копию страницы в базе поисковой машины. Если документ был изменен или сайт временно не работает, то сохраненная в базе поисковой машины копия позволит ознакомиться с найденным документом;

5) ссылка на добавочный поиск запрашиваемой информации на найденном сайте.

Рис. 2.54. Результат поиска по запросу «введение в программирование»

 

Критерии релевантности найденных страниц. Поисковые машины для ранжирования результатов поиска могут использовать более 200 факторов. Далее выделен ряд простых критериев, которые при определении порядка выдачи результатов учитывают большинство ИПС.

1. Присутствует ли запрошенное слово в заголовке документа?

2. Присутствует ли запрошенное слово в имени домена или в адресе страницы?

3. Как выделено слово на странице — жирным шрифтом или курсивом; используется ли оно в подзаголовках?

4. Насколько велика плотность запрашиваемого слова? Под плотностью понимается частота повторения запрашиваемого слова.

5. Имеется ли запрошенное слово в ссылках на другие ресурсы?

6. Есть ли в интернете ссылки на данную страницу? Каков текст ссылки?

Алгоритмы поиска каждой поисковой системы в целях получения результатов высокого качества постоянно претерпевают изменения и являются коммерческой тайной компании-разработчика.

О процессе индексирования документов, под которым понимается процесс выбора и присвоения документам, их частям, данным и (или) отдельным понятиям (терминам) индексов — лексических единиц информационно-поискового языка, можно прочитать в публикуемых пресс-релизах компаний.

Так, жизненный цикл запроса в крупнейшей поисковой системе Google выглядит следующим образом:

2. Веб-сервер отправляет запрос на серверы индексации. Содержимое серверов индексации соответствует содержанию в конце книги — в нем сообщается, на каких страницах представлены слова, соответствующие запросу.

3. Запрос отправляется на серверы, которые осуществляют поиск хранящихся документов. Для описания каждого результата поиска создаются фрагменты.

4. Всего доля секунды требуется для получения результатов поиска.

 

После индексации сайта в Google происходит ранжирование его авторитетности (PageRank), которое определяется количеством и качеством ссылок с других сайтов. То есть сайт, на который чаще всего ссылаются, наиболее авторитетен, а значит, он имеет высшую степень важности. Также на индексацию влияют релевантность страницы, ее внутренняя оптимизация, количество ее посетителей.

В итоге важные сайты появляются вверху страницы результатов поиска по определенному запросу.

 

Поисковая система «Яндекс» использует следующий механизм упорядочения запросов пользователя:

2. Поисковая система не обращается к каждому сайту в интернете, а ищет по базе известных ей страниц — поисковому индексу.

3. Там она находит все страницы со словами из запроса.

4. Далее происходит упорядочение результатов поиска в соответствии с запросом пользователя, которое называется ранжированием. Именно ранжирование определяет качество поиска, т.е. качество ответа на вопрос, заданный в поисковой строке. Как видно из рис. 2.55, по запросу пользователя найдены: сведения из интернет-энциклопедии «Википедия», информационная сеть «Аврора», авиакомпания «Аврора» и т.д.

Рис. 2.55. Результат ранжирования результатов поиска

5. Ссылки на эти страницы пользователь видит на страницах результатов поиска.

КОНТРОЛЬНЫЕ ВОПРОСЫ И ЗАДАНИЯ

1.    Что представляют собой информационно-поисковые системы? Какова их главная цель?

2.    Приведите понятие «релевантность».

3.    Перечислите и поясните назначение программных средств ИПС.

4.    Осуществите стандартный поисковый запрос в ИПС «Яндекс» на какую-нибудь тему. Какие пункты можно выделить по результатам поиска?

5.    Какие критерии учитывают большинство ИПС при определении порядка выдачи результатов?

6.    Что понимают под процессом индексирования документов?

7.    Поясните жизненный цикл запроса в поисковой системе Google.

8.    Чем определяется ранжирование авторитетности сайтов в поисковой системе Google?

9.    Какой механизм упорядочения запросов пользователя использует поисковая система «Яндекс»?

 



Поделиться:


Последнее изменение этой страницы: 2021-09-26; просмотров: 123; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.219.208.117 (0.009 с.)