Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Общий обзор поисковых систем сети ИнтернетСодержание книги
Поиск на нашем сайте
I Теоретическая часть 1.1. Поисковые системы сети Интернет За последние годы Всемирная паутина стала настолько популярной, что сейчас Интернет является одним из основных средств публикации информации. Когда размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части структуры гипертекстовых ссылок больше не представляется возможной, не говоря уже об эффективном методе исследования ресурсов. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы. Поисковые системы выводят на экран ту информацию, в которой содержатся ключевые слова запроса. Язык запросов - это специальный набор команд, которые позволяют конкретизировать вводимое поисковой системе ключевое слово с применением простых логических методов обобщения. Уровень сервисных услуг, которые предоставляет поисковая система, обычно оценивается по двум критериям: первый – размер базы данных поисковой машины (т.к., чем больше база данных, тем большее сайтов известно данному поисковику, а значит, сам поиск точнее) и информативность выдаваемых результатов. Пользователь сети вводит запрос в строчку поиска, стартует поиск, после он получает список ссылок, соответствующих запросу. Самые популярные в России поисковые системы – Yandex, Rambler, Aport, Mail.ru, Google: Рис.1. Поисковая система Yandex. Рис. 2. Поисковая система Google. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; третьи проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.
Агенты – самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма. Пауки скачивают Веб-страницы и работает также, как браузер при соединении с Веб-сайтом. Кроулеры просматривают заголовки и возвращают только первую ссылку. Его задача – определить, куда дальше должен идти паук. Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Все Агенты извлекают и индексируют различные виды информации. На сегодняшний день самой популярной русскоязычной поисковой системой является Яндекс – 54% всех поисковых запросов: Таблица 1. Рейтинг основных Российских поисковых систем (2020 г.) Название поисковой системы Число запросов, миллионов. Доля, процентов Яндекс 11,375 53,7 3,932 18,6 Rambler 2,939 13,9 Mail.ru 1,863 8,8 Другие 0,39 Рассмотрим специфику работы поисковых систем. 1.2. Принцип работы поисковых систем Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Первый этап. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеют те ресурсы, найденные там, снова разыскать имеющиеся в них гиперссылки. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами (см. выше). Второй этап. После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы – индексация.
В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Т.е. это своего рода словарь. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами. Третий этап. На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в интерфейсе списка гиперссылок. Допустим, вы хотите узнать, где в Интернете имеются Web-страницы, на которых упоминается известный рэпер, исполнитель своих песен Тимати (Тимур Юнусов). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в интерфейсе гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам. Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, «футбол», и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице. Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе? Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. Все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) черты. Операция сортировки полученных результатов называется ранжированием. Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста – они считаются самыми важными при индексации. *** Подводя итоги вышесказанному, стоит отметить следующее: Сегодня в мире работает несколько сотен разнообразных поисковых машин, отличающихся специализацией, возможностями и методиками поиска. За последние годы поисковые системы значительно улучшили алгоритмы своей работы. Но до их совершенства ещё очень далеко. Задача действительно очень сложная: найти среди миллионов сайтов те, где информация наиболее релевантна запросу. При этом поисковые системы должны как можно лучше оберегать свои разработки по усовершенствованию поиска. Наиболее популярными поисковыми машинами в России на сегодняшний день считаются Google, Yandex, и Mail.ru.
|
||||||
Последнее изменение этой страницы: 2024-06-17; просмотров: 8; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.118.252.215 (0.008 с.) |