ЗАНЯТИЕ №4 «Поисковые системы» 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

ЗАНЯТИЕ №4 «Поисковые системы»



ЗАНЯТИЕ №4 «Поисковые системы»

Введение в поиск

Одним из основных способов найти информацию в Интернете являются поисковые системы. Материалы для размещения в Сети готовят живые люди, поэтому там можно найти только то, что опубликовано. Сегодня в Интернете около двух миллиардов страниц. В результате каталогизация имеющихся в Сети ресурсов стала серьёзной проблемой. Несмотря на то, что каталогизацией занимаются тысячи организаций, проблема не приближается к разрешению, а становится ещё острее. Пространство Web быстрее наполняется, чем систематизируется. Любая книга начинается с Содержания и заканчивается Алфавитным указателем. Содержание – это пример каталогизации. Читатель выбирает тему и находит страницу, где эта тема раскрывается. Алфавитный указатель – это пример индексации. Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается. В Интернете над каталогами работают люди, а указатели формируются автоматически. При каталогизации ресурса опытный редактор внимательно просматривает его, определяет, к какой области знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс в каталог. Самый крупный каталог Интернета – yahoo (www.yahoo.com). В нем работают более 150 квалифицированных редакторов.

Поисковые указатели

Поисковые указатели – это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного больше. Количество проиндексированных Web – страниц может измеряться сотнями миллионов. Работа поискового указателя происходит в три этапа, из который два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает всю информацию из World Wide Web и использует для этой цели специальные программы, аналогичные браузерам. Заданные страницы копируются на сервер поискового указателя, затем находятся все гиперссылки, которые на ней имеются, по указанным в них URL – адресам, и копируются найденные там ресурсы и т. д.

После копирования разысканных Web – ресурсов на сервер поисковой системы начинается второй этап работы - индексация. Индексированная база данных – это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы выдают ответы за доли секунды.

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Этими ссылками можно пользоваться для перехода к интересующим ресурсам. Например, достаточно ввести в поле поиска слово футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10 – 20 штук на отображаемой странице. Пользователю необходимо, чтобы в первом десятке шли ссылки, актуальные на данный момент, очень раздражает, если подряд идут ссылки на соседние файлы одного и того же сервера. Самый плохой вариант, когда подряд идут несколько ссылок, ведущих к одному и тому ресурсу, но находящемуся на разных серверах.

Все поисковые системы черпают исходную информацию из одного и того же Web – пространства, поэтому исходные базы данных у них могут быть относительно похожи, но на третьем этапе, при выдаче результатов поиска, проявляются её лучшие индивидуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web – странице, система присваивает какой – то рейтинг, который должен отражать качество материала. Высокие рейтинги получают страницы, у которых ключевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web - странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5 – 6 абзацев текста – они считаются самыми важными при индексации.

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Ещё одним признаком качества Web–страниц является тот факт, что на неё есть ссылки с каких – то других Web – страниц. Значит эта Web – страница популярна и обладает высоким показателем цитирования.

Необходимость в ранжировании результатов поиска очевидна. Без этого клиенты захлебнулись бы в потоке предлагаемых ссылок. Однако, есть и негативная сторона: у каждой поисковой системы своя политика ранжирования и не исключено, что взгляды создателей поисковой системы не вполне совпадают со взглядами клиента.

Прежде чем приступить к поиску, необходимо четко сформулировать цель поиска, а также попробовать подобрать всевозможные словоформы и другие варианты формулировки запроса. Это может в ряде случаев значительно ускорить поиск, а также даст гораздо больше вариантов, из которых уже можно будет выбрать наиболее подходящий. Кроме того, если Вы заранее знаете какой фирме, компании или организации принадлежит интересующий ресурс, можно попробовать зайти на официальную страницу этой фирмы. Обычно адреса крупных фирм созвучны их названиям, например www.pepsi.com, www.gaz.ru, www.motorola.ru.

Четыре вида поиска

Все поисковые указатели реализуют несколько алгоритмов поиска.

Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые характеризуют содержание документа. Приемы простого поиска в разных поисковых системах свои.

Расширенный поиск — всегда подразумевает запрос из группы слов, которые связываются логическими операторами. Основное достоинство расширенного поиска в том, что правила записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи.

Контекстный поиск — полезный вид поиска, который реализован не во всех поисковых указателях. При контекстном поиске требуется точное совпадение фразы или группы слов, и в большинстве поисковых систем, включающих этот метод, ключевая фраза заключается в кавычки.

Специальный поиск. С помощью команд этого вида поиска разыскивается дополнительная информация и в разных поисковых системах эти команды свои.

Похожие документы. Ссылка «Похожие документы» позволяет найти страницы, которые похожи на выбранную вами и могут отвечать на запрос столь же хорошо. Если страница-образец уже удалена с сайта, Яндекс выдаст сообщение: «Запрошенный(е) документ(ы) не найден(ы)». По умолчанию ссылка не показывается, включить ее отображением можно в настройках поиска. Вы также можете искать похожие документы в форме расширенного поиска.

Другие поисковые системы. Если ответ Яндекса на ваш запрос оказался недостаточно точным, попробуйте сформулировать запрос иначе, либо задайте его другим поисковым системам. Достаточно нажать на ссылку с именем поисковика, и в новом окне откроются его результаты поиска.

КОНТРОЛЬНЫЕ ВОПРОСЫ

1. Что представляет собой поисковый указатель?

2. Перечислите три этапа обработки запроса поисковым указателем.

3. Перечислите известные Вам поисковые указатели.

4. Перечислите и охарактеризуйте четыре вида поиска информации

5. Каковы приемы поиска в системе Yandex (поиск по одному слову, группе слов, цитаты, имени, исключение слов из поиска)?

6. Каковы приемы поиска в системе Yandex (результаты поиска, сортировка результатов, похожие документы, параллельные поиски, искать в найденном)?

7. Опишите поисковую систему Google.

8. Каковы приемы поиска в системе Google (традиционный поиск, поиск по каталогу, по группам новостей, изображений)?

9. Опишите несколько способов поиска в Yahoo. Как осуществляется расширенный поиск в Yahoo.

10. Как осуществляется простой запрос в поисковой системе Апорт?

11. Перечислите известные Вам логические операторы, используемые поисковой системой Апорт.

ЗАНЯТИЕ №4 «Поисковые системы»

Введение в поиск

Одним из основных способов найти информацию в Интернете являются поисковые системы. Материалы для размещения в Сети готовят живые люди, поэтому там можно найти только то, что опубликовано. Сегодня в Интернете около двух миллиардов страниц. В результате каталогизация имеющихся в Сети ресурсов стала серьёзной проблемой. Несмотря на то, что каталогизацией занимаются тысячи организаций, проблема не приближается к разрешению, а становится ещё острее. Пространство Web быстрее наполняется, чем систематизируется. Любая книга начинается с Содержания и заканчивается Алфавитным указателем. Содержание – это пример каталогизации. Читатель выбирает тему и находит страницу, где эта тема раскрывается. Алфавитный указатель – это пример индексации. Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается. В Интернете над каталогами работают люди, а указатели формируются автоматически. При каталогизации ресурса опытный редактор внимательно просматривает его, определяет, к какой области знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс в каталог. Самый крупный каталог Интернета – yahoo (www.yahoo.com). В нем работают более 150 квалифицированных редакторов.

Поисковые указатели

Поисковые указатели – это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного больше. Количество проиндексированных Web – страниц может измеряться сотнями миллионов. Работа поискового указателя происходит в три этапа, из который два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает всю информацию из World Wide Web и использует для этой цели специальные программы, аналогичные браузерам. Заданные страницы копируются на сервер поискового указателя, затем находятся все гиперссылки, которые на ней имеются, по указанным в них URL – адресам, и копируются найденные там ресурсы и т. д.

После копирования разысканных Web – ресурсов на сервер поисковой системы начинается второй этап работы - индексация. Индексированная база данных – это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы выдают ответы за доли секунды.

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Этими ссылками можно пользоваться для перехода к интересующим ресурсам. Например, достаточно ввести в поле поиска слово футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10 – 20 штук на отображаемой странице. Пользователю необходимо, чтобы в первом десятке шли ссылки, актуальные на данный момент, очень раздражает, если подряд идут ссылки на соседние файлы одного и того же сервера. Самый плохой вариант, когда подряд идут несколько ссылок, ведущих к одному и тому ресурсу, но находящемуся на разных серверах.

Все поисковые системы черпают исходную информацию из одного и того же Web – пространства, поэтому исходные базы данных у них могут быть относительно похожи, но на третьем этапе, при выдаче результатов поиска, проявляются её лучшие индивидуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web – странице, система присваивает какой – то рейтинг, который должен отражать качество материала. Высокие рейтинги получают страницы, у которых ключевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web - странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5 – 6 абзацев текста – они считаются самыми важными при индексации.

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Ещё одним признаком качества Web–страниц является тот факт, что на неё есть ссылки с каких – то других Web – страниц. Значит эта Web – страница популярна и обладает высоким показателем цитирования.

Необходимость в ранжировании результатов поиска очевидна. Без этого клиенты захлебнулись бы в потоке предлагаемых ссылок. Однако, есть и негативная сторона: у каждой поисковой системы своя политика ранжирования и не исключено, что взгляды создателей поисковой системы не вполне совпадают со взглядами клиента.

Прежде чем приступить к поиску, необходимо четко сформулировать цель поиска, а также попробовать подобрать всевозможные словоформы и другие варианты формулировки запроса. Это может в ряде случаев значительно ускорить поиск, а также даст гораздо больше вариантов, из которых уже можно будет выбрать наиболее подходящий. Кроме того, если Вы заранее знаете какой фирме, компании или организации принадлежит интересующий ресурс, можно попробовать зайти на официальную страницу этой фирмы. Обычно адреса крупных фирм созвучны их названиям, например www.pepsi.com, www.gaz.ru, www.motorola.ru.



Поделиться:


Последнее изменение этой страницы: 2020-10-24; просмотров: 130; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.128.190.102 (0.025 с.)