Лабораторная работа 4. Поиск в Интернет с помощью русскоязычных и зарубежных ИПС 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Лабораторная работа 4. Поиск в Интернет с помощью русскоязычных и зарубежных ИПС



 

Информационно – поисковая система Yandex

Информационно – поисковая система (ИПС) Yandex начала работать в 1997 году. Одна из интерпретаций ее названия (а именно, Яndex) — "Языковой index". На сегодняшний день это — крупнейшая поисковая система русской части Internet – Рунет. По состоянию на конец 2008 г. количество проиндексированных этой ИПС документов составляло около 5 млрд.

Зайти на Yandex можно несколькими способами: по адресу www.yandex.com - для англоязычных пользователей, по адресу www.yandex.ru (рис.1) – для русскоязычных, завсегдатаи могут настроить ИПС Yandex по собственному вкусу по адресу http: //my.yandex.ru.

 

 

Рис.1. Начальная страница ИПС Yandex.

 

Хотя каталог Yandex весьма удобен и содержит множество ссылок на русскоязычные сайты, не менее сильная сторона этого поисковика — его язык запросов, позволяющий пользователю весьма конкретно объяснить, что именно он ищет. Если пользователь не искушен в составлении сложных запросов, он может задавать ИПС Yandex вопросы на естественном языке, используя расширенный поиск. Например, можно ввести в поле Я ищу: слова список вузов с военными кафедрами, и Yandex прекрасно поймет пользователя, потому что проводит морфологический поиск с учетом падежей существительных и спряжений глаголов (напомним, что Google морфологический поиск не выполняет).

Непосредственно под полем ввода ключевых слов расположен переключатель, позволяющий указать направление поиска. Можно искать информацию Везде (на других поисковиках аналогичная кнопка обычно называется В Internet), в рубриках Новости сайтов, среди предлагаемых к продаже товаров Маркет, в словарях и энциклопедиях (Словари), Yandex может также найти изображения и рисунки (Картинки).

Yandex, как и всякая солидная ИПС, позволяет проводить сложный (здесь он называется строгим ) поиск.

Независимо от того, в какой форме было использовано слово в запросе, при поиске учитываются все его формы по правилам русского языка. Например, если был сформулирован запрос идти, то в результате поиска будут найдены ссылки на документы, содержащие слова идти, идет, шел, шла и т.д.

Если слово в запросе было набрано с большой буквы, будут найдены только слова с большой буквы (если это слово не первое в предложении), в противном случае будут найдены как слова с большой, так и с маленькой буквы. Например, по запросу путина найдется и Путин, и сезон интенсивного рыболовства. А по запросу Путина — Путин и те случаи упоминания рыболовного сезона, когда соответствующий термин написан с большой буквы (например, если с него начинается предложение).

По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возможность поиска по точной словоформе, для этого перед словоформой надо поставить восклицательный знак (‘!’). Так, по запросу!Лужкову будут найдены все документы, содержащие словоформу «Лужкову», а по запросу Лужков -!Лужкову — документы, в которых упоминается Лужков, кроме тех, которые были найдены по первому запросу.

Операторы, которые можно использовать при сложном поиске на Yandex, представлены в таблице 1.

 

Таблица 1. Логические операторы, используемые ИПС Yandex

 

Синтаксис Что означает оператор Пример запроса
Пробел либо & Логическое И (в пределах предложения) зеленаякарета — будут найдены документы, в которых слова "зеленая" и "карета" встречаются в одном предложении
&& Логическое И (в пределах документа) коктейли && (кровавая Мэри) — будут найдены документы, в которых встречаются словосочетания "коктейли" и "кровавая Мэри"
| Логическое ИЛИ план | абрис | кроки | карта — будут найдены документы, содержащие хотя бы одно из перечисленных в запросе слов
+ Обязательное наличие слова в найденном документе (работает также в применении к стоп - словам) быть +или +не быть — могут быть найдены документы с гамлетовским вопросом
() Группирование слов (технология | изготовление) (сыра | творога) — будут найдены документы, касающиеся технологии изготовления сыра и творога
~ Бинарный оператор И НЕ (в пределах предложения) модем ~ внутренний — будут найдены документы, содержащие информацию о внешних, кабельных и других модемах, но не о внутренних
~~ либо знак "минус" Бинарный оператор И НЕ (в пределах документа) путеводитель по Парижу ~~ (агентство | тур) — интересует именно путеводитель по Парижу
/(n m) Указывает допустимое расстояние между ключевыми словами, измеряемое в словах (-назад +вперед) музыкальное /(-2 4) образование — будут найдены документы, в которых слово "музыкальное" находится по отношению к слову "образование" в интервале расстояний от 2 слов слева до 4 слов справа
"фраза" Поиск фразы "зеленая карета" (эквивалентно запросу зеленая / + 1 карета)
&&/(n m) Указывает допустимое расстояние между ключевыми словами, измеряемое в предложениях (-назад +вперед) банк && /1 налоги — будут найдены документы, в которых слово "налоги" находится в том же самом либо в соседнем со словом "банк" предложении

 

Префиксы, используемые ИПС Yandex и представленные в таблице 2, позволяют проводить поиск не в тексте, а в различных элементах Web-страниц — их заголовках, ссылках, описаниях и т.п.

 

Таблица 2. Префиксы, используемые ИПС Yandex

 

Синтаксис Что означает оператор Пример запроса
$title (выражение) Поиск в заголовке $title (CompTek) —будут найдены документы, в заголовке которых присутствует аббревиатура CompTek
$anchor (выражение) Поиск в тексте ссылок $anchor (CompTek | Dialogic) — будут найдены страницы, в ссылках которых фигурирует аббревиатура CompTek или слово Dialogic
#кеуwords = (выражение) Поиск в ключевых словах #keywords=(поисковая система) —будут найдены страницы, в ключевых словах дескриптора <meta> которых присутствует словосочетание "поисковая система"
#аbstract = (выражение) Поиск в описании #abstract=(искалка | поиск)— будут найдены страницы, в описании которых присутствует слово "искалка" или "поиск"
#image = "значение" Поиск файла изображения #image="tort*"
#hint = (выражение) Поиск в подписях к изображениям #hint=(lenin | ленин)
#url = "значение" Поиск на заданном сайте (странице) #url="www.comptek.ru*"
#link = "значение" Поиск ссылок на заданный URL #link="www.yandex,ru*"
#mime = "значение" Поиск в документах данного (pdf или rtf) типа #mime="pdf"

 

В результатах поиска поисковая машина приводит довольно много сопутствующей информации. Yandex позволяет вам выбирать, какую именно информацию о найденном документе или сайте вы хотели бы увидеть в результатах поиска. Настройку достаточно провести один раз, при последующих обращениях к поисковику он будет руководствоваться ими, а не предлагаемыми по умолчанию. Однако, это справедливо только в том случае, если вы не отключили в своем браузере поддержку файлов cookies. Если вы не отключили на своем компьютере поддержку сценариев JavaScript, можно также запретить вывод в результатах поиска ссылок на сайты с порнографией и ненормативной лексикой. Это обеспечивает предлагаемый поисковиком сервис "Семейный Yandex".

ИПС Rambler

Разработка ИПС Rambler началась в 1991 году, однако ее полноценная эксплуатация началась только пять лет спустя. Эта ИПС относится к немногочисленному разряду универсальных. Она объединяет в себе поисковую машину, рейтинг, каталог, а также предоставляет целый ряд сервисов — бесплатная почта, чат, словари и т.д. Кроме того, она сообщает последние новости и позволяет прослушивать через Internet программы радиостанций. По сути, это — мощный портал. Ежедневно Rambler обрабатывает свыше 600 тыс. запросов. В его базе данных содержится информация о 12 млн документов, ежедневно несколько одновременно работающих программ-роботов сканируют 48 тыс. сайтов.

Начальная страница ИПС Rambler представлена на рис. 2.

 

 

Рис.2. Начальная страница ИПС Rambler.

 

Поскольку Rambler — это еще и пользующийся высоким авторитетом рейтинг, при поиске в его каталоге вы получите о том или ином включенном в него сайте много статистической информации.

При сложном поиске опускаются стоп - слова, предлоги, артикли и т.п. Большие и ма­ленькие буквы, как правило, не различаются. Но если запрос состоит из двух, трех или че­тырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному. Тогда поисковая машина автоматически изменяет ограничение на расстояние между словами запроса со значения по умолчанию (40) на малую величину, значение которой пропорционально количеству слов запроса. Это позволяет находить группу слов, внутри которой присутствует не более одного "лишнего" слова или знака препинания, например: "Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский".

 

Таблица 1. Логические операторы, используемые ИПС Rambler

 

Синтаксис Что означает оператор Пример запроса
Пробел, либо &, либо AND Логическое И (в пределах фрагмента текста, по умолчанию состоящего из 40 слов) зеленая карета — будут найдены документы, В которых слова "зеленая" и "карета" встречаются в пределах фрагмента, состоящего не более чем из 40 слов
| либо OR Логическое ИЛИ план | абрис | кроки | карта — будут найдены документы, содержащие хотя бы одно из перечисленных в запросе слов
() Группирование слов (технология | изготовление) (сыра | творога) — будут найдены документы, касающиеся технологии изготовления сыра и творога
! Бинарный оператор И НЕ модем! внутренний — будут найдены документы, содержащие информацию о внешних, кабельных и других модемах, но не о внутренних
(n, выражение) Оператор контекстной близости NEAR; разница в порядковых номерах слов должна быть меньше указанного n (2, поставщики кофе) — между словами "кофе" и "поставщики" не должно быть ни одного другого слова; разница в порядковых номерах равна 1, что меньше 2
"фраза" Поиск фразы "зеленая карета" — эквивалентно (2, зеленая карета)

 

Если запрос состоит из нескольких слов и при этом некоторые из них вообще не удалось найти в Internet, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Internet слова исключены. При этом на странице результатов поиска выдается соответствующая диагностика.

Как видим, язык запросов Rambler не отличается обширным "словарным запасом". Но зато эта ИПС позволяет проводить расширенный поиск, благодаря чему даже неискушенные пользователи могут значительно сужать круг поиска, а значит повышать его релевантность.

ИПС Апорт

Как и другие русскоязычные поисковики, Апорт проводит поиск независимо от того, в какой грамматической форме слово было указано в запросе. Разработчики системы, однако, отмечают, что для редких слов, неологизмов и т.п. морфологический поиск не работает. В этом случае может пригодиться символ - заменитель ‘*’ (звездочка).

 

Таблица 1. Логические операторы, используемые ИПС Апорт

 

Синтаксис Что означает оператор Пример запроса
И, AND, &, + Оператор логическое И; подразумевается по умолчанию Запрос быстрый поиск полностью эквивалентен запросу быстрый AND поиск. По любому из этих запросов будут найдены документы, содержащие оба слова
ИЛИ, OR, | Оператор логическое ИЛИ. Позволяет искать документы, содержащие хотя бы один из операндов быстрый ИЛИ поиск — будут найдены документы, содержащие любое из указанных слов или оба слова одновременно
НЕ, NOT, - Оператор логическое НЕ. Ограничивает поиск документами, не содержащими слово, указанное после оператора Фрукты НЕ яблоки — будут найдены документы, содержащие слово "фрукты", но не содержащие слово "яблоки"
() Круглые скобки Круглые скобки задают порядок действия логических операторов. По запросу быстрый ИЛИ качественный поискбудут выданы документы, содержащие либо слово "быстрый', либо одновременно слова "качественный' и "поиск" (оператор и действует первым). По запросу (быстрый ИЛИ качественный) поискбудут выданы документы, где встречаются одновременно слова "быстрый" и "поиск", либо "качественный' и "поиск"
"…" либо '…' Двойные или одинарные кавычки позволяют находить словосочетание, указанное в них или близкое к нему. Последняя оговорка связана с двумя обстоятельствами: 1) стоп - слова в кавычках игнорируются, как и в обычном запросе; 2) грамматическая форма слов кавычками не фиксируется "яблоки на снегу" — будут найдены документы, содержащие следующие фрагменты: "яблоки на снегу", "яблоки и снег", "яблокам под снегом", "яблоко снег" и т.п.
сл2(…) либо [2,…] либо с2(…) либо w2(…) Ограничение расстояния в словах (двойка указана как пример) сл5(папа мама сын) —будут найдены документы, где между словами "папа", "мама" и "сын" стоит не более двух других слов (т.е. общее число слов во фрагменте не более 5). Порядок, в котором встречаются заданные слова, не важен
дата= либо дата: либо date= либо date: Ограничение поиска документами, попадающими в заданный интервал дат папа дата=01/01/97-01/02/97 —будут выданы все документы, содержащие слово папа и имеющие дату от 1 января 1997 года до 1 февраля 1997 года. date=01/01/97 пaпa — будут выданы все документы, содержащие слово "папа" и имеющие дату 1 января 1997 года. дата:<01/02/97 папа ИЛИдата: -01/02/97 папа — будут выданы все документы, содержащие слово "папа" и имеющие дату не позже 1 февраля 1997 года
url= либо url: Ограничение поиска или одним, или несколькими серверами, или даже частью сервера url= www.intel.ru — будут выданы (в случайном порядке) все документы, проиндексированные Апортом на сервере www.intel.ru. url=www.intel.ru & IPI & условия — будут выданы все документы сервера www.intel.ru, содержащие слова "IPI" и "условия". url=www.intel.ru/IPINet/* — будут выданы все документы, проиндексированные Апортом на сервере www.intel.ru в каталоге IPINet и его подкаталогах. url = *.agama.com — будут выданы все документы, проиндексированные Апортом на серверах www.agama.com, russia.agama.com и т.д. Подобные запросы могут обрабатываться довольно долго. Не рекомендуется делать запрос типа *.ru, так как результаты, содержащие несколько миллионов документов, все равно никто не станет просматривать
title= либо t= либо заг= либо з= Указанное после равенства слово или конструкция в круглых скобках должны искаться в заголовках документов (перед круглыми скобками знак равенства можно опускать) заг=(папа ИЛИ мама) — будут найдены документы, содержащие в заголовке слово папа или слово мама, или оба слова одновременно
keywords= либо kw= либо клсл= либо кл= Указанное после равенства слово или конструкция в круглых скобках должны искаться в поле meta keywords документов (перед круглыми скобками знак равенства можно опускать) kw(nana и мама) — будут найдены документы, для которых автор в ключевых словах указал оба слова: "папа" и "мама"
alt= либо а= либо рис= либо р= Указанное после равенства слово или конструкция в круглых скобках должны, искаться в полях ALT (комментарии к изображениям) рис (Билл Гейтс) — будут найдены документы, в которых есть изображение с комментарием, содержащим как минимум два слова: "Билл" и "Гейтс"
anchor= Указанное после равенства слово или конструкция в круглых скобках должны искаться в тексте ссылок anchor=(ненавижу Интернет) — будут найдены документы, в тексте ссылок на которые встречаются оба слова: "ненавидеть" и "Интернет"
description= Указанное после равенства слово или конструкция в круглых скобках должны искаться в тексте описаний сайтов и в поле meta description документов description=("уксусная кислота") — будут найдены корневые документы сайтов, в тексте описаний которых встречается словосочетание "уксусная кислота", а также документы, в которых это словосочетание встречается в поле meta description
text= либо х= либо текст= либо т= Указанное после равенства слово или конструкция в круглых скобках должны искаться только в обычном тексте. По умолчанию слова запроса ищутся как в тексте, так и во всех указанных выше полях. Чтобы искать только по тексту, выдаваемому в основное окно браузера, следует использовать данный оператор текст=(оплавление ИЛИ содержание) — будут найдены документы, в которых любое из указанных слов встречается в пределах основного текста документа

 

Следует отметить, что по богатству предоставляемых сервисов ИПС Апорт не уступает порталам и может стать той страницей, с которой пользователь начинает и на которой заканчивает работу в Internet.

Зарубежные ИПС

AllTheWeb

В середине 2003 г. ИПС AllTheWeb (www.alltheweb.com) занимала второе место после Google по количеству проиндексированных страниц, хотя по популярности этот поисковик уступает популярности англоязычных поисковых систем Yahoo и AltaVista. Возможности AllTheWeb по проведению расширенного поиска весьма впечатляющи и сопоставимы с таковыми в Google.

Операторы ИПС AllTheWeb

 

Синтаксис Что означает оператор
“ ” Поиск точной фразы
() Логическое ИЛИ
+ Обязательное наличие слова, эквивалентно применению оператора AND между словами (подразумевается по умолчанию)
- Исключение из результатов поиска документов с данным словом (логическое И НЕ)
and Логическое И
or Логическое ИЛИ
andnot Логическое И НЕ
rank Оператор ранжирования, например, результаты поиска белый rank пароход будут содержать слово «белый» и предпочтительно слово «пароход»
слово site:^домен Поиск документов с указанным словом на страницах заданного домена или сайта
“текст” site:домен* Поиск текста в указанном домене
url: слово Поиск страниц, в адресе которых содержится указанное слово
link:ссылка Поиск страниц, содержащих указанную ссылку
title:слово Поиск страниц, в заголовке которых содержится указанное слово
слово language:яз Поиск страниц, содержащих указанное слово и написанных на указанном языке
слово filesize:<1024 Поиск страниц, содержащих указанное слово и имеющих объем менее 1 кБ
слово filesize:[1024;2048] Поиск страниц, содержащих указанное слово и имеющих объем от 1 до 2 кБ
слово filetype:pdf Поиск файлов формата PDF, содержащих указанное слово
слово filetype:msword Поиск документов MS Word, содержащих указанное слово
слово filetype:flash Поиск flash – файлов, содержащих указанное слово

 

Yahoo!

Это — один из самых посещаемых поисковых Web-узлов не только в США, но и в других странах. В начале 2000-х годов, когда Google еще только "набирала обороты", это был вообще самый популярный поисковый каталог.

Сильная сторона Yahoo! (www.yahoo.com) — именно подробнейший каталог, максимально учитывающий вкусы и привычки жителей США. Но это — еще и мощный портал, предоставляющий множество сервисов. Вы можете с его помощью получить информацию о фирмах, товарах и Internet-магазинах, совершить разнообразные покупки, получить бесплатный почтовый ящик и бесплатно же разместить в Сети свой фотоальбом. Вы также можете завести адресную книгу и деловой календарь, который автоматически напомнит вам о важных встречах и делах, послав SMS-сообщение на мобильный телефон или письмо по электронной почте. Вы можете хранить на Yahoo! свой "портфель" документов и осуществлять мгновенный обмен сообщениями с помощью Internet-пейджера Yahoo! Messenger. Но поскольку тема лабораторной работы — поиск информации в Internet, далее мы будем говорить именно об этом.

Как уже говорилось, Yahoo! — это, прежде всего, подробнейший поисковый каталог. Поначалу поисковая машина Yahoo! обладала весьма скромными возможностями. Но, учитывая растущий интерес пользователей именно к этому способу поиска, разработчики Yahoo! снабдили свою ИПС мощной поисковой машиной, упростили и сделали максимально удобным ее интерфейс.

Возможности расширенного поиска в Yahoo довольно ограничены.

 

Операторы ИПС Yahoo

Синтаксис Что означает оператор
“ ” Поиск точной фразы
() Логическое ИЛИ
+ Обязательное наличие слова, эквивалентно применению оператора AND между словами (подразумевается по умолчанию)
- Исключение из результатов поиска документов с данным словом (логическое И НЕ)
t:слово Поиск документов, в заголовке которых встречается указанное слово
u:слово Поиск документов, в URL которых встречается указанное слово

 

Другие зарубежные ИПС

В Интернете насчитывается несколько тысяч зарубежных поисковых систем. Перечислим только несколько наиболее известных из них:

· AltaWista - www.altawista.com;

· Lycos – www.lycos.ru;

· HotBot – www.hotbot.com;

· Excite – www.excite.com.

 

Задание для самостоятельного выполнения

3. Самостоятельно выберите собственную тему из области дизайна и, используя различные синтаксисы и их комбинации, создайте расширенные запросы и осуществите поиск интересующей вас информации с различных отечественных и зарубежных ИПС.

4. В отчете по лабораторной работе приведите форматы использованных вами сложных запросов, а также сравните результаты поиска по этим запросам в различных ИПС. Какой из отечественных и зарубежных ИПС вы отдаете предпочтение и почему?

 

Литература

[1] Гусев, В.С. Поиск в Internet. Самоучитель. – М.: Издательский дом «Вильямс», 2004. – 336 с.: ил.

[2] Орлов, А.А. Полная энциклопедия Интернета / А.А. Орлов, Н.В. Богданов – Котьков,
А.А. Гор. – М.: АСТ; СПб.: Сова; Владимир: ВКТ, 2008. – 896 с.: ил.

[3] Экслер, А. Самый полный и понятный самоучитель работы в Сети, или Укрощение Интернета / А.Б.Экслер. – М.: НТ Пресс, 2007. – 944 с.: ил.



Поделиться:


Последнее изменение этой страницы: 2017-02-10; просмотров: 501; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.129.211.87 (0.044 с.)