Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Тема 7 Информационные ресурсы (интернет - технологии) Правила и особенности информационного поиска в Интернете

Поиск

Интернет – это огромная свалка информации. Тут есть все, ну или почти все. Именно поэтому очень важно знать ответ на вопрос – как искать информацию в интернете и делать это наиболее эффективно. Ведь если вы умеете искать информацию, то без труда отыщите именно то, что вам нужно.

В глобальной сети Интернет можно найти информацию по любой интересующей теме. Но самое трудное в работе с сетью Интернет – найти нужную информацию. Т.к. Интернет не имеет четкой централизованной структуры, развивается хаотично, и в мире появляются все новые и новые серверы, вопросы поиска информации становятся очень актуальными.

Поисковые системы значительно облегчают работу в Интернет и помогают нам быстро найти нужную информацию в огромном массиве серверов Интернет. Во всемирной паутине Интернет находится несколько тысяч поисковых систем, среди которых есть как уже хорошо зарекомендовавшие себя, так и менее известные.

Рис. 2 Способы поиска информации в гипертекстовых базах данных

Для поиска информации в обычно используются три способа (см. рис.2).

Первый из них - поиск по адресу. Он применяется, когда пользователю известен адрес информационного ресурса, содержащего необходимую ему информацию. При организации поиска информации по адресу (форма адреса - IP, доменный или URL - в этом случае значения не имеет) пользователю

достаточно просто ввести адрес ресурса в соответствующее поле браузера – программы, предназначенной для обеспечения доступа к сетевым ресурсам.

Второй – поиск с помощью навигации по гиперсвязям. При использовании этого вида поиска пользователь сначала должен получить доступ к серверу, связанному с соответствующей БД. После этого можно найти документ, используя гиперссылки. Очевидно, что этот способ удобен, когда адрес ресурса неизвестен пользователю. Для использования в качестве исходной точки для поиска при реализации этого способа предназначены Web-порталы - серверы, предоставляющие прямой доступ к некоторому множеству серверов, включая установленные на них информационные ресурсы, а также Web-приложения, которые реализуют Web-сервисы, соответствующие назначению портала. Доступные через портал серверы могут относиться к определенной системе (например - корпоративной) или различным системам и быть специально подобраны по видовому, тематическому или другим признакам документов и данных, содержащихся на их сайтах. Обычно порталы совмещают в себе разнообразные функции с целью удержать клиента как можно дольше. Доминирующим сервисом портала является сервис справочной службы: поиск, рубрикаторы, финансовые индексы, информация о погоде и т.д. Если Web-сайты в большинстве случаев представляют собой наборы статических Web-страниц, то порталы являются совокупностями программных средств и заранее неструктурированной информации, которую эти средства превращают в структурированные данные по запросу конкретных пользователей.

Третий способ поиска предполагает использование поисковых серверов Интернета. Поисковыми серверами называют выделенные хост - компьютеры, в которых размещаются базы данных ресурсов Интернета. Пользовательский интерфейс такого сервера имеет поле для ввода ключевых слов, описывающих тему, интересующую пользователя. Эти слова сервер воспринимает как информационный запрос, в соответствии с которым он осуществляет поиск ресурсов и представляет список найденных документов пользователю. Очевидно, что при реализации этого способа возможны ошибки как 1-го (пропуск цели), так и 2-го рода (информационный шум).

Различаются две группы поисковых серверов: поисковые машины и предметные каталоги. Они отличаются способом создания и последующего пополнения базы данных, которой данный сервер осуществляет. Так, поисковые машины имеют в своем составе специальную программу - поисковый робот. Она осуществляет постоянный мониторинг сети, собирает информацию с Web-страниц, индексирует их и фиксирует их поисковый образ в своей базе данных. В предметных каталогах база данных о документах Интернета формируется «вручную» специалистами-редакторами. Поскольку в Интернете отсутствует единое администрирование, постольку его ресурсы постоянно меняются. В нём могут появляться новые и исчезать существующие документы. Частота обновления информации в документах для разных сайтов различна. Поэтому очень важно понимать, что при использовании информационно-поисковых систем для нахождения информации в Интернете, поиск осуществляется не на реальном пространстве документов Сети, а в некоторой модели, содержание которой может значительно отличаться от действительного содержания Интернет в момент проведения поиска. По степени охвата индексируемых ресурсов поисковые системы можно разделить на две группы: международные и русскоязычные. Первые индексируют все опубликованные в Интернете документы подряд. Вторые индексируют ресурсы, расположенные в доменных зонах с преобладанием русского языка. Список наиболее популярных систем приведен в таблице 6.

 

Таблица 6 Наиболее популярные поисковые системы

 

Международные Русскоязычные
Google Яндекс (44,4 % Рунета)
Yahoo! Rambler (10,6 % Рунета)
Bing Mail.ru (7,3 % Рунета)
MSN Nigma (0,5 % Рунета)
AltaVista Gogo.ru (0,3 % Рунета)
Ask Aport (0,2 % Рунета)

 

Необходимо упомянуть, что существует особая категория поисковых серверов – метапоисковые системы. Их принципиальное отличие от поисковых машин и предметных каталогов состоит в том, что у них отсутствует собственная индексная база данных, и поэтому они, получив запрос пользователя, перенаправляют к нескольким поисковым серверам (см. рис. 3).

 

 

Поисковая система 1

 

 
Информационная потребность   Запрос метапоис ковой системы   Поисковая система 1   Правила ранжирования метапоиска

 

 

Поисковая система 1   Результат

 

 

 

 

 

             

 

Рис. 3 Схема работы метапоисковой системы

 

Возможность одновременного использования нескольких поисковых серверов по одному запросу является очевидным преимуществом метапоисковых систем. В настоящее время широкое применение время нашла система Metabot.ru, интерфейс. Эта система позволяет использовать для поиска ресурсов как международные, так и русскоязычные поисковые серверы.[19].

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.

В общем случае поиск информации состоит из четырех этапов:

· определение (уточнение) информационной потребности и формулировка информационного запроса;

· определение совокупности возможных держателей информационных массивов (источников);

· извлечение информации из выявленных информационных массивов;

· ознакомление с полученной информацией и оценка результатов поиска.

Виды поиска

Полнотекстовый поиск – поиск по всему содержимому документа. Пример полнотекстового поиска – любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

Поиск по метаданным – это поиск по неким атрибутам документа, поддерживаемым системой – название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам – диалог поиска в файловой системе (например, MS Windows).

Поиск изображений  – поиск по содержанию изображения. Поисковая система распознает содержание фотографии. В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.

 Методы поиска информации

Адресный поиск. Процесс поиска документов по чисто формальным признакам, указанным в запросе. Для осуществления нужны следующие условия:

 - наличие у документа точного адреса

 - обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

Адресами документов могут выступать адреса веб-серверов и веб- страниц и элементы библиографической записи, и адреса хранения документов в хранилище.

Семантический поиск. Процесс поиска документов по их содержанию. Условия:

- составление поискового описания, в котором указывается дополнительное условие поиска.

- перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске - с точки зрения содержания.

При семантическом поиске находится множество документов без указания адресов.

В этом принципиальное отличие каталогов и карточек.

Библиотека – собрание библиографических записей без указания адресов.

Документальный поиск. Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

Два вида документального поиска библиотечный и библиографический.

Библиотечный, направленный на нахождение первичных документов.

Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

Фактографический поиск

Процесс поиска фактов, соответствующих информационному запросу. К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.Различают два вида поисков.

Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.

Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

Запрос и объект запроса

Говоря о системах ИП (информационного поиска), употребляют термины - запроси объект запроса.

Запрос – это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.

Объект запроса – это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо нее хранится суррогат.



Поделиться:


Последнее изменение этой страницы: 2020-12-17; просмотров: 1777; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.146.37.222 (0.01 с.)