Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

вопрос. Информационно-поисковые системы

Поиск

Модели организации хранения и поиска документов

 

Существуют два основных способа, применяемые для хранения документов:

использование иерархической модели;

использование гипертекстовой модели.

Использование иерархической модели подразумевает многоуровневую рубрикацию информационных ресурсов. Для выбора пути к нужному документу используются описания, составленные службой поддержки данной системы.

Гипертекстовая модель позволяет связывать документы ссылками, которые располагаются непосредственно в тексте.

Эти две модели имеют ряд недостатков. Многоуровневая рубрикация, и простановка ссылок выполняется высококвалифицированными специалистами, объем обработанных таким образом документов не может быть очень большим. В такой системе трудно соблюдать актуальность описания массива документов. Рубрикатор составляется специалистом по ИС и не может учитывать все информационные потребности конечного пользователя. Для нахождения необходимого документа требуется просмотреть множество документов, которые содержат только ссылки на другие ресурсы.

 

Основные принципы информационного поиска.

 

Должен быть создан массив указателей на информационные ресурсы. Указатель (index) содержит в себе некоторое свойство документа и ссылки на документы, этим свойством обладающие. Указатели могут быть разных видов. Например, авторский указатель. Такой указатель позволяет получить ссылки на работы интересующего нас автора.

Указатели могут быть составлены и по другим атрибутам документа. Предметный указатель классифицирует документы по понятиям (предметам), которые в них затрагиваются.

Процесс создания указателей на документы называется индексированием, а термины, использующиеся для индексирования, называются терминами индексирования. Совокупность используемых терминов индексирования называется словарем.

Массив указателей, полученный после индексации информационных ресурсов, называется индексом (Index database).

После создания индекса к нему обращаются посредством запросов. Процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос тоже должен быть переведен на язык индексирования. В индексе выполняется поиск соответствующих запросу документов, пользователю выдается список ссылок на подходящие ресурсы.

Для повышения скорости индексирования и поиска словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в данной предметной области.

 

Предметное индексирование и механизм поиска.

 

Информационно-поисковая система использует предметный указатель, который позволяет отыскать документы, касающиеся некоторой темы (предмета). Для составления предметного указателя анализируется содержание документа и определяется «предмет» или «предметы», о которых в документе идет речь. Затем названия этих предметов переводятся на информационно-поисковый язык (ИПЯ). Таким образом получается поисковый образ документа (ПОД). Проиндексировав (создав поисковые образы) все информационные ресурсы, мы получаем индекс (index database) – основной массив данных ИПС.

Запрос также должен быть переведен на ИПЯ. После сопоставления переведенного на ИПЯ запроса и поисковых образов документов пользователь получает список ссылок на документы, которые соответствуют, по мнению системы, его запросу.

 

Для повышения эффективности поиска словарь, используемый системой должен быть контролируемым, то есть он должен быть организован таким образом, чтобы полнота и точность поиска была оптимальной.

Для улучшения результатов поиска необходимо определить степень специфичности терминов, используемых при индексации. Используют два принципа – использование наиболее специфичного термина, соответствующего объему и содержанию отражаемого понятия, и избыточное индексирование.

Под избыточным индексированием понимается дополнение поискового образа терминами, связанными с основным. Эти термины могут связываться с основным отношением обобщения или спецификации, либо ассоциативной связью. Дополнение поискового образа терминами с ассоциативной связью может увеличить полноту поиска, но неизбежно понижает его точность.

Недостатком избыточного индексирования является увеличение объема поисковых образов. Для решения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов.

Использование предметного индексирования не исключает использования при создании поискового образа атрибутов документа (данные об авторе, дата публикации, язык публикации и т.д.).

 

Стратегии поиска.

 

Точность и полнота запроса зависят не только от характеристик самой ИПС, но и от того, как создается запрос. Для повышения качества поиска можно использовать различные методы. Наиболее распространенный из них – использование логических операторов AND, OR, NOT.

 

 

Использование логических операторов - простой способ повысить релевантность выдаваемых документов, но имеет и свои недостатки. Главный из них – плохая масштабируемость. Применение оператора AND может сильно сузить выдачу, а оператора OR – сильно расширить.

Релевантность – степень соответствия найденной информации по отношению к запросу в поисковой системе.

Степень точности и полноты поиска зависит от того, насколько общие термины использовались при формулировке запроса. Использование наиболее общих терминов приводит к повышению уровня информационного шума, слишком специфичных терминов – к снижению полноты поиска. Использование слишком специфичных терминов может привести к тому, что в словаре ИПС этого термина может не оказаться.

Процедура поиска является итеративной, то есть за этапом выдачи результатов поиска следует коррекция запроса, поиск по этому запросу и т.д.

Коррекция запроса может выполняться пользователем или самой ИПС.

Коррекция запроса системой информационного поиска происходит на основании анализа документов, помеченных пользователем как наиболее отвечающих его потребности. При следующем поиске система ищет те документы, в которых, помимо заданных в первоначальном запросе, содержатся термины, встречающиеся в документах, отмеченных пользователем.

 

 



Поделиться:


Последнее изменение этой страницы: 2016-12-17; просмотров: 277; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.248.140 (0.007 с.)