Информационный поиск как наука 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Информационный поиск как наука



Информационный поиск — большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела.

Поиск информации — процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска или запросу.

ИП рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.

Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.

В настоящее время ИП — это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является TREC, организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.

Запрос и объект запроса

Говоря о системах ИП, употребляют термины запрос и объект запроса.

Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.

Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат.

Задачи информационного поиска

Центральная задача ИП — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

Классическая задача ИП, с которой началось развитие этой области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

1. Вопросы моделирования;

2. Классификация документов;

3. Фильтрация документов;

4. Кластеризация документов;

5. Проектирование архитектур поисковых систем и пользовательских интерфейсов;

6. Извлечение информации, в частности аннотирования и реферирования документов;

7. Языки запросов и др.

Также, перед движками ИП ставятся некоторые задачи по обработке естественных языков, что включает в себя морфологический анализ, разрешение лексической многозначности и так далее.

Оценки эффективности

Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности, является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.

Точность (precision)

При любом поиске не все релевантные документы будут найдены, а среди найденных – не все документы будут релевантными. Точность информационного поиска (Precision) обычно определяется как отношение числа найденных ИПС релевантных документов (R),, к общему числу найденных документов (F):

Полнота (Recall)

Полнотой называется отношение числа найденных ИПС релевантных документов (R), к общему числу релевантных документов в базе (RB):

Выпадение (Fall-out)

Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных ИПС нерелевантных документов (NR) к общему числу нерелевантных документов в базе (ND):

F-мера (F-measure, мера Ван Ризбергена)

В некоторых случаях бывает полезно объединить точность и полноту в одной усреднённой величине. Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть (найти по результатам своего поиска) вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку при большом отличии усредняемых значений приближается к минимальному из них.

Поэтому хорошей мерой для совместной оценки точности и полноты является так называемая F-мера, которая определяется как взвешенное гармоническое среднее точности Precision (P) и полноты Recall (R):

, где  - может быть любым числом от 0 до 1 включительно в зависимости оттого, что должна лучше отражать эта мера. Иначе говоря, параметр  выбирается из тех или иных содержательных соображений, не связанных непосредственно с процедурой информационного поиска.

Обычно F-меру записывают в виде:

, где , что означает для  возможность принимать любые значения, большие 0. Естественно, что при такой форме записи  не может обращаться в 0.

При  или, что то же самое, при  F-мера придает одинаковый вес точности и полноте информационного поиска и потому называется сбалансированной или -мерой (в нижнем индексе часто указывают значение величины ). При этом вычисление -меры становится проще, чем в общем виде:

Несмотря на такую простоту, использование сбалансированной F-меры ( -меры) не является обязательным: при значениях параметра  эта мера отдаёт предпочтение точности информационного поиска, а в противном случае, т.е. при  больший вес приобретает его полнота. Поэтому выбор того или иного варианта F-меры осуществляется в соответствии с целями и приоритетами оценивания результатов информационного поиска, которые могут различаться в разных ситуациях.



Поделиться:


Последнее изменение этой страницы: 2019-05-20; просмотров: 510; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 52.14.126.74 (0.006 с.)