Модели текстового поиска, дополнительные возможности современных систем текстового поиска 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Модели текстового поиска, дополнительные возможности современных систем текстового поиска



Одним из ключевых понятий, характеризующих технологию поис­ка в той или иной конкретной системе, является модель поиска. Под моделью поиска понимается: сочетание способа представления документов, поисковых запросов; вида критерия релевантности документов.

Простейшие модели поиска. Это моде­ли, в которых документ представлен в виде набора ассоциирован­ных с ним внешних атрибутов. Пример: модель дескрипторного поис­ка, модель поиска, основанная на Дуб­линском ядре.

Модели, основанные на классификаторах, выделены в особую категорию, но представляют одну из разновидностей про­стейших моделей. В этой модели документы представля­ются идентификаторами классов в иерархической структуре классифи­катора. Представление запроса в простейшем случае - идентификатор какого-либо класса из за­данного классификатора. Критерий релевантности - совпадение класса документа с классом в представлении за­проса. В более сложном случае допускается указание в запросе нескольких классов классифи­катора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов.

Булевские модели. Их особенность в том, что пользователь может формулировать запрос в виде бу­левского выражения с использованием операторов И, ИЛИ, НЕТ. Критерий релевантности документа запросу в таких моделях поиска - истинность булевского выражения, задан­ного в запросе. Недостатки булевских моделей. Не позволяют ранжировать найденные документы по релевант­ности, т. к. отсутствуют критерии ее оценки. Кроме того, не каж­дый пользователь может свободно оперировать булевскими оператора­ми при формулировке своих запросов.

Векторные модели. Вероятно, самыми распространенными моделями явля­ются векторные модели поиска (векторные пространства). Документы и запросы пред­ставляются векторами. В простейшем случае координаты вектора соот­ветствуют термам текста. Каждый терм словаря имеет свое векторное измерение. Координате вектора присваивается некоторое ненулевое значение только в том случае, когда соответствующий ей терм принадле­жит данному документу/запросу. Для оценки релевантности документа запросу в векторных моделях используются векторные функции, аргументами которых выступают представляющие их векто­ра. Например, можно использовать в качестве такой меры косинус угла между вектором документа и вектором запроса или их скалярное про­изведение. Поскольку ненулевые координаты векторов соответствуют только термам, входящим в текст документа и текст запроса, на значение функции-меры в обоих этих случаях оказы­вают влияние только термы, общие для документа и запроса.

Сети вывода. Сети вывода, как и вероятностные модели поиска, основаны на принципе вероятностного ранжирования результирующих документов поиска. Однако, в отличие от вероятностных моделей, в моделях сетей вывода рассматривается оценка не вероятности релевантности докумен­та запросу, а вероятности того, что он удовлетворяет информационным потребностям пользователя. Модели этого семейства описывают процесс поиска документов как про­цесс рассуждений в условиях неопределенности, в котором оценивается вероятность того, что выраженные с помощью одного или нескольких запросов информационные потребности пользователя удовлетворяются.

Дополнительные возможности. Взвешивание термов запроса. В формулировке запроса не все термы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать вес применяемым в запросе термам с тем, чтобы охарактеризовать их значимость. Эта информация нужна при вычислении оценок релевантности или вероятности соответствия документов коллекции информационным потребностям пользователя.

Ранжирование результатов поиска. Т. к. количество результи­рующих документов обычно бывает значительным, важно упоря­дочить документы, выдаваемые пользователю, так, чтобы в начале списка находились те, которые в боль­шей мере представляют интерес для пользователя. Такая операция называется ранжированием. Развитые системы тек­стового поиска обладают механизмами, обеспечивающими такую воз­можность, и в зависимости от модели поиска документы упорядочиваются по оценкам их реле­вантности или вероятности удовлетворения информационных потребностей пользователя.

Обратная связь релевантности. Этот метод основан на информации обратной связи, получаемой от пользователя. Результаты обра­ботки запроса могут не удовлетворять пользователя. Во многих системах пользователь может дать оценку релевантности полученных документов. Т. к. количество результирующих документов м. б. до­вольно больших, пользователю предлагается оценить хотя бы несколь­ко первых документов в списке. Система может использовать термы этих документов для формирования нового, расширенного запроса, который будет точнее вы­ражать информационные потребности пользователя. Такой процесс обработки запроса и его модификации, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска.

Расширение запросов. Имеется в виду расширение представления запроса, предложенного системе пользователем. Рас­ширение запроса осуществляется на основе:

· синонимов термов, содержащихся в запросе.

· термов, которые находятся с термами запроса в некоторых других се­мантических отношениях, определенных тезаурусом предметной об­ласти.

· термов результирующих документов, оцененных пользователем в системах, обеспечивающих обрат­ную связь релевантности;

· часто встречающихся орфографически-ошибочных форм некоторых термов запроса

Автоматическое индексирование полного текста основано на выделении встречающихся в нем отдельных слов, за исключением стоп-слов, а также словосочетаний. Каждый из таких термов используется для построения индекса докумен­тов данной коллекции. Используется два способа для выделения устойчивых словосочетаний — лингвистический, на основе синтаксического анализа текста, и статистический, который основан на анализе статистики совместного вхождения слов в текст документа.

Мультиязыковой поиск. Некоторые системы поз­воляют осуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках. Одной из проблем является идентификация языка.

Кросс-языковой поиск. Существуют системы, до­пускающие ситуации, когда запрос пользователя определен на одном языке, а множество документов коллекции, в кото­рой должен осуществляться поиск, представлено на другом языке. Пользователь может обращаться на каком-либо одном языке к кол­лекциям документов международных организаций или любой организации в стране, где существует несколько государственных языков. Такие коллекции могут содержать документы на разных языках. Основная проблема - в сопоставлении документа и запроса, представленных на разных язы­ках. Для ее решения необходим перевод документов, перевод запросов либо перевод того и другого вместе. Трудность решения проблемы состоит еще и в том, что запросы редко представляют собой законченные предложе­ния. Поэтому при их переводе трудно не утратить смысл, особенно в от­сутствие контекста.

Доставка документов по назначению состоит в том, чтобы присвоить вновь поступив­шим документам баллы в соответствии со степенью релевантности и на этой основе произвести их ранжирование. Многие исследования в этой области посвящены созда­нию методов, обучающихся на заданной коллекции документов, о каждом из которых заранее известно, что он релевантный или нерелевантный.

Фильтрация документов. Цель состоит в отборе из входного потока до­кументов, которые соответствуют информационным потребностям дан­ного пользователя.В отличие от традиционных систем текстового поиска, которые имеют дело с коллекциями, не изменяющимися в процессе поиска, фильтрация документов опери­рует динамическим входным потоком документов, например потоком но­востных сообщений. Задача фильтрации заключается в следующем. Предва­рительно задается описание долговременных информационных потреб­ностей данного пользователя - профиль пользователя. Для каждого документа определяется, соответствие профилю. В зависимости от этого документ направ­ляется пользователю или игнорируется. Т. е. профиль пользо­вателя играет роль пользовательского запроса.



Поделиться:


Последнее изменение этой страницы: 2016-07-14; просмотров: 249; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.218.218.230 (0.007 с.)