Построение информационно-поисковых тезаурусов 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Построение информационно-поисковых тезаурусов



Тезаурусы разрабатываются для отдельных отраслей. Например, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т. п. Тезаурус может быть разработан и для обслуживания конкретной информационно-поисковой системы.

Построение тезауруса состоит из нескольких взаимосвязанных этапов.

Первый этап - формирование словника. Словник - первоначальные множества ключевых слов. При этом рассматривается представительный массив наиболее информативных для данной предметной области документов. Например: реферативные журналы, словари, учебники, справочники, нормативные документы и т. д. Выбираются слова, употребляемые в этих источниках, при этом устанавливается частота употребления слов и учитываются все формы, которые могут иметь слова.

Второй этап - формирование множества ключевых слов. Из словника формируется множество ключевых слов. При отборе ключевых слов учитывается информативность слова, которая определяется исходя из частоты встречаемости слова, роли слова в данной предметной области. Процесс выбора ключевых слов достаточно сложно формализовать. Например, такой критерий, как частота встречаемости не может быть абсолютным. Если слово встречается в текстах очень часто, это может означать, что оно выражает чрезмерно широкое понятие, либо недостаточно четко определено, т. е. неинформативно. Если ключевое слово встречается очень редко, это может означать, что оно выражает новое понятие и таким образом является информативным.

Третий этап - формирование классов эквивалентности. Выделение дескрипторов.

Класс эквивалентности - это группа терминов, равнозначных по смыслу в пределах сферы действия данной системы. Одно из слов класса эквивалентности объявляется дескриптором (как правило, наиболее употребляемое). Все слова, включенные в класс эквивалентности, объявляются условными синонимами (условными - так как они равнозначны в пределах данной предметной области, а в ЕЯ эти слова могут не являться синонимами).

Критерием включения слов в класс эквивалентности является семантическая значимость этого слова при поиске документов, т. е. если данное слово при поиске документа может быть заменено другим словом, так, что на любой запрос выдача документов будет такой же, как и до замены, то такие два слова объявляются условными эквивалентами и включаются в один класс эквивалентности. Ключевые слова, относящиеся к одному классу эквивалентности, помещаются в соответствующую дескрипторную статью и помечаются символом «с».

В процессе построения тезауруса и выделения множества дескрипторов происходит устранение синонимии, омонимии, полисемии ключевых слов, а также выявление парадигматических связей между дескрипторами.

В ЕЯ многие слова могут быть правильно истолкованы только с учетом контекста. В ИПЯ для правильной трактовки ключевых слов необходимы средства для исключения многозначности трактования слов.

Для устранения многозначности (омонимии и полисемии) ключевое слово, которое можно неоднозначно трактовать, снабжается пометой, в которой указывается в каком значении данное ключевое слово используется в ИПЯ.

Разработка тезауруса без использования компьютерных технологий - достаточно длительный и трудоемкий процесс.

Большинство автоматизированных методов создания тезауруса основано на автоматическом подсчете частоты слов, содержащихся в документах, считающихся типичными для данной предметной области. Результаты такой обработки обычно представляются в виде матрицы «документ-термин», (рис. 1). Элемент матрицы на пересечении строки и столбца, трактуется как вес слова в документе. На основе полученной матрицы вычисляются коэффициенты подобия между словами, определяемые в зависимости от частоты, с которой слова совместно встречаются в анализируемых документах, и формируется структура тезауруса.

Документы Частота слова в документе
             
D1 D2 D3 D4              

Рис. 1. Пример матрицы «термин-документ»

Автоматические информационно-поисковые тезаурусы являются составным элементом систем автоматического индексирования документов и запросов. В словарной статье автоматического тезауруса, как правило, зафиксированы отношения условной эквивалентности (синонимии), отношение подчинения и ассоциативные отношения.



Поделиться:


Последнее изменение этой страницы: 2017-02-10; просмотров: 322; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.191.235.210 (0.006 с.)