Частотные словари, словари предметной области. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Частотные словари, словари предметной области.



Кодификаторы, классификаторы, тезаурусы, онтологии.

В большинстве информационных систем помимо ИПЯ на этапах индексирования и поиска документов применяются различные средства, имеющие лингвистическую природу, например, тематические рубрикаторы, тезаурусы, словари как информативных, так и неинформативных лексических единиц, словари синонимов, словари словосочетаний и т.п.

Организационная типология терминологических структур, приведенная на слайде (Слайд 11.9), тесно связана с типологией по семантическому признаку. С точки зрения семантики словоупотребления терминологические структуры могут быть разделены на семантически упорядоченные и семантически неупорядоченные. При этом семантически неупорядоченные терминологические структуры всегда имеют линейную организацию, а семантически упорядоченные – иерархическую или сетевую организацию.

Семантически упорядоченные терминологические структуры отражают оба типа связей, которые могут существовать между отдельными терминами – парадигматические и синтагматические. Парадигматические связи характеризуют различные виды отношений – отношения иерархии, ассоциативные отношения и отношения эквивалентности. Синтагматические связи показывают логические отношения между понятиями.

 

Частотный словарь

Частотный словарь – перечень дескрипторов и ключевых слов. Термины располагаются в алфавитном порядке, либо в порядке убывания (возрастания) частоты использования их в информационном массиве.

Частотная характеристика термина показывает количество документов информационного массива, в которых термин встретился хотя бы один раз. Частота встречаемости ориентирует пользователя в лексике информационного массива с точки зрения включения какого-либо термина в поисковый запрос.

Рассмотрим, например, фрагмент частотного словаря ретроспективной реферативной БД «Информатика» (1986-2002 гг) – Слайд 11.10.

Из приведенного примера следует нецелесообразность использования в поисковых запросах ключевого слова информационная деятельность без соответствующих уточнений о видах такой деятельности (например, информационная деятельность и лингвистика).

 

Иерархические классификационные структуры

Иерархическая организация терминов или понятий, подобная схеме библиотечной классификации, позволяет для данного входа словаря найти более широкое понятие, перемещаясь вверх по схеме, или более узкое, перемещаясь вниз по схеме. Иерархические терминологические структуры отражают отношения «род-вид» или «часть-целое».

Указатель иерархических отношений терминов может быть создан только после решения проблемы классификации понятий. Он разрабатывается на основе классификационных схем понятий, поскольку фактически в иерархическом указателе находят отражение иерархические цепочки подчинения понятий, зафиксированные в классификационных схемах. В качестве основных входов этого указателя выбираются те заглавные термины, которые не имеют родовых дескрипторов (т. е. стоят на верхней ступени иерархического дерева).

 

К иерархическим классификационным структурамотносятся различные рубрикаторы, кодификаторы и классификаторы, фиксирующие подчинение терминов в определенной предметной области (например, рубрикатор ГРНТИ, рубрикатор ВИНИТИ и др.)

Рассмотрим фрагмент Рубрикатора ВИНИТИ для заглавной рубрики «201 Информатика» (Слайд 11.11). Рубрикатор ВИНИТИ является локальным (отраслевым) по отношению к Государственному рубрикатору НТИ и отличается большей детализацией рубрик с развитием на глубину до восьмого уровня.

 

Тезаурусы

Основными представителями сетевых терминологических структур являются тезаурусы.

Весь окружающий нас мир можно рассматривать как множество, состоящее из двух элементов: предметов и их отношений. Этот реально существующий мир отражается в сознании человека в форме взаимосвязанных понятий, т. е. в такой форме мышления, при которой в сознании фиксируются только существенные связи и признаки предмета.

Тезаурус может быть представлен как семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями – иерархическими (например, род-вид, целое-часть), ассоциативными, а также отношениями эквивалентности. При этом отдельное понятие определенной области знаний в тезаурусе представлено словом или словосочетанием, соотносящимся с другими словами и словосочетаниями и образующим вместе с ними замкнутую систему.

Иерархические отношения в тезаурусе представляют собой классификацию, основанную на словах естественного языка, а не на абстрактных категориях, поэтому нарушается правильная структура дерева – один и тот же термин может иметь несколько «родителей» – вышестоящих терминов на предыдущем уровне.

Тезаурус, отображая возможные семантические связи терминов, представленных в БД, является идеальным лексическим инструментом информационно-поисковых систем, с помощью которого можно найти необходимую лексику для составления запросов или их модификации с целью достижения наилучших показателей эффективности поиска.

Информационно-поисковые тезаурусы. Информационно-поисковые тезаурусы позволяют решить проблему соотнесения:

- авторской терминологии (понятиями и словами естественного языка, которые автор использует для обозначения этих понятий);

- терминологии системы (понятиями и терминами, которые используются для выражения этих понятий при вводе документов в ИПС);

- терминологии потребителя (понятиями и терминами, которые потребитель использует для представления этих понятий при формировании запросов).

Таким образом, тезаурус выступает как средство уменьшения семантического расстояния между выражением тематики документа и поисковым запросом.

Являясь лексическим инструментом информационно-поисковых систем, тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи. Такой словарь исчерпывающим образом покрывает некоторую специфическую область знаний и представляет собой перечень лексических единиц, упорядоченных по систематическому и алфавитному принципам. Кроме этого между лексическими единицами заданы смысловые отношения как иерархического (родо-видового), так и неиерархического типа (ассоциативного).

Лексическая единица (ЛЕ) информационно-поискового тезауруса – выбранное для использования в тезаурусе слово, словосочетание или лексически значимый компонент сложного слова естественного языка.

Дескриптор – лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов.

Аскриптор (недескриптор) – лексическая единица, которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.

Соответственно, информационно-поисковые тезаурусы подразделяют на два типа:

1) тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;

2) тезаурусы, все лексические единицы которых являются дескрипторами.

Приведем пример полной словарной статьи дескриптора Тезауруса по информатике (Слайд 11.12).



Поделиться:


Последнее изменение этой страницы: 2021-01-14; просмотров: 181; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.218.38.125 (0.007 с.)