Информационно-поисковые языки 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Информационно-поисковые языки



 

Для общения человека с компьютером разрабатываются спе­циальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального пред­варительного преобразования. В естественном языке присутству­ют: синонимия, омонимия и полисемия, избыточность, субъек­тивность и другие свойства, препятствующие его автоматизиро­ванной обработке.

-Синонимы — слова, различающиеся по написанию, но совпада­ющие по смыслу (Россия, РФ, Российская Федерация).

Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть — теле­графный, поисковый, к замку, к шкафу и т.д.).

Полисемия — наличие у одного и того же слова нескольких раз­ных, но связанных между собой значений (например: фамилия — как имя и фамилия как семья; индекс — как средство более быстрого поиска в БД и как код документа в ИПС).

Избыточность ЕЯ — наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением.

Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, которые называются информационно-поисковыми языка­ми.

ИПЯ состоит из алфавита, лексики и грамматики. Алфавит — система знаков, используемая для записи слов. В ИПЯ могут быть использованы: буквы латинского алфавита; кирил­лица; цифры; пунктуационные знаки.

Лексика (словарный состав) — совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лекси­ческая единица — слово или семантически неделимое словосочета­ние, выражающее какое-либо понятие.

Грамматика — набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис.

Морфология — правила построения и изменения слов. Синтак­сис — правила построения и изменения соединения слов (построе­ние фраз).

Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отноше­ния можно разделить на парадигматические и синтагматические.

Парадигматические отношения - логические отношения, суще­ствующие между лексическими единицами ИПЯ независимо от кон­текста, в котором эти лексические единицы употребляются. Эти от­ношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Приме­ры парадигматических отношений: часть — целое (отдел — органи­зация); род — вид (ценная бумага — акция); причина-следствие; функциональное сходство; ассоциации. Учет парадигматических от­ношений необходим для правильного выбора и точного употребле­ния слов. Поэтому в семантически развитом ИПЯ должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске норматив­ных документов, касающихся термина «акция», для увеличения пол­ноты поиска возможно указание термина «ценная бумага».

Синтагматические отношения — отношения слов при соедине­нии их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и пред­ложения. Для уточнения.смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматиче­ских отношениях эти слова находятся. Так, фраза «защита окружаю­щей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл/хотя и состоят из одних и тех же ключевых слов.

Таким образом, развитый ИПЯ должен обладать средствами ото­бражения парадигматических и синтагматических отношений.

Для оценки сравнительной эффективности различных языков используется понятие семантическая сила языка.

Семантическая сила ИПЯ характеризует смысловыразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Семантическая сила тем больше, чем богаче словарный.состав ИПЯ и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений между словами.

Можно указать следующие требования, которым должен удовле­творять семантически развитый ИПЯ:

располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;

не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование;

отображать только объективные характеристики предметов и отношений между ними;

быть удобным для алгоритмического сопоставления (отождеств­ления) поискового образа документа (ПОД) и поискового предписа­ния (ПП).

Как правило, чем больше семантическая сила ИПЯ, тем труднее

с ним работать.

Наиболее часто в качестве основания деления при классифика­ции ИПЯ используют способ организации понятий.

По способу организации понятий различают:

предкоординируемые (классификационные) ИПЯ;

посткоординируемые (дескрипторные) ИПЯ.

Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав зада­ется в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования докумен­тов, т.е. при создании языка.

Словарный состав предкоординируемых языков напоминает дву­язычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексичес­кими единицами этого языка, т.е. классификация документа.

Посткоординируемые (дескрипторные языки) основаны на ме­тоде координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного 'ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ — ключевых слов и дескрипторов.

Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информа­ционного запроса представляется в виде сочетания ключевых слов или дескрипторов.

Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назыв­ной функцией. Назывные слова - слова, обозначающие вещи, явле­ния, процессы, имена собственные (т.е. в качестве ключевого слова не может выступать предлог, союз и др.).

 

Классификационные информационно-поисковые

Языки

 

К классификационным языкам относят:

информационно-поисковый язык иерархического типа;

информационно-поисковый язык фасетного типа;

алфавитно-предметную классификацию.

Иерархическая классификация — это перечислительная класси­фикация (т.е. все возможные классы заранее перечислены), в кото­рой каждый класс делится на подклассы. Термины в иерархической классификации расположены в порядке их перехода от общих поня­тий к частному. Классификация осуществляется в зависимости от выбранных оснований деления и порядка их следования.

В иерархической классификации необходимо иметь отдельные исчерпывающие классы для всех возможных предметов, т.е. все воз­можные классы должны быть заранее перечислены, поэтому иерар­хическую классификацию и называют перечислительной.

Процедура построения ИПЯ иерархического типа включает сле­дующие этапы.

1. Анализ предметной области, определение оснований деления (признаков классификации). В качестве признаков класификации выбирают такие, по которым имеет смысл производить поиск доку­ментов в данной предметной области.

2. Установление соподчиненное™ признаков. Соподчиненность может быть естественной или установленной.

3. Формирование классов документов на основе выбранных при­знаков классификации. Получение иерархического дерева классов.

4. Формирование индексов каждого класса.

5. Составление классификационных таблиц и алфавитного указателя.

В классификационной таблице классы упорядочены по индексу, а в алфавитном указателе - по алфавиту.

Индексирование с использованием ИПЯ иерархического типа заключается в определении того, к какому классу относится описываемый объект, и в определении по классификационной таблице и алфавитному указателю индекса этого класса.

Преимущество языков иерархического типа состоит в простоте индексирования и поиска. Классификация наиболее эффективна в том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в течение времени не изменя­ется (т.е. предметы естественно находятся в жесткой иерархической соподчиненности). Например, классификация документов в органи­зации, имеющей стабильную структуру.

ИПЯ фасетного типа основаны на принципах многоаспектной классификации, в которой каждый конкретный класс строится при индексировании по определенным правилам из предварительно за­данных категориальных классов — фасетов. В системах фасетной классификации не ставится задача перечислить все сложные классы. Такие системы предлагают составные элементы, из которых по фа-сетной формуле составляется индекс.

Процедура разработки ИПЯ фасетного типа состоит из следую­щих этапов.

1. Анализ предметной области, для которой составляется клас­сификация. Выделение основных признаков классификации. Эти категории называются фасетами, которые при необходимости более детальной классификации могут делиться на субфасеты и т.д.

2. Все возможные простые классы группируются по фасетам. Каждый простой класс фасета называется фокусом.

3. Обозначение соответствующими шифрами фасетов и фокусов.

4. Установление фиксированной последовательности фасетов в поисковом образе (фасетная формула).

5. Составление алфавитного указателя фасет и фокусов.

Преимущество ИПЯ фасетного типа по сравнению с ИПЯ ие­рархического типа состоит в том, что допускается многоаспектное индексирование, так как существует возможность строить классы из разных сочетаний фокусов и получать любые сочетания заранее вы­бранных характеристик объектов классификации.

На практике иерархическая и фасетная классификация часто используются в сочетании. Например, УДК — универсальная деся­тичная классификация.

Алфавитно-предметная классификация — система классов, каж­дый из которых соответствует определенной теме или одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов.

Основной словарный состав (лексика) ИПЯ состоит из упорядо­ченных по алфавиту множества слов, словосочетаний и фраз ЕЯ.

Алфавитно-предметная классификация содержит:

предметный заголовок — слово, словосочетание или фраза ЕЯ, используемое для обозначения предмета или темы, заголовок может подразделяться на подзаголовки;

предметный словник (лексический состав языка) — упорядочен­ное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификации;

предметную рубрику — совокупность предметного заголовка с описанием адреса хранения документов, основная тема которых обо­значается этим предметным заголовком.

Алфавитно-предметная классификация предназначена для по­строения каталогов для узко предметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библио­графическое описание) документов, предмет которых обозначен дан­ным заголовком.

Порядок составления алфавитно-предметной классификации.

1. Анализ предметной области и выбор тем классификации.

2. Устранение синонимии слов, словосочетаний и фраз, исполь­зуемых в качестве предметнрго заголовка. В случае синонимии мож­но использовать систему ссылок.

3. Выделение основных, ведущих слов в словосочетаниях и фра­зах, используемых в качестве предметных заголовков.

Обозначение парадигматических связей между названиями пред­метов и тем. Эти связи обозначаются с помощью ссылок.

Алфавитно-предметная классификация используется главным образом для информационного поиска по отдельным предметам и темам. И применяется в качестве предметных указателей к катало­гам документов.

Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любо­му, заранее не заданному сочетанию признаков.

 



Поделиться:


Последнее изменение этой страницы: 2016-09-13; просмотров: 501; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.188.142.146 (0.018 с.)