Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Виды документальных информационных систем

Поиск

Первоначальным направлением развития СУП/1 стала разработка и использование фактографических информационных систем, кото­рые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отрабо­таны программно-технические решения по накоплению и физическо­му хранению таких данных, реализованы языки запросов к БД.

Однако создание фактографических информационных систем тре­бует предварительной структуризации данных, например, на основе Таблиц. Она зачастую требует больших накладных расходов. Вместе с

тем накапливаются большие объемы неструктурированной информа­ции: в организационно-распорядительных документах или других тек­стовых источниках. Представление такой информации в фактографи­ческих системах зачастую экономически не оправдано.

Теоретические исследования вопросов автоматизации обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, ПОЛНОЙ и технически реализу­емой модели представления и обработки данных, как реляционная мо­дель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов |14].

Элементом данных в документальных ИС является документ (в фак­тографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл.

Основной задачей документальных информационных систем явля­ется хранение и предоставление пользователю документов, содержа­ние которых соответствуют его информационным потребностям.



Документальная информационная система (ДИС) единое храни­лище документов с инструментарием поиска и выдачи, необходимых пользователю документов [14].

Поисковый характер документальных информационных систем определил еще одно их название информационно-поисковые системы (ИПС).

Соответствие найденных документов информационным потребно­стям пользователя называется пертинентностью. В силу теоретиче­ских и практических сложностей формализации смысловою содер­жания документов пертинентность относится скорее к качественным понятиям.

В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы [14]:

♦ системы на основе индексирования;

♦ семантически-навигационные системы.

Семантика (от греч. semantikos — обозначающий) — значения еди­ниц языка.

В семантически-навигационных (гипертекстовых) системах доку­менты, помещаемые в хранилище документов, оснащаются специаль­ными навигационными конструкциями (гиперссылками), соответ­ствующими смысловым связям между различными документами или отдельными фрагментами одного документа.

В системах на основе индексирования исходные документы поме­щаются в базу без какого-либо дополнительною преобразования, но при этом смысловое содержание каждою документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключает­ся в присвоении каждому документу некоторого индекса координа­ты в поисковом пространстве. Формализованное представление ин­декса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности посред­ством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов [14].

На основе определенных критериев ДИС осуществляет поиск и вы­дачу документов, поисковые образы которых соответствуют поиско­вым образам запроса пользователя.

Соответствие найденных документов запросу пользователя назы­вается релевантностью.

Схема устройства и функционирования ДИС на основе индексиро­вания приведена на рис. 7.1 [14].



Документ


Отражение


Поисковое пространство

под Гд поз


Запрос

Рис. 7.1. Схема функционирования ДИС на основе индексирования

Информационно-поисковый язык (ПНЯ) представляет собой неко­торую формализованную семантическую систему, предназначенную

для выражения содержания документа и ПОИСКОВОГО запроса [14].

Основными элементами ИПЯ являются алфавит, лексика и грам­матика.

Алфавит ИПЯ система знаков, используемых для записи слов и выражений И ПЯ.

Лексика, и ли словарный состав, ИПЯ совокупность слов, слово­сочетаний и выражений, используемых для построения текстов И ПЯ.

Грамматика ИПЯ совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает

морфологию и синтаксис.

Можно указать следующие требования, которым должен удовле­творять ИПЯ [14,29]:

♦ располагать лексико-грамматическими средствами для точного отображения темы документа и запроса;

♦ не содержать полисемии. СИНОНИМИИ И омонимии;

♦ отображать только объективные характеристики предметов и от­ношении между ними;

♦ быть удобным для алгоритмического сопоставления ПОД и ПОЗ.

Построение выражений ИПЯ требует решения, по крайней мере, двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений.

Выбор слов определяется ИХ смыслом, обусловленным парадигма­тическими отношениями между предметами и явлениями, которые они определяют.


Парадигматические отношения - это отношения, обусловленные наличием логических связей между предметами и явлениями, обозна­ченными данными слонами. Перечислим некоторые парадигматиче­ские отношения (33):

♦ «вид род», например, «шкаф—мебель». В данном случае поня­тие «шкаф» является ВИДОВЫМ по отношении) к понятию «мебель». Родовое понятие всегда включает в себя видовое;

♦ -часть -целое», например «лезвие -нож»;

♦ «причина следствие»,например, «лампа—свет»;

♦ «функциональное сходство», например, «лопата—экскаватор».

Естественный язык обладает высокой многозначностью. В ИПЯ

недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естественного языка, исполь­зуемых в ИПЯ.

Омонимия — это совпадение слов по написанию или звучанию и несовпадение по смыслу.

Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, слово «соль» обозначает ве­щество, а также понятие смысла. Оба значения близки по сути.

Синонимия это совладение слов по значению и несовпадение по написанию.

Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов.

Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза щита окружающей среды от человека" и фраза «защита человека от окружающей среды» имеют совершенно разный СМЫСЛ, хотя и состоят из ОДНИХ и тех же ключевых слов [33].

Многообразие используемых в ИПЯ парадигматических и синта­гматических отношений определяет семантическую силу ИПЯ.

По способу организации понятий различают следующие ИПЯ:

♦ предкоординирусмые (классификационные) ИПЯ;

♦ посткоординируемые (дескрииторпые) ИПЯ.

Предкоординация — предварительное (до использования при ин­дексировании) построение сложных классов путем логического умно­жения (координации) простых классов. Словарный состав задается


в виде фиксированного списка слов, словосочетаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т. е. при создании языка [14, 29].

Посткоординируемые (дескрипторные) языки основаны на методе координатного индексирования. В иоеткоординпруемых ИПЯ лекси­ческие единицы объединяются в поисковом образе лишь во время ин­дексирования документа. Словарь дескрпнторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний естественного языка ключевых слов и дескрипторов [14, 29].

Координатное индексирование, при котором ос­новное смысловое содержание текста (документа) или информацион­ного запроса представляется в виде сочетания ключевых СЛОВ пли де­скрипторов.

Ключевые слова это наиболее существенные для отображения со­держания документа слова и словосочетания, обладающие назывной функцией.

К классификационным языкам относят [14]:

♦ информационно-поисковый язык иерархического типа;

♦ информационно-поисковый язык фасетного типа;

♦ алфавитно-предметную классификацию.

Основными показателями эффективности функционирования ДИС являются полнота и точность информационного поиска [14].

Полнота информационного поиска R определяется отношением

числа найденных релевантных документов А к общему числу релевант­ных документов С, имеющихся в системе [14]:

с

Точность информационного поиска Р определяется отношением числа найденных релевантных документов А к общему числу докумен­тов L, выданных на запрос пользователя [14]:

L

Наличие среди отобранных на запрос пользователя нерелевант­ных документов называется информационным шумом системы. Ко­эффициент информационного шума К определяется отношением числа нерелевантных документов (L - А), выданных в ответе пользо-



вателю, к общему числу документов L, выданных на запрос пользова­теля [14]:

7.2. Классификационные информационно-поисковые языки

Информационно-поисковые каталоги, основанные на классифика­ции сведений по определенной предметной области, были первыми системами информационного поиска документов.

Классификация — это группировка объектов по признакам.

Основные направления развития систем классификационного ин­дексирования документов представлены на рис. 7.2.

Классификационное индексирование документов


 

Без операций над классами (понятиями)
Граммати­ческие отношения классов (понятий)
       
  По принципу организации  
     
*~~   *
Перечисли­тельная классификация   Систематизи­рованная классификация
    i
+   *
Иерархическая классификация   Фасетная классификация

По операциям над классами (понятиями)

 

С операциями над классами (понятиями)

Логические операции над

классами (понятиями)


 


С предкоорди-

нацией классов

(понятий)


С посткоорди­нацией классов (понятий)


Рис. 7.2. Системы классификационного индексирования документов1

Первоначальные подходы к классификации тематики докумен­тов основывались на формировании списка предметных ааголов-

1 Источник: Гайдамаким Н. А. Автоматизированные информационные сис­темы, базы и банки данных. Вводный курс: Учебное пособие. — М.: Гелиос АРВ, 2002.


ков, располагаемых в алфавитном порядке. Каждая предметная руб­рика получала определенный цифровой или буквенно-цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.

Особенностью систем перечислительной классификации является ВОЗМОЖНОСТЬ индексирования документов любым количеством руб­рик, отражающих содержание документ. Для осуществления поиска необходимых документов ПО классификатору определяются коды ин­тересующих пользователя рубрик и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кода­ми [14]. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечисли­тельной классификации.

При систематизированной классификации список предметных руб­рик строится как иерархическая структура, в виде перевернутого рева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизиро­ванной классификации учитываются уже некоторые семантические ОСНОВЫ Предметной области, выражаемые в родовидовых отношени­ях основных категорий, понятий и классов (рис. 7.3).

 

 

 

 

 

 

 

 

Предметная область сведений  
     
   
   
     
  I  
1.1 1.2 2.1 2.2 2.3
    I
      I
1.1.1 1.1.2 1.1.3 2.3.1 2.3.2
I    
     
1.1.2.1 1.1.2.2| 2.3.1.1 2.3.1.2 2.3.1.3
  I   I

Рис. 7.3. Древовидная форма представления иерархической классификации'

Содержание документа индексируется кодами соответствующих рубрик, однако при атом отпадает необходимость в явном указании

1 Источник: Гайдамакин Н. А. Автоматизированные информационные сис­темы, базы и банки данных. Вводный курс: Учебное пособие. — М.: Гелиос АРВ, 2002.


более общих рубрик, к которым относятся выделенные полрубрики. В результате индексирование и поиск документов на основе иерархи­ческой классификации позволяют более адекватно отражать содержа­ние документов и обеспечивают большую точность поиска.

Перечислительный и иерархический подходы к классификации ис­пользуются в алфавитно-предметных каталогах библиотек. Недостатком

к перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все возможные темы документов.

Фасетная классификация не связана подобными ограничениями. Ее идея СОСТОИТ в том, что вся предметная область разбивается на ряд исходных рубрик — фасет по семантическому принципу, отража­ющему специфику предметной области.

Фасеты выступают в роли элементов, из которых можно сконстру­ировать любую, даже самую сложную и узкую предметную рубрику.

Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархпческому принципу [14].

Основное достоинство фасетной классификации заключается в воз­можности небольшим перечнем фасетных рубрик отразить большое

количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.



Поделиться:


Последнее изменение этой страницы: 2016-08-15; просмотров: 888; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.119.161.216 (0.012 с.)