Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Виды документальных информационных системСодержание книги
Похожие статьи вашей тематики
Поиск на нашем сайте
Первоначальным направлением развития СУП/1 стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы языки запросов к БД. Однако создание фактографических информационных систем требует предварительной структуризации данных, например, на основе Таблиц. Она зачастую требует больших накладных расходов. Вместе с тем накапливаются большие объемы неструктурированной информации: в организационно-распорядительных документах или других текстовых источниках. Представление такой информации в фактографических системах зачастую экономически не оправдано. Теоретические исследования вопросов автоматизации обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, ПОЛНОЙ и технически реализуемой модели представления и обработки данных, как реляционная модель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов |14]. Элементом данных в документальных ИС является документ (в фактографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл. Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям. Документальная информационная система (ДИС) единое хранилище документов с инструментарием поиска и выдачи, необходимых пользователю документов [14]. Поисковый характер документальных информационных систем определил еще одно их название информационно-поисковые системы (ИПС). Соответствие найденных документов информационным потребностям пользователя называется пертинентностью. В силу теоретических и практических сложностей формализации смысловою содержания документов пертинентность относится скорее к качественным понятиям. В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы [14]: ♦ системы на основе индексирования; ♦ семантически-навигационные системы. Семантика (от греч. semantikos — обозначающий) — значения единиц языка. В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа. В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительною преобразования, но при этом смысловое содержание каждою документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов [14]. На основе определенных критериев ДИС осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя. Соответствие найденных документов запросу пользователя называется релевантностью. Схема устройства и функционирования ДИС на основе индексирования приведена на рис. 7.1 [14]. Документ Отражение Поисковое пространство под Гд поз Запрос Рис. 7.1. Схема функционирования ДИС на основе индексирования Информационно-поисковый язык (ПНЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и ПОИСКОВОГО запроса [14]. Основными элементами ИПЯ являются алфавит, лексика и грамматика. Алфавит ИПЯ система знаков, используемых для записи слов и выражений И ПЯ. Лексика, и ли словарный состав, ИПЯ совокупность слов, словосочетаний и выражений, используемых для построения текстов И ПЯ. Грамматика ИПЯ совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Можно указать следующие требования, которым должен удовлетворять ИПЯ [14,29]: ♦ располагать лексико-грамматическими средствами для точного отображения темы документа и запроса; ♦ не содержать полисемии. СИНОНИМИИ И омонимии; ♦ отображать только объективные характеристики предметов и отношении между ними; ♦ быть удобным для алгоритмического сопоставления ПОД и ПОЗ. Построение выражений ИПЯ требует решения, по крайней мере, двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений. Выбор слов определяется ИХ смыслом, обусловленным парадигматическими отношениями между предметами и явлениями, которые они определяют. Парадигматические отношения - это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными слонами. Перечислим некоторые парадигматические отношения (33): ♦ «вид род», например, «шкаф—мебель». В данном случае понятие «шкаф» является ВИДОВЫМ по отношении) к понятию «мебель». Родовое понятие всегда включает в себя видовое; ♦ -часть -целое», например «лезвие -нож»; ♦ «причина следствие»,например, «лампа—свет»; ♦ «функциональное сходство», например, «лопата—экскаватор». Естественный язык обладает высокой многозначностью. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ. Омонимия — это совпадение слов по написанию или звучанию и несовпадение по смыслу. Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, слово «соль» обозначает вещество, а также понятие смысла. Оба значения близки по сути. Синонимия это совладение слов по значению и несовпадение по написанию. Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов. Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза щита окружающей среды от человека" и фраза «защита человека от окружающей среды» имеют совершенно разный СМЫСЛ, хотя и состоят из ОДНИХ и тех же ключевых слов [33]. Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет семантическую силу ИПЯ. По способу организации понятий различают следующие ИПЯ: ♦ предкоординирусмые (классификационные) ИПЯ; ♦ посткоординируемые (дескрииторпые) ИПЯ. Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т. е. при создании языка [14, 29]. Посткоординируемые (дескрипторные) языки основаны на методе координатного индексирования. В иоеткоординпруемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрпнторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний естественного языка ключевых слов и дескрипторов [14, 29]. Координатное индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых СЛОВ пли дескрипторов. Ключевые слова это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией. К классификационным языкам относят [14]: ♦ информационно-поисковый язык иерархического типа; ♦ информационно-поисковый язык фасетного типа; ♦ алфавитно-предметную классификацию. Основными показателями эффективности функционирования ДИС являются полнота и точность информационного поиска [14]. Полнота информационного поиска R определяется отношением числа найденных релевантных документов А к общему числу релевантных документов С, имеющихся в системе [14]: с Точность информационного поиска Р определяется отношением числа найденных релевантных документов А к общему числу документов L, выданных на запрос пользователя [14]: L Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума К определяется отношением числа нерелевантных документов (L - А), выданных в ответе пользо- вателю, к общему числу документов L, выданных на запрос пользователя [14]: 7.2. Классификационные информационно-поисковые языки Информационно-поисковые каталоги, основанные на классификации сведений по определенной предметной области, были первыми системами информационного поиска документов. Классификация — это группировка объектов по признакам. Основные направления развития систем классификационного индексирования документов представлены на рис. 7.2. Классификационное индексирование документов
По операциям над классами (понятиями)
С операциями над классами (понятиями) Логические операции над классами (понятиями)
С предкоорди- нацией классов (понятий) С посткоординацией классов (понятий) Рис. 7.2. Системы классификационного индексирования документов1 Первоначальные подходы к классификации тематики документов основывались на формировании списка предметных ааголов- 1 Источник: Гайдамаким Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учебное пособие. — М.: Гелиос АРВ, 2002. ков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация. Особенностью систем перечислительной классификации является ВОЗМОЖНОСТЬ индексирования документов любым количеством рубрик, отражающих содержание документ. Для осуществления поиска необходимых документов ПО классификатору определяются коды интересующих пользователя рубрик и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами [14]. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации. При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде перевернутого рева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические ОСНОВЫ Предметной области, выражаемые в родовидовых отношениях основных категорий, понятий и классов (рис. 7.3).
Рис. 7.3. Древовидная форма представления иерархической классификации' Содержание документа индексируется кодами соответствующих рубрик, однако при атом отпадает необходимость в явном указании 1 Источник: Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учебное пособие. — М.: Гелиос АРВ, 2002. более общих рубрик, к которым относятся выделенные полрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска. Перечислительный и иерархический подходы к классификации используются в алфавитно-предметных каталогах библиотек. Недостатком к перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все возможные темы документов. Фасетная классификация не связана подобными ограничениями. Ее идея СОСТОИТ в том, что вся предметная область разбивается на ряд исходных рубрик — фасет по семантическому принципу, отражающему специфику предметной области. Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархпческому принципу [14]. Основное достоинство фасетной классификации заключается в возможности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Последнее изменение этой страницы: 2016-08-15; просмотров: 888; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.138.137.244 (0.012 с.) |