Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Полнотекстовые базы данных и средстваСодержание книги
Похожие статьи вашей тематики
Поиск на нашем сайте
Формирования запросов в них
В ДИПС поиск документов происходит посредством просмотра поискового образа документа. Такая организация поиска документов имеет свои преимущества и недостатки. Представление документа в виде ПОД позволяет значительно снизить расходы памяти, сократить время поиска и не требует мощного и дорогого аппаратного и программного обеспечения. Поэтому технология ДИПС успешно использовалась в большинстве созданных до 90-х гг. системах автоматического документного поиска. В то же время технология ДИПС обладает рядом существенных недостатков. Любой набор информативных ключевых слов не может адекватно представлять содержание документа во всей его полноте. Кроме того, суть процесса образования ПОД состоит в структурировании документа, что может привести к искажению его содержания. Особенно это существенно для нормативных документов, где каждое слово и словосочетание представляются значимыми. В настоящее время в автоматизированных современных системах поиска документальной информации реализуются технологии поиска по полному тексту документов. Такие системы получили название - полнотекстовые базы данных (full-text system) или текстовые базы данных. Полнотекстовые базы данных используются для хранения и поиска правовой информации (справочные правовые системы — СПС), периодических изданий (газет и журналов), корпоративной документации. В отличие от СУБД в информационно-поисковых системах до сих пор не выработаны стандартные языки запросов. Различные системы используют и различные средства формирования информационных запросов. Чем мощнее поисковые возможности системы, тем богаче ее язык запросов. Во всех системах для поиска по сочетанию терминов используются логические функции AND (И), OR (ИЛИ), NOT (HE), соединяющие ключевые слова информационного запроса. Для иллюстрации процесса выполнения запроса с использованием логических функций рассмотрим следующий пример. Задано множество документов (Dl, D2, D3, D4, D5, D6, D7, D8, D9}, содержащих слова {SI, S2, S3, S4, S5, 86} таким образом, что S1 входит в текст документов D2,D3,D7,D8, S2 входит в текст документов Dl, D7, D9, S3 входит в текст документов D1, D2, D3, D4, D5, D6, D8, D9, S4 входит в текст документов D5, D6, D7, D8, D9, S5 входит в текст документов D2, D5, D7, D9, S6 входит в текст документа D4.
В этом случае: Запросу SI AND S2 будут соответствовать множество документов, являющихся результатом логического умножения множеств документов, содержащих слова S1 и.82, т.е.: SI AND S2 соответствует {D2, D3, D7, D8}x{Dl, D7, D9} = D7 Запросу S3 OR S5 будет соответствовать множество документов, являющееся результатом операции логического сложения множеств документов, содержащих слова S3 и S5, т.е.: 52 OR S5 соответствует {Dl, D7, D9} + {D2, D5, D7, D9} = {D1, D2, D5, D7, 09} Запросу S3 NOT S6 будет соответствовать множество документов, содержащих слово S3, но не содержащих слово S6, т.е.: 53 NOT S6 соответствует {Dl, D2, 03, D4, D5, Об, D8, D9} - {D4} = {Dl, D2, D3, D5, D6, D7, D8, 09} Режимы применения логических функций могут быть различными. Например, В И ПС Агама в запросе, состоящей из фразы «налоги на малое предприятие» уже подразумевается, что слова запроса соединены оператором «И». Оператор «ИЛИ» указывается явно и имеет больший приоритет, чем «И». В ИПС Евфрат все операторы указываются в явном виде, а функция NOT обозначена словом «КРОМЕ». Некоторые средства формирования запроса допускают вложенные запросы и позволяют структурировать их, задавая порядок выполнения. Обычно с этой целью применяют круглые скобки. Логические операторы, заключенные в скобки, имеют приоритет при обработке. Например, для вышеописанного случая, запрос: 52 AND S4 OR (S6 OR (S3 NOT S3)) будет выполняться в следующем порядке: 53 NOT S5 = {01,02,03,D4,D5,D6,D8,D9}-{D2,D5,D7,D9}= ={D1,03,04,06,08} S6OR(S3NOTS5)={D4}+{D1,D3,D4,D6,D8}={D1,D3,D4,D6,D8} S2 AND S4={D1,D7,D8}*{05,06,07,08,D9}={07,08} {D7,D8} + {D1,D3,D4,D6,D8} = {D1,D3,D4,D6,D7,D8} При формировании запросов в полнотекстовых базах данных желательно учитывать не только логическую взаимосвязь терминов, но и другие аспекты естественного языка. С этой целью используют различные средства. Например, усечение терминов, нормализацию терминов, операторы контекстного поиска, запрос по образцу. Обычно усекают окончания слов для того, чтобы падеж или множественное число не влияли на выбор слова. Как правило, для представления несущественного символа используют знак «?», а для представления ряда несущественных символов используют знак «*». Например, выражение «налог?» может соответствовать словам «налоги», «налогу», «налога», «налог», а выражение «налог*» может соответствовать словам «налогам», «налогообложение», «налоговая» и т.п. В ИПС Евфрат для осуществления этой операции введен оператор «по началу». В некоторых системах эта операция производится автоматически.
Автоматическая нормализация терминов состоит в приведении всех форм каждого слова к одной стандартной форме, например, существительного — к именительному падежу единственного числа. Операторы контекстного поиска позволяют учитывать контекст и осуществлять поиск в заданной комбинации слов. Эти операторы можно трактовать как функции «близости», которые являются развитием функции «И». Формы представления операторов контекстного поиска существенно различаются, причем во многих ИПС их нет вообще. В ИПС Агама ограничение контекста при поиске (в пределах одного предложения, трех предложений, всего текста) задается в меню настройки запроса. В ИПС Cherchez в качестве операторов контекстного поиска введены функции adj, near, same, with. Они определяют нахождение терминов соответственно: «в одном абзаце», «в одном предложении», «рядом друг с другом», «рядом друг за другом в указанном порядке». Может быть предложен следующий вариант операторов контекстного поиска. Оператор W обозначает слова, стоящие рядом; оператор nW — слова, разделенные не более п символами, стоящие в заданном порядке; оператор nN — слова, разделенные не более п символами, стоящие в произвольном порядке; оператор S — слава, стоящие в одном параграфе; оператор TITLE указывает, что слово должно находиться в заголовке. В поисковых системах сети Internet в качестве инструмента оператора контекстного поиска чаще всего используется оператор NEAR. Некоторые механизмы поиска позволяют выделить в выданном наборе документов особо полезный документ и задать операцию типа «Найти аналогичную информацию», «Найти подобные». При этом поиск выполняется на основе всех содержащихся в данном документе ключевых слов. Подобный тип поиска, который называют QBE (запрос по образцу), может быть очень эффективным, поскольку позволяет задействовать термины, которые были бы неочевидны для пользователя. Запрос типа QBE используется в качестве механизма поиска документальной информации в некоторых поисковых системах сети Internet (Excite, Open Text, WebGrawler). При всем многообразии средств формирования запросов одним из главных требований к любой современной компьютерной системе является наличие удобного и понятного интерфейса, обеспечивающего диалог с пользователем. Во многих современных ИПС существует возможность формулировки запросов на естественном языке. Проблема интерфейса на естественном языке достаточно успешно решается во многих системах, в которых базовым языком общения является английский, например запрос на обычном английском языке обрабатывают следующие поисковые системы Internet: AitaVista, Excite, HotBot, Infoseek Ultra, Lycos, WebGrawler. Русский язык в этом аспекте гораздо сложнее английского, так как менее структурирован, имеет более сложную морфологию и синтаксис. Поэтому в русскоязычных системах пока преобладают традиционные средства запросов.
Автоматическое индексирование Документальной информации
Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автоматической обработки (индекс документа).
Различают ручное и автоматическое индексирование. При ручном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрипторов. Преимущество ручного индексирования состоит в его качестве, недостатком является низкая производительность и, следовательно, высокая стоимость. Кроме того, при ручном индексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может получить различные индексы. При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача автоматического индексирования состоит в распознавании в словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста. Морфологический анализ текста — анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежности словоформы слову. Задачами морфологического анализа текста являются: выделение из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста. Для анализа текста в системах АИ используются различные автоматические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания словоформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что и развитом языке насчитывается десятки миллионов понятий, а слов - около миллиона. Поэтому большая часть понятий выражена комбинациями слов. Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях между словами. В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразования слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.
Как уже отмечалось ранее, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя представить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного распознавания смысла текста в развитых системах АИ помимо морфологического анализа осуществляется и автоматический синтаксический анализ текста. Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксических связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Основой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания систем машинного перевода. Результаты синтаксического анализа текста обычно представляются в виде дерева отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами. В начале 90-х гг. появились другие, альтернативные технологии автоматического индексирования текста. Например, технология «адаптивного распознавания образов», при которой каждая словоформа представляется в виде своего двоичного кода, который является ее «образом». При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии является значительное увеличение скорости индексирования и поиска информации, минимизация объема индекса. Недостатком -снижение полноты и точности поиска вследствие отсутствия семантического анализа текста, который особенно важен в случае русского языка. Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% словоупотреблений приходится на 20% слов. В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки информативности лексических единиц, составляющих текст. Считается, что как очень редкие, так и очень часто встречаемые термины не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости. При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в документ; общее число вхождения слова в документы, относительная частота вхождения слова в документ Статистические методы удобны тем, что позволяют автоматически, посредством достаточно простых операций, получить сведения о данной лексической единице в документе или массиве документов. В тоже время использование только статистических методов при определении' информативности слов не всегда приводит к адекватным результатам. Например, удаление часто встречающихся терминов уменьшает полноту, а удаление редко встречающихся терминов снижает точность поиска. Поэтому статистические методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.
В современных информационно-поисковых системах часто предусмотрено и ручное и автоматическое индексирование.
|
|||||||||
Последнее изменение этой страницы: 2016-09-13; просмотров: 534; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.117.72.24 (0.012 с.) |