Разные типы информационно-поисковых языков 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Разные типы информационно-поисковых языков



Информатика, заявившая о себе в середине нашего века, принесла с собой не только новую и получившую распространение терминологию ("дескрипторы", "тезаурусы", "индексирование") и не только удовлетворила нашу обычную потребность в противопоставлении нового традиционному. Новым, действительно новым, оказался более широкий подход к явлениям и принципам. Понятие, например, информационно-поискового языка (ИПЯ) позволило рассматривать предметизацию, систематизацию, книгоописание, координатное индексирование как процессы, использующие искусственные языки, семантическую силу которых можно измерять по сравнению с возможностями естественного языка. Понятие информационно-поисковой системы (ИПС), как уже говорилось, объединило многие предметы, которые прежде рассматривались изолированно, например, библио­течные фонды и каталоги, различного вида самостоятельные и вспо­могательные указатели, справочники, энциклопедии, автоматизиро­ванные поисковые системы. Это дало возможность выявить общие принципы их построения, найти общие критерии их эффективности и другие общие параметры.

Мы установили, что дескрипторные информационно-поисковые системы открыли принципиально новую возможность поиска необходимых документов и содержащейся в них информации по любому сочетанию заранее не предвиденных признаков. Однако за реализацию этой возможности приходится платить не только интеллектуальными потерями, но и материальными ресурсами. Эти системы приходится ориентировать на дорогостоящие компьютеры и программы, что предполагает более трудоемкий ввод информации и более строгие ограничения на число одновременных пользователей. Вполне естественно в такой ситуации попытаться сочетать уже имеющиеся поисковые средства со вновь создаваемыми. Отсюда вытекает и желание найти общие черты в этих разных системах и лежащих в их основе ИПЯ: языке предметных рубрик и дескрипторном языке, что обычно сочетается с поисками путей их совместимости.

Всегда можно найти такую удаленную позицию, такое основание деления, при которых эти языки попадут в один общий класс. В ряду искусственных языков они принадлежат к классу информационных, в ряду информационных – к подклассу информационно-поиско­вых. В них используются в качестве индексов слова естественного языка. При построениии этих языков применяются внешне схожие приемы: перечень предметных заголовков и словарная часть тезауруса упорядочиваются в алфавите слов. Тем не менее, учитывая эти общие и сходные черты, нельзя забывать и о принципиальных различиях данных языков. Основной словарный состав языка предметных рубрик это имена сложных классов, построенных до индексирования документов, поскольку этот язык принадлежит к типу предкоординируемых. Дескрипторный же язык является посткоординируемым, т. е. строится из имен простых классов, которые образуют необходимые понятия при их пересечении (логическом умножении) в момент индексирования и/или поиска документов.

Для того, например, чтобы индексировать статью о производстве и экспорте вычислительных и пишущих машин в США, Японии и Великобритании достаточно дескрипторов производство, экспорт, компьютер, пишущая машина и названий трех этих стран. Тогда при любой комбинации признаков при запросе (а таких комбинаций может быть 1х2хЗх4х5х6х7=5040, т. е. число перестановок из семи призна­ков) этот документ будет найден. Если же пользоваться языком предметных заголовков, то в зависимости от их заранее составленного перечня потребуется значительное число готовых рубрик. Оно, конечно, меньше указанного выше, но ровно настолько будет больше потерь при поиске.

Координатное индексирование в том и состоит, что для характеристики содержания документа или запроса перечисляются такие ключевые слова или дескрипторы, пересечение (логическое умножение) которых выражает основное смысловое содержание (главную тему, предмет) этого документа или запроса, тогда как в предметизации для данной цели используются заранее сформулированные заголовки и подзаголовки.

При индексировании, т. е. выражении основного смыслового содержания документа в терминах ИПЯ, процессы информационного анализа и синтеза совершаются в два этапа. Первый этап является общим для всех языков. Содержание документа анализируется как с позиций того, какие идеи и факты заложены в него автором, так и с позиций научных и практических интересов большинства его потенциальных читателей. (Если не иметь в виду узкоспециальных интересов, то обе точки зрения чаще всего совпадают). Результаты этого анализа синтезируются в виде субъективного представления индексатора об основном содержании документа.

Второй этап зависит от языка индексирования. Если это предкоординированный алфавитно-предмет­ный язык, то свое представление о содержании документа индексатор сверяет с потенциальными запросами читателей, отраженными в пе­речне предметных заголовков. Для посткоординируемого дескрип­торного языка аналогичному анализу подвергается тезаурус (не связанный непосредственно с потенциальными запросами потребителей) и сам текст индексируемого документа. Синтез в данном случае выражается в выборе соответствующих предметных заголовков или дескрипторов (ключевых слов).

Другими словами, при всей внешней схожести процедур индексирования посредством этих разных типов ИПЯ, характер их использования различен. В одном случае мы пользуемся готовыми продуктами в виде заголовков и подзаголовков, обозначающих класс документов определенного содержания. В другом случае это лишь исходный материал, дескрипторы и ключевые слова, при перемножении которых образуется класс, соответствующий данному содержанию. Вот почему перечень предметных заголовков и словарная часть тезауруса, при всей их внешней схожести, при том, что определенная часть слов в них может совпадать, на самом деле являются совершенно отличными друг от друга списками, слова для которых отбираются на основе разных критериев и играют различную роль.

Разные типы ИПЯ имеют свои достоинства и ограничения, которые делают их особо пригодными для решения разных поисковых задач. Возможности дескрипторного языка эффективно реализуются при узко тематическом поиске по произвольной комбинации признаков. Широкий тематический поиск по традиционным отраслям знаний и поиск по конкретным предметам, дисциплинам и их разделам в фондах документов за многие годы и в условиях одновременного обращения к ним большого числа читателей по-прежнему хорошо обеспечиваются библиотечными каталогами, основанными на иерархических и алфавитно-предметных классификациях. Выпуск информационных изданий требует разработки специальных рубрикаторов с небольшим числом уровней иерархии и подвижной, быстро меняющейся рубрикацией.

 

Базы и банки данных

С самого начала в теории информационного поиска предполагалась возможность построения не только информационно-поиско­вых, но и информационно-логических систем, которые осуществляли бы автоматическую переработку информации, а также извлечение из научных текстов неявно содержавшейся в ней информации. Эту идею много лет назад высказал один из пионеров этой теории в нашей стране В. А. Успенский[32]. В то время такая возможность связывалась с дальнейшим совершенствованием электронной вычислительной тех­ники, главным образом, с увеличением емкости оперативной памяти компьютеров и их быстродействием, что было вполне понятно. Но подобный ход мысли характерен и в наше время для специалистов в области вычислительной техники. Недаром девизом пятого поколения вычислительных машин служил переход от переработки данных и информации к переработке знаний.

Информатики же давно поняли, что переработка знаний связана не только и даже не столько с совершенствованием компьютеров, сколько с организацией самих этих знаний. В этой сфере до последнего времени господствовали представления, связанные с традиционной структурой научного знания, которое фиксируется в статьях и монографиях и отражается в библиографических бюллетенях и реферативных журналах. Но задача заключается в том, чтобы понять внутреннюю структуру знаний, взаимосвязь данных, фактов, гипотез и теорий.

За последние десятилетия значительное развитие получили исследования в области неклассических логик, баз данных и баз знаний, формализованного представления содержания текстов. Они опираются на достижения математической логики, логической семантики, структурной лингвистики и ряда других фундаментальных и прикладных дисциплин, Результаты этих теоретических исследований находят все большее применение в автоматизации информационных процессов и построении информационных систем различных типов, которые рассматриваются как средство переработки данных и знаний.

В среде информационных работников стало привычным говорить о базах и банках данных (БД и БнД). Само по себе это свидетельствует о том, что профессионалы эффективно используют компьютеры в информационной деятельности. Хуже то, что смысл и значение этих терминов, пришедших из области программирования, понимаются недостаточно глубоко. Это напоминает библиотекарей, которые с появлением теории информационного поиска стали называть каталоги информационно-поисковыми системами, что, в общем-то, верно, но ничего не изменило в традиционной организации каталогов. Так и теперь информационные издания (бюллетени сигнальной информации, реферативные журналы) на магнитной ленте или дискете любят называть базами данных, что тоже не совсем неправильно, но не отражает принципиального смысла этого понятия.

Понятие базы (или банка) данных возникло в конце 60-х гг. в связи с необходимостью освободить программы от данных, которыми они оперируют, сделать их независимыми. До этих пор данные организовывались под нужды каждой конкретной программы, что создавало массу неудобств и затруднений, особенно при изменении данных или самих программ. "База данных это реализованная средствами вычислительной техники специальная система для хранения данных о некотором фрагменте действительности. Главные идеи, лежащие в основе такой системы, – это объединение в одном месте данных, нужных для решения многих задач (может быть, даже тех, которые еще не начинали программироваться) и обеспечение независимости данных от их обработки"[33]. В процессе развития этого понятия базой данных стала называться и сама совокупность данных, организованных по определенным правилам их описания, хранения и манипулирования ими независимо от прикладных программ.

Появление баз и банков данных оказалось существенным шагом, приблизившим возможность автоматического решения многих интеллектуальных задач. Некоторые специалисты даже сравнивают это достижение с изобретением книгопечатания. Информационные работники со временем стали различать термины "база" и "банк" данных, которые первоначально употреблялись как синонимы. Теперь они понимают под банком данных систему программных, языковых, организационных и технических средств, предназначенных для централизованного накопления и коллективного использования данных, а также сами данные, хранимые в виде баз данных. Существует и более ограниченное понимание БнД как одних только программных средств: баз данных, их справочника, системы управления ими (СУБД) и библиотеки запросов и прикладных программ.

Для автоматизированных информационных систем создание банков и баз данных открывает возможность осуществлять информационный поиск не только документов, но и заключенных в них фрагментов – идей и фактов, а также манипулировать ими. Появляется реальная перспектива обогащать собственные наблюдения и результаты исследований ученых всем мировым опытом науки, содержащимся в научно-технической литературе. Значительная часть трудоемкой работы по извлечению и упорядочиванию имеющихся в документах данных, производимая прежде каждым исследователем, в принципе может быть переложена на информационную систему. В концепции банка данных реализуется давняя мечта информационных работников о создании не только автоматизированной информационно-поисковой системы, но и информационно-логической системы, позволяющей осу­ществлять анализ и синтез научной информации.

Ученый-исследователь и экспериментатор, инженер-разработ­чик и проектировщик получают возможность оперировать большим, чем до сих пор количеством данных, быстро меняя их организацию. Это можно проиллюстрировать на примере научной работы врачей. Целенаправленное наблюдение и лечение больных, страдающих определенным недугом, получает отражение в историях их болезни. Обычно несколько десятков историй болезни, сопоставленных с данными нескольких десятков литературных источников, служат материалом для написания статьи, и, в конечном счете, кандидатской диссертации. На эту работу уходят годы труда. Несколько сотен историй болезни и литературных источников могут привести к созданию монографии и докторской диссертации, на что приходилось затрачивать значительную часть жизни.

Непосредственный доступ к банку данных позволяет выполнить существенную часть этой работы значительно быстрее. Банк данных облегчает перестройку всевозможных сведений, приведение их к необходимому единообразию, получение статистической информации, поиск зависимостей между параллельными рядами данных. Другими словами, работа с базами данных на компьютере в оперативном режиме устраняет противопоставление поиска информации ее творческой переработке, стирает грань между ними. Происходит как бы диалектический возврат к слиянию этих процессов в деятельности ученого на новом витке развития по спирали.

Было бы неверно думать, что информационные системы уже сегодня готовы к повсеместному переходу на описанный режим работы, хотя и в нашей стране и особенно за рубежом создаются и функционируют автоматизированные системы такого рода. Прежде всего, теория и практика баз и банков данных еще очень молоды и быстро развиваются. Даже наиболее распространенная реляционная ее модель, имеющая ряд преимуществ перед иерархической и сетевой организацией банков данных, как математическая структура реальной действительности далека от совершенства. Именно поэтому разрабатываемые в математической логике модели информационных систем пользуются в информатике таким вниманием. Многообразные задачи, поставленные перед новыми типами информационных систем, называемых теперь интеллектуальными, требуют адекватных средств реализации.


Информационные системы



Поделиться:


Последнее изменение этой страницы: 2016-04-19; просмотров: 147; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.22.181.81 (0.014 с.)