Технология гипертекста и ее использ-е в информационных системах 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Технология гипертекста и ее использ-е в информационных системах



Термин «гипертекст» б. введен Тедом Нельсоном в 1965г. для опис-я док-тов, кот. выраж-ют нелинейную стр-ру идей. Однако сама идея г-та связ-ся с Ванневаром Бушем (1945), кот. теоритически обосновал проект технич. сис-мы “Memex”, кот. позволяла связывать т-ты и их фрагменты по ассоциативным отн-ям. Но из-за отсут-я компов проект оказался оч. сложным для технич. воплощения. Проект воплотился в сис-ме «Ксанаду» Т. Нельсона, кот. уже предполагала исп-е компов.

С 1ой стор., г-т – это особая форма предст-я текстового мат-ла, его нелинейная организ-я. С др. стор., г-т – это нов. СП-б, инструмент, инф. технология, кот. делает возможным предст-е и освоение big объемов текст. мат-ла в нелинейной форме.

Технологические св-ва г-та:

· разнородность (гипермедия, т.е не т-ко т-т, но и звук и графика и видео)

· нелинейность (нет стандартной посл-ти чтения)

Компоненты г-та:

Структурно г-т предст. соб. граф, в узлах кот. нах-ся традиционные т-ты/их фрагменты, изображения, таблицы, видеоролики. Узлы связ. разнообр. отн-ми, кот. м.б. одно/-двунаправленными. Цепочка узлов, ч/з кот. проходит читатель при просмотре компонентов т-та, обр-ет путь (маршрут). Совок-ть смеж. узлов обр-ет окрестность дан узла. Окр-ть узла обр-ют те узлы, в кот. содержится инф-я, близкая по семантике к содерж-ю дан узла. Узлы сети, в кот. входит и выходит много стрелок-отношений, обр-ют центр. часть г-та, а те, кот. почти изолированы от др. узлов – его периферию.

Виды г-та:

I. структурно г-т м.б.:

· иерархическим – древовидным – существенно ограничивает возм-ти перехода м/у его компонентами. Отн-я напоминают стр-ру тезауруса, основанного на родо-видовых cвязях (Gohper).

· сетевым – позволяет исп-ть разл. типы отн-ий м/у компонентами, ен ограничиваясь отн-ми «род-вид».

II. по возмож-ти прогр. обеспечения

· простой (напр., электронное оглавление док-та, кот. позволяет перейти к-л части док-та, минуя просмотр всего док-та)

· сложный – богатая сис-ма переходов м/у компон-ми г-та, в них нет предст-я о базовом т-те, с кот. связаны второстепенные по знач-ти т-ты.

III. по способу существования:

· статистический (не меняется в процессе эксплуатации)

· динамический (изменение явл. нормал. формой существования). Обычно функц-ют там, где необх-мо постоянно анализир-ть поток инф-ии, т.е. в инф. службах разного рода

IV. по отношениям м/у элементами

· г-т жесткой стр-ры - отн-я м/у эл-ми изначально фиксируются создателями

· г - т мягкой стр-ры – отнош-я порождаются каждый раз, когда происх. обращение польз-ля к г-ту. Технология основывается на семантич. ан-зе близости док-тов/др. источ-ков инф-ии др. к др. В наст. вр. распр-но исп-е технологий мяг. стр-ры на ключевых словах. Переход от 1го узла к др. осущ-ся в рез-те поиска ключ. слов. Т.к. набор ключ. слов каждый раз м. различаться, то кажд. раз меняется и стр-ра г-та.

Чем больше узлов, тем предпочтительнее мягк. стр-ра, т.к. кодировка жестких связей отнимает слишком много вр. Стр-ра Интернет часто функц-ет как г-т мягкой стр-ры.

 

В архитектуре гиперт-вой сис-мы различается БД и система управления. Сис-ма управл-я г-том вкл-ет 2 инструментальных комплекса. Один исп-ся в кач-ве инструм-та интерактивного управл-я процессами браузинга (просмотр шаг за шагом по направлению к искомой инф-ии), а второй в процессах создания и ведения г-та. Первым броузером, получившим широкую известность стала программа Mosaic, разработтаня Марком Андриссеном в 1993г. В 1994г. на основе это программы б. создан 1 из самых популярных броузеров – Netscape Navigator. Позже – Internet Explorer.

Наиболее популярн. прогр. пакет для создания и ведения г-та сейчас - прогр. пакеты HyperCard компании Apple. Г-т в оболочке HyperCard представляется в виде каталожных карточек. польз-ль с помощью довольно простого интерфейса организует стр-ру карточки - связи м/у ними. Карточки м. содержать разл. виды инф-ии.

 

Сферы использования г-та

Бизнес и профессиональные коммуникации:

- Интерактивные гипермедиа презентации для маркетинга и сбыта
- Бизнес - отчеты
- Разработка планов и предложений
- Руководства по корпоративной политике и процедурам
- Руководства по эксплуатации
- Юридическая документация
- Медицинская информация

Обучение и научно-исследовательская деятельность(!)

- Учебные пособия
- Учебные задания
- Справочники, энциклопедии, словари, библиотеки, учебники и т.п.

- Составление рефератов, отчетов

 

Другие

- Имитация и моделирование
- Всемирная паутина (World Wide Web)
- Проектирование интерфейсов
- Организационное управление

- Искусство и культура

 

 

ИПС: типы, организация поиска, примеры соврем. поиск. сис-м

Автоматизированная ИПС – это функционирующая на основе ЭВМ и др. техн. ср-в комплекс, обеспечивающий сбор, хранение, обновление и обработку иноф-ии в целях поддержки к-л вида деят-ти. Осн. достоинство ИПС закл. в обеспечении хранения больших объемов данных и быстрого поиска нужной инф-ии среди имеющихся данных.

Абонент обращается к ИПС с информационным запросом – т-том, отражающим информационную потребность дан. абонента, напр., его желание найти список аптек, в которых можно купить нужное лекарство. Поиск инф-ии ведется в поисковом массиве, кот. формируется (и по мере необходимости обновляется) разработчиками/ администраторами сис-мы. Эл-ты поискового массива вводятся в ИПС на ЕЯ (или близком к нему), а затем обычно подвергаются индексированию, т.е. переводу на формальный информационно-поисковый язык (ИПЯ).

Индексирование - выражение центральной темы или предмета к.-л. т-та или описание к-л. о-та на ИПЯ.

По характеру поискового массива и выдаваемой инф-ии ИПС подразделяют на документальные и фактографические.

Документальная ИПС предназначена для отыскания док-тов (статей, книг, отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимую инф-ю. Поисковый массив такой ИПС сост. из поисковых образов документов (т.е. т-тов на ИПЯ, поставленных в однозначное соответствие док-ту и отражающих его признаки, необходимые для поиска его по запросу.) или из самих док-тов. В ответ на предъявляемый инф. запрос ИПС выдает некот. мн-во док-тов (или адреса их хранения), содержащих искомую инф-ю.

Фактографическая ИПС обеспечивает выдачу непосредственно фактических сведений, затребованных потребителем в инф. запросе. Поисковый массив сост. из фактографических записей, т.е. из описаний фактов, извлеченных из документов и представленных на некот. формальном яз.

Сущ-ют и смешанные ИПС, содерж., как док-ты, так и факты.

В наст. вр. фактографические ИПС (как специальный класс поисковых систем) практически не разрабатываются, выполняемые ими действия реализуются с помощью штатных СУБД.

Наиболее популяр. моделью организации поискового образа док-та явл. «векторная модель» -каждому док-ту приписывается список терминов, наиболее адекватно, отражающих его смысл т.е док-ту приписывается «вектор» = числу терминов. При булевой векторной модели эл-т вектора =1 или 0 в зав-ти от наличия/отсутствия термина в док-те.

В более сложных моделях термины «взвешиваются», т.е. «вес термина» - соотв-е дан. термина док-ту

Присвоение док-ту набора ключ. слов или кодов, определяющих его содержание. наз индексированием. Длля пополнения списка ключ. слов служит робот-индексировщик, кот. просматривает сеть, находит нов. инф. рес-сы, приписывает им термины и помещает в БД индекса. Индекс в б-ве сис-м – сис-ма связ. /у со. файлов, кот. нацелена на быстрый поиск данных по запросу. Возможны 2 способа индексир-я: свободное, когда непоср-но из т-та док-та извлекаются ключ. слова без учета всех их словоформ и отношений м/у ними; и контролируемое, когда в поисковый образ док-та вкл-ся только те слова, кот. зафиксированы в информационно-поисковом тезаурусе, где указаны их синонимические, морфологические и ассоциативные отношения.

Тезаурус -специально организованный нормативный словарь лекс. ед-ц ИПЯ и ЕЯ. Лекс. ед.ми ИПЯ явл. дескрипторы. Дескриптор ставится в однозначное соответствие группе ключ. слов ЕЯ, отобранных из т-та опр. предмет. обл-ти. Напр., в кач-ве дескриптора м. б. выбрано любое (предпочтительно наиболее часто используемое или короткое) ключ. слово/ словосоч-е / же цифровой код. Многозначному слову ЕЯ соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - 1 дескриптор. Тезаурус учитывает семантич. связи м/у словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации.

Тезаурус и грамматика составляют ИПЯ. Грамматика содержит правила образования производных ед-ц яз. (семантических кодов, синтагм, предложений) и регламентирует использование ср-в обозначения синтаксических отношений (напр., указателей связи).

В рассмотренной выше сказочной информационной службе знакомств тезаурус должен описывать всевозможные кач-ва и хар-ки, встречающиеся в письмах клиентов, правила их классификации. Грамматика и тезаурус д. б. составлены т.о., чтобы сис-ма м. понимать, что задает, скажем, число, указанное в запросе: рост, возраст или количество зубов (это м. опр-ся по ключ. слову - единице измерения), уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесь помогут словосочетания хотел бы познакомиться, должен соответствовать).

На основании тезауруса и правил грамматики формируются поисковые образы док-та и запроса (поисковое предписание). Поисковое предписание – т-т на ИПЯ, содержащий признаки док-тов, затребованных польз-лем в запросе.

Релевантность

Целью ИПС является выдача док-тов, релевантных (семантически соответствующих) запросу. Различают рел-ть содержательную и формальную. Рел-ть содержательная трактуется как соответствие док-та информ. запросу, определяемое неформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев и выберет кандидатов в женихи, отвечающих ее требованиям), а рел-ть формальная - как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в ИПС критерия выдачи.

Критерий выдачи - формальное правило, совокупность признаков, по кот. определяется степень формальной рел-ти поискового образа док-та и поискового предписания и принимается решение о выдаче/невыдаче некот. док-та в ответ на инф. запрос.

Недостатки:

При поиске сущ. 2 проблемы: нерелевантность поиска (информац. шум) и неполнота поиска. Причиной инф. шума м.б. неправильное ключ. слово, многозначность слова, нечеткое формулирование комм. цели поиска. Неполнота поиска: сис-ма не м. найти нужную инф-ю, хотя она и имеется в БД. Одна из причин этого недостатка – синонимия.

Компоненты ИПС

client – программа просмотра конкр. информ. рес-са (напр.,Netscape Navigator) обеспеч.просмотр док-тов WWW, Gopher user interface – интерфейс польз-ля, сп-б общения польз-ля с поиск. аппаратом сис-мы, т.е. с сис-мой формулировки запросов – просмотра рез-тов search engine – поисковая машина транслирует запрос польз-ля в формальн. запрос сис-мы, ищет ссылки на инф. рес-сы сети и выдает рез-ты польз-лю index database – индекс – осн. массив данных ИПС. Ищет адреса инф. рес-сов. Устроен чтобы поиск происходил max быстро и при этом м. б. бы оценить ценность рес-са. queries – запроса польз-ля, кот. сохр. в его личной БД index robot – робот-индексировщик служит для сканиров-я Интернет и поддержики индекса в актуальном сост-ии. Это осн. источ-к инф-ии о состоянии инф. рес-сов. WWW sites – инф. рес-сы сети.

Примеры ИПС AltaVista: наиболее продвинутый яз. запроса. Кроме AND, OR, NOT есть NEAR – контекстный поиск. В запросе м. указать в какой части док-та польз-ль хочет видеть ключ. слово (в ссылке, заголовке…). Разрешает поис по ключ. фразам, имеет больш. сл-рь этих фраз. Это сис-ма с расширенным булевым поиском. Yahoo – ИПЯ прост – слова вводят ч/з пробел и они соед-ся AND, OR. Не выдается степень соотв-я док-та запросу, а т-ко подчеркиваются слова из запроса, кот. встретились в док-те. Не производит нормализации т-та. Она относ-ся к классу наиболее прстых традиц. сис-м с огранич. воз-ми поиска. Lycos – в простом запросе ввод. прдл-е на ЕЯ, сис-ма нормализует запрос. Почти сразу выдается инф-я о чиле док-тов, а потом - ссылки. указ. мера близости к запросу, число слов из запроса, кот. попали в док-т. В расшир поиске – булевый поиск. Wais – строит булевые запросы, считает формальн. релевант-ть по разл. мерам близости, взвешивает термины, корректирует запросы по релев-ти, усекает термины, разбивает док-ты на поля.

Компьютерная лексикография

В рамках КЛ разраб-ся комп технологии сост-я и эксплуатации сл-рей. Спец программы – БД, комп картотеки, ПО обраб-ки т-та – позволяют в автомат режиме форм-ть словар статьи, хранить словар инфу и обраб-ть ее.

Комп лгф программы:

1. программы поддержки лгф работ

Соврем комп технологии позволяют упростить процесс сбора и хранения лгф инфы, исп-я вместо обычн карточки (слово, пример уп-я, источник примера, автор + разл доп инфа) БД, записи кот. – аналог традиц картотеки. Записи БД дают возм-ть автом-ки сортировать массив по выбранным параметрам, отбирать нужные примера, объединять их в группы. (ej D-Base, ACCESS, Fox-Base, PARADOX – соврем БД)

Этапы создания:

1) фиксация первичного лгф мат-ла

2) построение конкорданса – поиск примеров и формирование картотеки примеров

3) составление словарной статьи в БД (+ редактирование)

4) формирование т-та сл-ря, создание оригинал-макета книги

Для сл-рей писателей м.б. предумотрен этап формирования корпуса т-тов пис-лей-современников, необх для выявления различий м/у особ-ми стиля и общ хар-ми языка соотв эпохи.

Издат с-мы, исп для создания оригинал-макета: издат пакет ПО Quark-X-Press, Page-Maker, WinWord. Наи> удобны с-мы со встроенными языками, кот. позволяют формировать макросы (операции обраб-ки): процедуры приписыв-я стилей, алфавитизации, созд-я указ-лей.

 

2. автоматические сл-ри разл типов + лгф БД

АС – сл-рь в спец машинном формате, предназн для исп-ия на ЭВМ польз-ля / комп ПО обраб-ки т-та.

а) АС конечного польз-ля – ч-ка по интерфейсу и строению сущ-но отлич-ся от АС, вкл-х в с-мы МП, авт реферирования, инф поиска… Чаще это комп версии хорошо изв-х обычн сл-рей (ej Webster, Collins, Ожегов) Они повторяют стр-ру словар статьи обычн сл-рей, но! обладают f-ми, недоступными св прототипам (ej, сортировка данных по полям словар статьи – отбор всех прилаг-х; автом поиск всех вокабул с опр сем комп-том)

б) АС для программ обраб-ки т-та – АС в точн смысле (не предназн для обычн польз-ля). Особ-ти их стр-ры, сфера охвата словар мат-ла задаются ПО, кот. с ними возд-ют (ej синт сл-рь, сем сл-рь, сл-рь морфем, псевдооснов, сл-рь устойчивых с/с-й)

- АС, исп-мые в с-мах инф поиска (имеют вид тезаурусов)

АС с-м МП (вкл-ют подроб инфу о морф, синт и сем особ-тях f-ния слова)

- с-мы проверки орфографии, распознавания письм т-та (осн-ны на обычн сл-рях, предусм морф анализ / синтез словоформ РЯ) ej Зализняк

- комплексные сл-ри с разл лекс и грам инфой

- АС конкордансов, кот содержат примеры на уп-е всех слов, представл в конкр произведении / творч наследии пис-ля.

 

3. WordNet – собств-но комп сл-рь

1) файлы с лгф инфой, кот. разраб-ны лгф-ми (содерж слф-мы брит и амер написания и их зн-я, кот. представлены синонимич группой SynSet – список слвф-м, взаимозаменяемых в неск синт констр-ях – чистые синонимы)

Учит-ся 2 типа отн-й: а. лекс (м/у относит прил и сущ, прил и нареч от него, антоним, синоним группы, SynSets); б. сем (гиперон, гипон, отн-я следования / вовлечения, мероним, голоним)

2) программы конвертации лгф инфы в БД – спец утилита, кот. преобр-ет инфу из 1 блока, проверяет синтаксис файла и преобр-ет маркеры отн-й и орг-и инфы во внутр яз БД

3) с-ма БД – структурированная инфа на машин яз (не предназн для чтения ч-ка) – осущ-ет хранение данных на внутр яз БД

4) программа манипуляции с инфой (обраб-ки инфы) – позволяет проводить исследования и выводить толкования и связи (лекс+сем) в удобочитаемой форме для польз-ля

 

Очередность появления зн-й зависит от частоты встречаемости зн-я.

4 POS: N -> Adj -> Adv -> V (легк -> сложн)

N – тематически иерарх стр-ры

V оторбраж отн-я наследования

Adj+Adv – абстр гиперполя

 

4. The linguist’s Shoebox

1) позволяет сост-ть АС (толкования + перевода)

2) интерлианизация т-та – вводится т-т на Я1, запускается интерлианиз-я и польз-ль подключает нужн сл-рь, ПО автом-ки расчленяет т-т на морфемы и присваивает каждому слову зн-е из сл-ря

3) позволяет хранить лингвострановедческую инфу, вводить конкр примеры словоуп-я в конт-те.

 

 



Поделиться:


Последнее изменение этой страницы: 2016-04-19; просмотров: 373; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.128.198.21 (0.038 с.)