Характеристика функціонування документальних інформаційних систем на основі індексування. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Характеристика функціонування документальних інформаційних систем на основі індексування.



Залежно від особливостей реалізації сховища документів та механізмів пошуку, ДІС можна розділити на дві групи:

o системи на основі індексування;

o семантично-навігаційні системи.

o Семантика (від грец. semantikos – той, що позначає) – значення одиниці мови.

o У семантично-навігаційних (гіпертекстових) системах документи, що поміщаються в сховище документів, оснащуються спеціальними навігаційними конструкціями (гіперпосиланнями), які відповідають смисловим зв'язкам між різними документами або окремими фрагментами одного документа.

o У системах на основі індексування початкові документи поміщаються в базу без будь-якого додаткового перетворення, але при цьому смисловий зміст кожного документа відображається в деякий пошуковий простір. Процес відображення документа у пошуковий простір називається індексуванням і полягає в присвоєнні кожному документу деякого індексу – координати в пошуковому просторі.

Формалізоване представлення індексу документа називається пошуковим образом документа (ПОД). Користувач виражає свої інформаційні потреби за допомогою спеціальної мови, формуючи пошуковий образ запиту (ПОЗ) до бази документів. На основі певних критеріїв ДІС здійснює пошук і видачу документів, пошукові образи яких відповідають пошуковим образам запиту користувача.

При автоматизації пошуку документальної інформації найважливішим є завдання формалізації змісту документа і запиту. При цьому пошук відбувається по всьому тексту документа або по його пошуковому образу, а як запит найчастіше виступають окремі ключові слова або їх логічні комбінації. Саме на цій технології заснована дія інформаційно-пошукового тезауруса (ІПТ).

Операція пошуку – це основна операція в автоматизованій ІПС. Сутність пошуку полягає в ідентифікації відомостей, які зберігаються в такій системі з інформаційним запитом. До систем з вибірковим пошуком належать автоматизовані ІПС, в яких пошук виконується за постійним набором запитів для певного контингенту користувачів у масиві поточних надходжень документів чи даних через певні інтервали часу. При цьому змінюється зміст масивів ІПС, а запити лишаються без змін.

У системах з ретроспективним пошуком останній виконується за всіма масивами, що зберігаються в системі, згідно з разовими запитами, які змінюються залежно від інформаційних потреб користувача.

В автоматизованій ІПС виконуються такі основні операції:

o введення до системи так званих пошукових образів документів чи пошукових образів разом із самими документами;

o зберігання інформації в системі

o формування запитів і пошукових розпоряджень та введення їх до системи;

o пошук (порівняння пошукових образів документів з пошуковими розпорядженнями), прийняття рішення про видачу відповід­ної інформації;

o видавання інформації, що відповідає інформаційному запиту.

Найбільш ефективний засіб пошуку інформації – це перегляд кожного документа і перевірка його на відповідність інформаційному запиту. Проте для зберігання в автоматизованій ІПС повних текстів документів потрібні великі трудовитрати на перенесення цих текстів до пам’яті ЕОМ. Крім того, зберігання інформації в повному обсязі потребує значного обсягу пам’яті, а сам інформаційний пошук стає вельми тривалим. Тому в комп’ютерних інформаційно-пошукових системах пошук виконується не за текстам самих документів, а за їх стислими характеристиками, які називаються пошуковими образами (ПОД).

Пошуковий образ – це виражений у термінах інформаційно-пошукової мови основний зміст документа, який підлягає зберіганню в автоматизованій ІПС. Процедура визначення пошукового образу називається індексуванням і полягає в семантичному аналізі основного змісту документа й перекладі його на інформаційно-пошукову мову (ІПМ). Отже, у комп’ютерній ІПС зберігаються не тексти документів, а їх пошукові образи. Для пошуку документів перекладу на ІПМ (тобто індексації) підлягають й інформаційні запити.

Процес індексування виконується вручну (тобто людиною). Досі не знайдено ефективного формального методу, за допомогою якого можна було б автоматизувати процес семантичного аналізу і визначення основного змісту документів. Під час індексування людина вивчає зміст документа, виокремлює його центральну тему та описує її в термінах інформаційно-пошукової мови. Для деяких документів їх назви розкривають центральну тему і предмет, але за назвою не завжди можна ідентифікувати документ.

Ступінь докладності вираження в ПОБ документа його центральної теми чи предмета, а також супутніх тем і предметів називається глибиною індексування. Кожна людина один і той самий документ може індексувати по-cвоєму, тому автоматизація цього процесу дала б змогу забезпечити його уніфікацію, звільнивши частину персоналу від важкої непродуктивної праці з індексування документів. Кожна автоматизована ІПС містить у своєму складі певний набір семантичних засобів: інформаційно-пошукову мову, методи індексування документів та запитів, методи пошуку.

Поняття інформаційно-пошукової мови. Основні елементи інформаційно-пошукової мови. Види інформаційно-пошукових мов.

Інформаційно-пошукова система для управлінських документів, як правило, вимагає розробки власної інформаційно-пошукової мови, адекватної даній предметній галузі. У документальних інформаційно-пошукових системах пошук документа відбувається за коротким формалізованим описом його змісту, так званим пошуковим образом документа. Автоматизований документальний пошук може бути організований на основі різних технологій:

o пошуку за пошуковим образом документа;

o пошуку за повним текстом документа;

o пошуку документів за гіпертекстовими посиланнями.

Технологія повнотекстового пошуку є невід'ємною складовою таких сучасних і перспективних інформаційних технологій, як:

o системи управління документами (Document management system, DMS);

o технологій групової роботи над документами (groupware);

o технологій пошуку в Internet/Intranet;

o технологій гіпертексту (найвіідоміший сервіс Internet ‑ World Wide Web (WWW)).

Найважливішою структурною складовою ІПС є інформаційно-пошукова мова.

Інформаційно-пошукова мова, ІПМ (indexing language, retrieval language) - штучна мова для виразу змісту документів або запитів з метою подальшого пошуку.

Інформаційно-пошукова мова – це деяка формалізована семантична система, призначена для вираження змісту документа і пошукового запиту з метою подальшого пошуку.

Пошуковий простір, що відображає пошукові образи документів і реалізує механізми інформаційного пошуку документів так само, як і в СУБД фактографічних систем, будується на основі інформаційно-пошукових мов (ІПМ). За аналогією з мовами баз даних фактографічних систем ІПМ можна розділити на структурну і маніпуляційну складові.

Структурна складова ІПМ (пошукового простору) документальних ІПС на основі індексування реалізується індексними покажчиками у формі інформаційно-пошукових каталогів, тезаурусів і генеральних покажчиків.

 

Характеристика структури інформаційно-пошукового тезауруса та основні відмінності тезауруса від словника ключових слів певної предметної галузі. Сфера застосування і перспективи розвитку інформаційно-пошукових тезаурусів.

Інформаційно-пошукові каталоги є традиційними технологіями організації інформаційного пошуку в документальних фондах бібліотек, архівів і являють собою класифікаційну систему знань з певної предметной області. Смисловий зміст документа в інформаційно-пошукових каталогах відображається тим чи іншим класом каталогу, а індексування документів полягає у присвоєнні кожному документу спеціального коду (індексу) відповідно до змісту класу (класів) каталогу і створеного на його основі спеціального індексного покажчика.

Тезаурус являє собою спеціальним чином організовану сукупність основних лексичних одиниць (понять) предметної області (словник термінів) і опис парадигматичних відносин між ними. Парадигматичні відношення виражаються семантичними відносинами між елементами словника, не залежними від будь-якого контексту. Незалежність від контексту означає узагальненість (абстрагування) смислових відносин, наприклад відносини «рід-вид», «предмет-ціле», «суб'єкт-об'єкт-засіб-місце-час дії». Так само, як і в інформаційно-пошукових каталогах, в системах на основі тезаурусів в інформаційно-пошуковий простір відображається не весь текст документа, а тільки лише виражений засобами тезауруса смисловий зміст документа.



Поделиться:


Последнее изменение этой страницы: 2016-07-11; просмотров: 470; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.15.3.154 (0.005 с.)