Порівняльна характеристика переваг та недоліків ручного та автоматизованого індексування документів.



Мы поможем в написании ваших работ!


Мы поможем в написании ваших работ!



Мы поможем в написании ваших работ!


ЗНАЕТЕ ЛИ ВЫ?

Порівняльна характеристика переваг та недоліків ручного та автоматизованого індексування документів.



Автоматизо́вана інформаці́йно-пошуко́ва систе́ма (АІПС) — інформаційна система у вигляді сукупності мовних, алгоритмічних і технічних засобів, призначених для автоматичного зберігання, пошуку, видачі необхідної інформації. Складається з двох компонентів: абстрактної АІПС (сукупність інформаційно-пошукової мови, правил індексування і критерію семантичної відповідності) та інформаційно-пошукового обладнання (технічних засобів пошуку і видачі інформації).

Основні операції АІПС[ред. • ред. код]

· ввід у систему пошукових образів документів чи пошукових образів разом із самими документами;

· зберігання інформації в системі;

· формування запитів, опис пошукових розпоряджень та введення їх у систему;

· пошук, тобто порівняння пошукових образів документів з пошуковими розпорядженнями, прийняття рішення про видачу відповідної інформації;

· видача інформації, що відповідає інформаційному запиту.

· Переваги та недоліки АІПС[ред. • ред. код]

Переваги Недоліки
Простота у використанні Пошук за ключовими словами дає занадто багато посилань і багато з них марні
Висока швидкість роботи Величезна кількість пошукових машин з різними інтерфейсами користувача породжує проблему когнітивного перевантаження
Висвітлення сторінок, що вже були відкриті Методи індексування баз даних, як правило, не пов'язані з інформаційним змістом
Можливість уточнення запиту Часто видаються посилання на інформацію, якої в Інтернеті вже давно немає
Велика база даних Машини ще не настільки досконалі, щоб розуміти природну мову

Поняття та суть індексу в документальних інформаційно-пошукових системах. Організація та смисл його елементів. Смислове відображення повного тексту документів, агрегованих в інформаційно-пошукових системах.

Індексува́ння — присвоєння документу набору ключових слів або кодів, які слугують вказівником змісту документа і використовуються для його пошуку. Слід не плутати поняття «індексування» та "індексацію, оскільки ці поняття різні. Індексування — процес перекладу змісту документів із природної мови на штучну інформаційно-пошукову мову (ІПМ), в результаті чого створюється пошуковий образ документа (ПОД) і пошуковий образ запиту (ПОЗ). У такий спосіб відбувається згортання інформації, що знаходиться в документі, і перетворення її на ІПМ у вигляді індексу, рубрики,коду (класифікаційною мовою) або дескриптора, ключового слова (дескрипторною мовою)[1].

Індексацією називається система і сукупність позначень, прийнята для документної класифікації. Вона виконує кілька основних функцій: закріплює логічну структуру класифікації, виступає засобом зв'язку між діленнями таблиць, рубриками АПП, відділами на книжкових полицях при систематичній розстановці, засобом запису результатів систематизації в бібліографічних записах, у самих виданнях тощо[2].

Поняття та суть індексування документів[ред. • ред. код]

Індексування — це процес вираження змісту документа або запиту на інформаційно-пошуковій мові. Він являє собою не опис документа як фізичного об'єкта (створення бібліографічного опису, визначення виду, носія інформації тощо), а є його інтелектуальним аналізом, тобто розкриває його зміст за допомогою систем класифікації, тезаурусів, словників предметних рубрик, авторитетних файлів[3]. Суть індексування полягає в тому, щоб передати зміст документів, а в разі необхідності й деякі формальні ознаки у вигляді коротких закодованих повідомлень, так званих пошукових образів документів (ПОД). Наявність ПОД забезпечує подальший пошук документів завдяки зіставленню ПОД із пошуковим приписом. Це завдання присвоєння документам (їх копіям, графічним образам, електронним файлам документів), що дозволяють швидко класифікувати, сортувати та шукати інформацію в архіві, що міститься в документах, в архіві без перегляду самого документа. Найпростішою формою індексування є картотека у звичайній бібліотеці, яка дозволяє знайти потрібну книгу без фізичного доступу до самого носія[4].

Способи індексування

Відомі два способи індексування:

· вільне — це коли безпосередньо із змісту документа виокремлюють ключові слова без врахування всіх видозмін їхніх форм і відношень між ними;

· контрольоване — це коли в пошуковий образ документа включаються лише ті слова, які зафіксовано в словнику ключових слів, в якому вказано їхні синонімічні, родо-видові та асоціативні відношення[5].

Пошуковий образ як результат індексування

Результатом індексування документа є його пошуковий образ (ПОД), що виражає основний зміст документа, тобто, який являє собою набір індексів (лексичних одиниць) ІПМ, що відповідають основним предметам і аспектам змісту документа[6].

Інформаційно-пошукова мова(ІПМ) та вимоги до неї

Сьогодні існує багато інформаційно-пошукових мов (ІПМ), що різняться за своїм призначенням та принципами побудови. Інформаційно-пошукові мови, що базуються на різноманітних класифікаціях — це ІПМ класифікаційного типу. Вони призначені для індексування документів та інформаційних запитів на основі індексів класифікаційних систем — ББК, УДК, ДКД, ГРНТІ тощо. Для того, щоб якісно здійснити процес індексування, необхідно зрозуміти сутність ІПМ. Індексування здійснюється на основі інформаційно-пошукових мов. ІПМ є основним елементом логіко-семантичного апарата інформаційно-пошукових систем (ІПС). Інформаційно-пошукова мова (ІПМ) — це спеціалізована штучна мова, призначена для передачі змісту і формальних ознак документів, а також інформаційних запитів пошуку потрібних документів. Необхідність створення штучної мови для виразу смислового змісту інформації з метою її пошуку обумовлена тим, що природна мова, тобто мова, за допомогою якої ми спілкуємось, має такі властивості, котрі заперечують її використання для запису та пошуку інформації. До таких властивостей головним чином відноситься неоднозначність та багатозначність термінів природної мови. Труднощі використання природної мови, як ІПМ, обумовлені ще тим, що в ІПС використовуються як вхідні документи не повні тексти, а реферати, анотації, бібліографічні описи, котрі є результатом згортання змісту документів[7].

Вимоги до ІПМ:

1. Однозначність (тобто, кожен запис ІПМ повинен мати тільки одне змістовне значення, пояснення, однакову форму запису засобами ІПМ);

2. Достатня семантична сила (тобто, здатність відображати з необхідною повнотою та точністю смисловий зміст документів та запитів визначеної предметної області);

3. Відкритість (тобто, забезпечення можливості корегувати мову)[8].

Види індексування документів[ред. • ред. код]

Залежно від ІПМ, яка використовується в тому чи іншому пошуковому масиві, документи підлягають обробці за такими видами індексування:

· систематизація;

· предметизація;

· координатне індексування.

Методика індексування документів[ред. • ред. код]

Правила Процес індексування включає наступні правила:

· повно і точно передавати зміст документа;

· ключові слова повинні відображати зміст по тексту, розділам, передмові, анотації документа.

Правила індексування добре погоджені між собою і забезпечують тісний взаємозв'язок багатьох технологічних і лінгвістичних рішень, прийнятих при побудові й використанні основних елементів системи в ряду «комплектування — програмне забезпечення — індексування інформації — процес проведення пошуку».

Для індексування документів застосовуються поля «Номери, індекси, коди», поля приміток та поля предметного доступу. Кожний документ розглядається з таких аспектів:

1. Тема (основна рубрика);

2. Персоналія (організація, захід, уніфікована назва);

3. Територія (географічні назва, географічні підрозділи);

4. Хронологія (хронологічний період);

5. Професія.

ІННОВАЦІЇ У БІБЛІОТЕЧНІЙ ТА АРХІВНІЙ СФЕРАХ



Последнее изменение этой страницы: 2016-07-11; просмотров: 160; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.92.28.52 (0.009 с.)