Основні принципи пошуку інформації 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основні принципи пошуку інформації



Зупинимося докладніше на самому принципі пошуку інформації в Інтернеті і його пошукових можливостях. Вся інформація знаходиться на так званих сайтах. Кожний сайт знаходиться у своїй доменній зоні. Приналежність сайта до тієї або іншої доменної зони, як правило, свідчать про його географічне місце розташування і галузеву належність.

Через те, що числові IP-адреси host-вузлів, що забезпечують міжмережеву маршрутизацію, не дуже зручні для користувачів, IP-адреси були доповнені ієрархічною системою символічних адрес комп'ютерів, робота з якою забезпечується в Інтернеті особливою мережною службою доменних імен DNS (Domain Name System).

Доменна система імен DNS – це складна розподілена база даних, що містить інформацію про комп'ютери (в основному про комп'ютери-сервери), підключені до Інтернет. До інформації даної бази відносять символьні адреси (імена) комп'ютерів, їх числові IP-адреси, дані для маршрутизації пошти і багато чого іншого. Основним завданням служби DNS при мережній взаємодії є пошук комп'ютерів-адресатів з перетворенням символьних адрес у числові IP-адреси і навпаки.

Простір імен доменної системи являє собою дерево з кореневим каталогом «.». Під кореневим каталогом розміщуються домени верхнього рівня, нижче – другого і так далі. Таким чином, доменна система імен виконує ще одну функцію – забезпечує ієрархічну організацію адрес комп'ютерів, що входять до мережі, за принципом, відмінним від ієрархії їх фізичного підключення. Для доменного імені «sh.inform.ru» ru – є ім'ям домену верхнього рівня, inform – ім'ям домену другого рівня, a sh – ім'ям домену третього рівня. При цьому доменом найнижчого рівня є символічне ім'я комп'ютера.

Імена домену DNS верхнього рівня строго визначені і можуть бути три- або двосимвольними. Перший тип доменів верхнього рівня історично призначався для організацій, розміщених на території США, й інформував про їх організаційно-політичну належність. До трисимвольних доменів DNS верхнього рівня відносять такі імена: СОМ - комерційні організації; EDU - навчальні заклади; NET - організації, що надають мережні послуги; MIL - військові установи; GOV - урядові заклади; ORG - некомерційні організації; INT - міжнародні організації.

Двосимвольні домени DNS верхнього рівня призначаються для інших країн і збігаються з кодами цих країн згідно з ІSO. Нижче наведено кілька таких кодів: AU - Австрія. СА - Канада. DK - Німеччина. FI - Фінляндія. FR – Франція, UA - Україна, RU - Росія.

Для полегшення пошуку необхідної інформації в Інтернеті існує окрема мережна служба Archie. Дана служба забезпечує пошук за ключовими словами у спеціальній, регулярно оновлюваній базі даних про файли, доступних за анонімним ftp.

Служба WAIS (Wide Area Information Server) аналогічна Archie, однак дозволяє проводити більш глибокий пошук не тільки за іменами і загальними характеристиками файлів, але і за їх змістом.

Сервісна система Gopher об'єднує всі три вищезгадані служби воєдино. Засоби пошуку Gopher добре сполучаються з Archie і WAIS, а засоби його інтерфейсу дозволяють переглядати і копіювати документи, знайдені в результаті пошуку.

Для представлення збереженої в Інтернеті інформації у зручній для користувача формі існує спеціальна мережна служба WWW (World Wide Web), що являє собою свого роду розподілену за безліччю вузлів базу різного роду даних, побудовану на гіпертекстовій технології. Для пошуку в цій базі використовуються різні пошукові сервери, наприклад, Rambler, Lycos, Yahoo, Google та ін.

Крім названих мережних служб, в Інтернеті існують й інші служби, зокрема (RC і ICQ, що забезпечують можливість інтерактивного спілкування вилучених користувачів мережі за допомогою IRC (Internet Relay Chat), безліч користувачів можуть заходити на так звані «канали» («кімнати», «віртуальні місця», що мають, як правило, тематичну спрямованість), щоб «поговорити» із групою людей або з конкретною людиною. Служба ICQ (I Seek You) — дуже популярний останнім часом internet-пейджер, що дозволяє в будь-який час довідатися, чи знаходиться деякий користувач у мережі, обмінятися файлами і т.п.

Скористатися послугами усіх перелічених вище мережних служб можна за наявності у користувача спеціальної програми-клієнта. Відзначимо, що деякі з таких програм-клієнтів мають інтегральний характер, забезпечуючи взаємодію користувача з декількома мережними службами. Наприклад, Web-браузер фірми Netscape дозволяє працювати не тільки з www, але й з ftp, з gopher і навіть з деякими іншими службами. За деякими оцінками, у даний час Web містить сотні мільйонів сторінок, і кожні чотири місяці цей обсяг подвоюється.

Одна з основних проблем користувача сучасного Інтернету - ефективний пошук інформації. Очевидно, що актуальність цієї проблеми буде зростати, тому що обсяг документальної інформації в Інтернеті зростає експоненціально.

Основним інструментом пошуку є пошукові системи (відомо більше 200 пошукових систем), які можна класифікувати за декількома критеріями.

Обсяг пошукового індексу. Пошукові системи періодично переглядають вузли Інтернету і формують постійно оновлювані індекси документів. Через експонентне розширення всесвітньої мережі вичерпне індексування усього вмісту Web і створення одного величезного індексу практично неможливі. У даний час навіть кращі пошукові системи індексують не більше третини усього вмісту мережі. Найбільший обсяг індексуючої інформації зібраний на вузлі HotBot (34%); трохи менший — на AltaVista (28%), Northern Light (20%) і Excite (14%). Список замикає Lycos, пошукова машина якого індексує тільки близько 3% усієї інформації.

Метод вибору серверів для перегляду. Генерація пошукового індексу вимагає систематичного обходу Web-вузлів і визначення місцезнаходження кожного документа. Структура Web аналогічна структурі орієнтованого графа, тому тут можуть бути застосовані алгоритми обходу графу. Існують чотири методи такого обходу:

• випадковий вибір першої URL-адреси для ініціалізації пошуку. Програма індексує початковий документ, виділяє URL-адреси, що вказують на інші документи, а потім аналізує ці URL для пошуку «переважно в ширину» або «переважно в глибину»;

• пошук починається з набору URL-адрес, обумовлених на основі популярності Web-вузлів;

• простір Web поділяється на розділи на основі системи імен Інтернету або кодів країн, а для повного дослідження цих розділів виділяється одна або декілька програм-роботів; такий метод використовується частіше, ніж перші два;

• частота опитування – кожні кілька годин, щодня, кожний місяць. Частота опитування є важливою характеристикою якості роботи системи, тому що визначає актуальність і повноту індексу.

Використовувані пошукові технології. За цим критерієм пошукові системи можна розбити на 4 категорії:

• Тематичні каталоги.

• Спеціалізовані каталоги (он-лайнові довідники).

• Пошукові машини (повнотекстовий пошук).

• Засоби позначки-пошуку.

Тематичні каталоги передбачають обробку документів і віднесення їх до однієї з декількох категорій, перелік яких заздалегідь заданий. Фактично – це індексування на основі класифікації. Індексування може проводитися автоматично або вручну за допомогою фахівців, що переглядають популярні Web-вузли і складають короткий опис-резюме (ключові слова, анотація, реферат).

Спеціалізовані каталоги або довідники створюються за галузями і темами, за новинами, за містами, за адресами електронної пошти і т.п.

Пошукові машини (самий розвинутий засіб пошуку) реалізують технологію повнотекстового пошуку. Індексуються тексти, розміщені на опитуваних серверах. Індекс може містити інформацію про декілька мільйонів документів. Запит може бути сформульований як запит до повнотекстової бази даних, розподіленої у мережі. Оскільки це база величезних розмірів, характер запиту дуже сильно впливає на результат. При формуванні запиту у ПС можуть використовуватися такі інструменти:

1 Окремі ключові слова – цей вид запиту доцільно використовувати тільки для вузько спеціальних термінів. У протилежному разі кількість знайдених документів може досягати декількох десятків тисяч, тобто такий пошук стає безглуздим.

2 Логічні оператори.

3 Засоби контекстного пошуку:

• вказівка відстані між словами;

• вказівки порядку проходження слів;

• пошук по полях документа HTML (слово у назві, заголовку і т.п.).

4 Запит за зразком (знайти такий самий, знайти подібний) дозволяє виділяти в наборі виданих документів особливо корисний документ і автоматично формувати запит на основі ключових слів цього документа. Цей тип запитів дозволяє сформулювати більш точний запит з використанням нових ключових слів.

5 Пошук фрази — пошук документів, що містять конкретне словосполучення або фразу.

6 Пошук з використанням усіх словоформ слова — пошук з елементами морфологічного аналізу. Цей засіб особливо важливий при пошуку у російськомовних текстах.

7 Визначення області пошуку (найменування сервісу), домену (сервери з визначеним розширенням імені) і т.п.

8 Запит природною мовою. При зовнішній привабливості даний вид запиту не дуже ефективний – пошук буде не зовсім точний і повний, тому що запит автоматично індексується і система сама виділяє з нього ключові слова.

 

При розрахунку критерію видачі в пошукових системах враховуються: частота слова у документі; його місце розташування (у заголовку, підзаголовку, HTML-дескрипторах). Документи сортуються в порядку убування релевантності, інформація про них видається у вигляді: URL-адреси; назви; декількох перших рядків або короткого опису (резюме, автоматична анотація або реферат). У конкретних пошукових системах може бути запропонований різний набір цих інструментів.

При використанні засобів позначки-пошуку запит здійснюється одночасно декількома пошуковими системами, результат пошуку поєднується в загальний, упорядкований за ступенем релевантності список. Кожна система обробляє тільки частину вузлів мережі, це дозволяє значно розширити базу пошуку.



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 59; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.141.27.244 (0.008 с.)