Архітектура сучасних пошукових систем. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Архітектура сучасних пошукових систем.



Основні протоколи, що використовуються в Інтернет, не забезпечені достатніми вбудованими функціями пошуку, не кажучи вже про мільйони серверів, що знаходяться в ній. Протокол HTTP, який використовується в Інтернет, ефективний тільки в плані навігації, яка розглядається лише як засіб перегляду сторінок, але не їх пошуку. Теж саме відноситься і до протоколу FTP, який в цьому відношенні ще більш примітивний, ніж HTTP. В зв'язку із швидким ростом кількості інформації, доступної в Інтернет, навігаційні методи перегляду швидко досягають межі їх функціональних можливостей, не кажучі вже про їх ефективність. На сьогодні потрібну інформацію вже неможливо отримати відразу, оскільки в Інтернет знаходяться міліарди документів, доступних користувачам Інтернет, і їх кількість зростає за експоненціальною залежністю. Кількість змін, яким ця інформація була піддана, величезна, і, найголовніше, вони відбулись за дуже короткий проміжок часу. Основна проблема полягає в тому, що єдиної повної функціональної системи оновлення і занесення подібного об'єму інформації, одночасно доступного усім користувачам Інтернет в уьому світі, ніколи не було. Для того, щоби структурувати інформацію, накопичену в Інтернет, і забезпечити її користувачів зручними засобами пошуку необхідних їм даних, були створені пошукові системи.

Пошукові cистеми звичайно складаються з трьох компонентів:

  • агент (павук або кроулер), який переміщується по мережі і збирає інформацію;
  • база даних, яка містить всю інформацію, зібрану павуками;
  • пошуковий механізм, який користувачі використовують як інтерфейс для взаємодії з базою даних.

Засоби пошуку і структурування, що іноді називаються пошуковими механізмами. використовуються для того, щоби допомогти користувачам знайти потрібну інформацію. Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів. Деякі переміщуються за кожним посиланням на кожній знайденій сторінці і далі, в свою чергу, досліджують кожне посилання на кожній з нових сторінок, і так далі. Деякі ігнорують певні посилання, інші проінструктовані, що потрібно переглядати перш за все найбільш популярні сторінки.

  • Агенти - найбільш "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати навіть транзакції від Вашого імені. Вже зараз вони можуть шукати сайти специфічної тематики і повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не тільки сторінки. Вони можуть бути також запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад базі даних пошукового механізму.
  • Загальний пошук інформації в Інтернет здійснюють програми, які називаються павуками. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію базі даних пошукового механізму.
  • Кроулери переглядають заголовки і повертають тільки перше посилання.
  • роботи можуть бути запрограмовані таким чином, щоби переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. За їх природою вони можуть застрявати в циклах, отже, проходячи за посиланнями, їм потрібні значні ресурси мережі. Крім того, існують методи, призначені для того, щоби заборонити роботам пошук по сайтах, власники яких не бажають, щоби вони були проіндексовані.

Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у зустріненому документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти можуть переміщуватись по Інтернет і знаходити інформацію, після чого розміщувати її в базі даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати та проіндексувати. Проіндексована інформація відправляється базі даних пошукового механізму так само, як було описано вище.

Користувачі можуть розміщувати інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.

Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.

База даних відшукує предмет запиту, оснований на інформації, вказаній в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Для того, що визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжирування. В ідеальному випадку, документи, найбільш релевантні запиту користувача, будуть розташовані першими в списку. Різні пошукові системи використовують різні алгоритми ранжирування, однак основні принципи визначення релевантності наступні:

  1. Кількість слів запиту в текстовому вмісті документу (тобто в html-коді).
  2. Теги, в яких ці слова розташовуються.
  3. Місцеположення шуканих слів у документі.
  4. Питома вага слів, відносно яких визначається релевантність, в загальній кількості слів документу.

Ці принципи застосовуються всіма пошуковими системами. А наведені нижче використовуються деякими, але достатньо відомими (наприклад, AltaVista).

  1. Час - як довго сторінка знаходиться в базі пошукового сервера. Спочатку може здатись, що це досить безглуздий принцип. Але в Інтернет існує багато сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, це значить, що його власник досить досвідчений за даною темою і користувачу більше підійде сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж темою.
  2. Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, зареєстрованих в базі пошуковика.

База даних виводить ранжирований таким чином список документів з HTML і повертає його користувачу, який зробив запит. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання, інші виводять посилання з декількома першими реченнями, що містяться в документі або заголовок документу разом з посиланням. Коли користувач звертається до посилання на один з документів, що його інтересують, цей документ запитується у сервера, на якому він знаходиться.

Різні пошукові системи

Yahoo (www.yahoo.com)

Дана система з'явилась в Інтернет однією з перших і сьогодні Yahoo співробітничає з багатьма виробниками засобів інформаційного пошуку, а на різних її серверах використовується різне програмне забезпечення. Мова Yahoo досить проста: всі слова слід вводити через пробіл, вони з'єднуються зв'язкою AND або OR. При видачі не вказується ступінь відповідності документа запиту, а тільки підкреслюються слова із запиту, що зустрілись в документі. При цьому не відбувається нормалізація лексики і не проводиться аналіз на "загальні" слова. Високі результати пошуку отримуються тільки тоді, коли користувач знає, що в базі даних Yahoo інформація є напевно. Ранжирування проводиться за числом термінів запиту в документі. Yahoo відноситься до класу простих традиційних систем з обмеженими можливостями пошуку.

 

AltaVista (www.altavista.com)

Індексування в цій системі здійснюється за допомогою робота. При цьому робот має наступні пріоритети:

  • слова, що містить тег <title> мають вищій пріоритет;
  • ключові фрази в тегах <Meta>;
  • ключові фрази, що знаходяться на початку сторінки;
  • ключові фрази в ALT - посиланнях;
  • ключові фрази по кількості входжень (присутності) слів (фраз).

Якщо тегов на сторінці немає, використовує перші 30 слів, які індексує і показує замість опису (tag description).

Найбільш цікава можливість AltaVista - це розширений пошук. Слід сказати, що, на відміну від багатьох інших систем, AltaVista підтримує одномісний оператор NOT. Крім того, є ще один оператор NEAR, який реалізує можливість контекстного пошуку, коли терміни повинні розташовуватись рядом в тесті документу. AltaVista дозволяє пошук по ключових фразах, при цьому вона має досить великий фразеологічний словник. Крім всього іншого, при пошуку в AltaVista можна задати ім'я поля, де повинне зустрітись слово: гіпертекстове посилання, applet, назва образа, заголовок і ряд іншіх полів. На жаль, докладно процедура ранжирування в документації по системі не описана, але видно, що ранжирування застосовується як при прямому пошуку, так і при розширеному запиті. Реально цю систему можна віднести до системи з розширеним булевим пошуком.

 

Rambler (www.rambler.ru)

Це досить потужний російськомовний пошуковий сервер.

Він підтримує різні варіанти задання пошуку інформації - як в режимі командного рядка, так і за допогою спеціальних меню і вікон пошукового шаблону.

 

 

1.Сервіси Internet.

2.Організація мереж TCP/IP.

3.Підключення до Internet.

4.Проблема маршрутизації.

5.Електронна пошта.

6.Структура стека ротокола TCP/IP.

7.Інкапсуляція.

8.Основні протоколи стека TCP/IP.

9.Принципи побудови ІР- адрес.

10.Підмережі.

11. Порти і сокети.

12. Основні принципи ІР- маршрутизації.

13.Настройка ОС і мережні інтерфейси.

14.Інформаційні сервіси.

15. Матеріал на самостійне опрацювання.

 



Поделиться:


Последнее изменение этой страницы: 2016-08-12; просмотров: 165; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.118.145.114 (0.014 с.)