Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Архітектура сучасних пошукових систем.↑ ⇐ ПредыдущаяСтр 9 из 9 Содержание книги
Поиск на нашем сайте
Основні протоколи, що використовуються в Інтернет, не забезпечені достатніми вбудованими функціями пошуку, не кажучи вже про мільйони серверів, що знаходяться в ній. Протокол HTTP, який використовується в Інтернет, ефективний тільки в плані навігації, яка розглядається лише як засіб перегляду сторінок, але не їх пошуку. Теж саме відноситься і до протоколу FTP, який в цьому відношенні ще більш примітивний, ніж HTTP. В зв'язку із швидким ростом кількості інформації, доступної в Інтернет, навігаційні методи перегляду швидко досягають межі їх функціональних можливостей, не кажучі вже про їх ефективність. На сьогодні потрібну інформацію вже неможливо отримати відразу, оскільки в Інтернет знаходяться міліарди документів, доступних користувачам Інтернет, і їх кількість зростає за експоненціальною залежністю. Кількість змін, яким ця інформація була піддана, величезна, і, найголовніше, вони відбулись за дуже короткий проміжок часу. Основна проблема полягає в тому, що єдиної повної функціональної системи оновлення і занесення подібного об'єму інформації, одночасно доступного усім користувачам Інтернет в уьому світі, ніколи не було. Для того, щоби структурувати інформацію, накопичену в Інтернет, і забезпечити її користувачів зручними засобами пошуку необхідних їм даних, були створені пошукові системи. Пошукові cистеми звичайно складаються з трьох компонентів:
Засоби пошуку і структурування, що іноді називаються пошуковими механізмами. використовуються для того, щоби допомогти користувачам знайти потрібну інформацію. Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів. Деякі переміщуються за кожним посиланням на кожній знайденій сторінці і далі, в свою чергу, досліджують кожне посилання на кожній з нових сторінок, і так далі. Деякі ігнорують певні посилання, інші проінструктовані, що потрібно переглядати перш за все найбільш популярні сторінки.
Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у зустріненому документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована. Агенти можуть переміщуватись по Інтернет і знаходити інформацію, після чого розміщувати її в базі даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати та проіндексувати. Проіндексована інформація відправляється базі даних пошукового механізму так само, як було описано вище. Користувачі можуть розміщувати інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних. Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі. База даних відшукує предмет запиту, оснований на інформації, вказаній в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Для того, що визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжирування. В ідеальному випадку, документи, найбільш релевантні запиту користувача, будуть розташовані першими в списку. Різні пошукові системи використовують різні алгоритми ранжирування, однак основні принципи визначення релевантності наступні:
Ці принципи застосовуються всіма пошуковими системами. А наведені нижче використовуються деякими, але достатньо відомими (наприклад, AltaVista).
База даних виводить ранжирований таким чином список документів з HTML і повертає його користувачу, який зробив запит. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання, інші виводять посилання з декількома першими реченнями, що містяться в документі або заголовок документу разом з посиланням. Коли користувач звертається до посилання на один з документів, що його інтересують, цей документ запитується у сервера, на якому він знаходиться. Різні пошукові системи Yahoo (www.yahoo.com) Дана система з'явилась в Інтернет однією з перших і сьогодні Yahoo співробітничає з багатьма виробниками засобів інформаційного пошуку, а на різних її серверах використовується різне програмне забезпечення. Мова Yahoo досить проста: всі слова слід вводити через пробіл, вони з'єднуються зв'язкою AND або OR. При видачі не вказується ступінь відповідності документа запиту, а тільки підкреслюються слова із запиту, що зустрілись в документі. При цьому не відбувається нормалізація лексики і не проводиться аналіз на "загальні" слова. Високі результати пошуку отримуються тільки тоді, коли користувач знає, що в базі даних Yahoo інформація є напевно. Ранжирування проводиться за числом термінів запиту в документі. Yahoo відноситься до класу простих традиційних систем з обмеженими можливостями пошуку.
AltaVista (www.altavista.com) Індексування в цій системі здійснюється за допомогою робота. При цьому робот має наступні пріоритети:
Якщо тегов на сторінці немає, використовує перші 30 слів, які індексує і показує замість опису (tag description). Найбільш цікава можливість AltaVista - це розширений пошук. Слід сказати, що, на відміну від багатьох інших систем, AltaVista підтримує одномісний оператор NOT. Крім того, є ще один оператор NEAR, який реалізує можливість контекстного пошуку, коли терміни повинні розташовуватись рядом в тесті документу. AltaVista дозволяє пошук по ключових фразах, при цьому вона має досить великий фразеологічний словник. Крім всього іншого, при пошуку в AltaVista можна задати ім'я поля, де повинне зустрітись слово: гіпертекстове посилання, applet, назва образа, заголовок і ряд іншіх полів. На жаль, докладно процедура ранжирування в документації по системі не описана, але видно, що ранжирування застосовується як при прямому пошуку, так і при розширеному запиті. Реально цю систему можна віднести до системи з розширеним булевим пошуком.
Rambler (www.rambler.ru) Це досить потужний російськомовний пошуковий сервер. Він підтримує різні варіанти задання пошуку інформації - як в режимі командного рядка, так і за допогою спеціальних меню і вікон пошукового шаблону.
1.Сервіси Internet. 2.Організація мереж TCP/IP. 3.Підключення до Internet. 4.Проблема маршрутизації. 5.Електронна пошта. 6.Структура стека ротокола TCP/IP. 7.Інкапсуляція. 8.Основні протоколи стека TCP/IP. 9.Принципи побудови ІР- адрес. 10.Підмережі. 11. Порти і сокети. 12. Основні принципи ІР- маршрутизації. 13.Настройка ОС і мережні інтерфейси. 14.Інформаційні сервіси. 15. Матеріал на самостійне опрацювання.
|
||||
Последнее изменение этой страницы: 2016-08-12; просмотров: 190; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.223.238.150 (0.011 с.) |