Організація роботи пошукових систем 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Організація роботи пошукових систем



Інтернет відкриває доступ до велетенських об’ємів інформації, тому досконало володіти ефективними прийомами пошуку дуже важливо. Тут ми обмежимось розглядом основних прийомів пошуку інформації у всесвітній павутині World Wide Web.

Перш за все зазначимо, що на відміну від бібліотеки, де для полегшення пошуку інформації надходження кожної книги належним чином реєструється у відповідних каталогах, Інтернет не є централізованою системою, тому величезні об’єми інформації щодня з’являються і зникають тут без всякої реєстрації. Завдання пошуку з більшим чи меншим успіхом вирішуються різноманітними пошуковими системами – спеціальними серверами, що постійно відслідковують певні сегменти Інтернету, забезпечуючи своїм користувачам можливість пошуку інформації за допомогою каталогів та індексів.

Каталоги пошукової системи організовані аналогічно систематичним каталогам бібліотек, що містять ієрархію розділів (наприклад: Держава і суспільство, Наука і освіта, Бізнес і фінанси тощо), які можуть поділятися на більш детальні підрозділи і т.д. Ведення і поповнення каталогів також організоване як у бібліотеках. Цим займаються як автори веб-сторінок, так і співробітники, що забезпечують функціонування пошукової системи.

Перевагою каталогів є більш чітка і впорядкована структурна організація, проте ведення каталогів вимагає значних обсягів людської праці, тому каталоги не можуть відслідковувати всю наявну в Інтернеті інформацію, до того ж досить часто буває важко однозначно віднести сторінку чи сайт до того чи іншого розділу, а отже і скористатися каталогом для їх пошуку.

Індекси пошукової системи автоматично формуються за допомогою потужних комп'ютерів, що постійно переглядають Інтернет, і дають змогу користувачам виконувати пошук інформації за ключовими словами.

Дійсно, комп'ютери можуть дуже швидко індексувати (тобто впорядковувати за алфавітом) великі масиви слів. Сервери пошукових систем виконують цю роботу не для окремих документів, а для всієї інформації, яку вони знаходять у Інтернеті, створюючи величезні індексні файли. В них поряд з кожним словом розміщується інформація про те, з якої веб-сторінки воно взяте. Отримавши запит на пошук по ключовому слову, пошукова система знаходить його в своєму індексному файлі приблизно так, як ми знаходимо слово у словнику, та надсилає нам перелік веб-сторінок, в яких це слово зустрічається.

Пошукові системи знають граматичні форми мов, з якими вони працюють: Rambler, Яndex та Апорт – російської, Мета – української і російської тощо. Наприклад, якщо в цих системах набрати ключові слова человек идет, то сторінки з текстом люди шли також будуть знайдені, не кажучи вже про однокорінні слова, що відрізняються лише відмінком, родом, числом і т.п. Натомість так звані стоп-слова (прийменники, займенники, деякі інші часто вживані слова) як правило ігноруються пошуковими системами, бо зустрічаються практично у кожному документі і тому не несуть інформації, корисної для пошуку.

Перевагою індексів є те, що вони створюються автоматично і тому охоплюють більші обсяги інформації і оперативніше відслідковують її зміни. Недоліком – те, що розшукувані ключові слова можуть використовуватися у іншому контексті, й часто трапляється, що знайдена інформація хоч і містить ключові слова, проте не має нічого спільного з тим, що ми насправді розшукуємо.

Деякі пошукові системи взагалі не мають каталогів і використовують тільки індекси. Навпаки, є пошукові системи, такі як www.list.ru, www.weblist.ru, www.stars.ru, www.au.ru, www.ru, www.ulitka.ru, що відзначаються перш за все великим обсягом і зручною організацією каталогів, хоча у них є можливість пошуку і за індексами, в тому числі в межах вибраного вами розділу каталогу.

Аналізуючи результати пошуку, не слід забувати й про те, що за час, який минув від моменту створення каталогів та індексів до моменту коли ми ними скористалися, інформація на веб-сторінках могла змінитися, а частина сторінок може бути тимчасово чи вже остаточно недоступною.

Перелік найпопулярніших пошукових систем подано в наведеній нижче таблиці.

Щоб скористатися пошуковою системою, треба відкрити її веб-сторінку, вибрати потрібний каталог та його підкаталоги або ввести ключові слова у відповідне поле і натиснути кнопку пошуку чи клавішу Enter.

Таблиця

Пошукова система Адреса в Інтернеті Мова інтерфейсу Охоплює переважно
Мета www.meta-ukraine.com Укр., рос., англ. Україну
Rambler www.rambler.ru Російська Росію та СНД[1]
Яndex www.yandex.ru Рос., англ. Росію та СНД
Апорт www.aport.ru Російська Росію та СНД
AltaVista www.altavista.com www.fr.altavista.com www.de.altavista.com www.es.altavista.com Англійська Французька Німецька Іспанська Америку, Західну Європу
Yahoo www.yahoo.com www.fr.yahoo.com www.de.yahoo.com www.es.yahoo.com Англійська Французька Німецька Іспанська Америку, Західну Європу
Lycos www.lycos.com Англійська Америку, Західну Європу
Hotbot www.hotbot.com Англійська Америку, Західну Європу

 

Існують також так звані сторінки метапошуку, наприклад www.find.ru через які можна послати запити до декількох пошукових систем одночасно.

Подібний засіб є також у складі самої програми Internet Explorer. Щоб ним скористатися натисніть на панелі інструментів кнопку Поиск, виберіть у вікні Поиск категорію пошуку: Поиск веб-страницы, введіть ключові слова і натисніть кнопку пошуку чи клавішу Enter. Результати пошуку відображатимуться у вікні Поиск. Щоб виконати пошук тих самих ключових слів у наступній пошуковій системі, натисніть кнопку Следующий. Кнопка Настройка, дозволяє задати перелік пошукових систем і послідовність, у якій вони застосовуватимуться.

Вікно Поиск зберігає також результати десяти попередніх пошуків. Щоб їх переглянути, виберіть радіокнопку Предыдущий поиск та знайдіть у списку ключові слова, за якими виконувався цей пошук.

Пошук інформації

Для пошуку інформації за одним ключовим словом необхідно набрати це слово в полі введення запитів і натиснути кнопку Знайти (Найти, Search). Пошук за одним словом доцільно проводити в тому випадку, якщо це слово є рідкісним, маловживаним або ім’ям власним, наприклад, конкорданс, Голомб, Джерард Солтон.

Для ефективного пошуку за кількома ключовими словами потрібні спеціальні команди, які дозволяють пов’язати окремі слова між собою. Ці команди в пошукових системах утворюють спеціальну мову запитів.

Кожна індексна пошукова система використовує свою власну мову запитів, тому при використанні різних пошукових систем треба знати особливості кожної. Ретельний перелік правил написання запитів для конкретної пошукової служби можна знайти на її сервері за посиланнями "Допомога", "Як скласти запит", "Поради з пошуку" тощо. Але є загальний принцип, згідно з яким усі команди можна поділити на три групи: команди простого пошуку, команди мови запитів і команди розширеного пошуку. У режимі простого пошуку запити створюються нескладними методами, але вони, як правило, призводять до численних результатів, з яких важко вибрати необхідні. Команди мови запитів дозволяють досить точно описати потрібний документ. Команди розширеного пошуку призначені не для пошуку документів за їх змістом, а, наприклад, для пошуку Web-вузлів за їх назвами, за фрагментами їх адрес, за адресами посилань, які зустрічаються на їх Web-сторінках і т.п.

Команди простого пошуку

1. Пошук групи слів. При роботі з будь-якою пошуковою системою слід з’ясувати, як вона сприймає групу слів у запиті, наприклад, видатні фізики. Україно- та російськомовні пошукові системи сприймають групу слів так, ніби між ними стоїть сполучник І, тобто шукають документи, в яких обидва ці слова зустрічаються одночасно. Так само працює пошукова система Google. Але більшість англомовних пошукових систем сприймають групу слів таким чином, ніби між ними стоїть сполучник АБО і шукають документи, які містять або перше, або друге слово, або обидва слова разом. Кількість слів у групі не обмежується.

2. Пошук словоформ. У зв’язку з тим, що в українській та російській мовах слова змінюються за відмінками, важливою властивістю пошукової системи є пошук словоформ. У більшості випадків пошукові системи дозволяють знаходити різні словоформи, наприклад, попередній запит на пошук видатні фізики рівносильний запиту видатний фізика.

3. Роль великих літер. Загальне правило для більшості пошукових систем полягає в тому, що великі літери на початку слова сприймаються як додаткова умова, що обмежує область пошуку. Наприклад, за запитом Ліга Чемпіонів будуть знайдені лише ті документи, які містять слова Ліга Чемпіонів. Проте пошук за запитом ліга чемпіонів поверне документи, в яких є слова Ліга чемпіонів, ліга Чемпіонів, Ліга Чемпіонів, ліга чемпіонів.

4. Пошук однокореневих слів. Більшість пошукових систем знаходить документи, які містять слова однокореневі з ключовими. Наприклад, пошук за запитом модел поверне документи, в яких є слова модель, моделей, модельний, моделізм, моделює, моделювання.

5. Засоби контекстного пошуку. Якщо ключові слова взяти в лапки, наприклад "To be or not to be", "Слово о полку Ігоревім", то пошукова система повинна знайти документи, в яких дана фраза присутня буквально, тобто саме так, як вона записана. Для пошуку фрази з абсолютно точним збігом пошуковій системі недостатньо індексного файла, і вона звертається до копій раніше збережених у своїй базі Web-сторінок.

6. Шукати у знайденому. Якщо в результаті пошуку було знайдено занадто багато документів і користувач має бажання скоротити такий список, то для цього використовується послуга "Шукати у знайденому", яку надають пошукові системи на пульті управління пошуком. Наприклад, запит електронна бібліотека можна уточнити запитом фантастика.

Команди мови запитів

У розширеному пошуку, крім ключових слів, використовують прості логічні оператори та логічні дужки.

1. Оператор І. За допомогою цього оператора об’єднують два чи більше слів таким чином, щоб вони всі були в документі, наприклад Ейнштейн І теорія І відносності. Як було зазначено вище, в україно- та російськомовних пошукових системах списки слів і без такого оператора сприймаються так, ніби між ними стоїть оператор І. Але для більшості англомовних пошукових систем оператор І відіграє важливу роль, йому відповідають символи " & " та " + ".

2. Оператор АБО. Оператор забезпечує пошук за будь-яким словом з групи, наприклад, університет АБО академія. У більшості пошукових систем оператор АБО записується у запиті як OR.

3. Логічні дужки. Дужки застосовуються, коли необхідно управляти порядком дій логічних операторів, наприклад, пошук за запитом (чемпіонат АБО кубок) І світу поверне документи, в яких є слова чемпіонат світу або кубок світу.

4. Оператор НЕ. Цей оператор використовується, коли з результатів пошуку необхідно вилучити деяке ключове слово. Необхідність у цьому виникає, коли треба уникнути двозначності або зменшити кількість посилань, що повертаються. Наприклад, Паскаль НЕ (мова програмування), кінопремія НЕ оскар.

5. Пошук із зазначенням відстані. Такий вид пошуку дозволяє вказати, на який відстані одне від одного повинні розташовуватися слова в документі. В англомовних пошукових системах використовується оператор NEAR. Наприклад,

information NEAR resources - для англомовних систем (чим ближче розташовані ключові слова один до одного, тим вищою є релевантність документа. Якщо відстань між словами більше 50 слів, то релевантність вважається нульовою);

[5, інформаційні ресурси] - для системи <МЕТА> (обидва ключові слова повинні належати одній групі довжиною не більше п’яти слів),

информационные/ 2 ресурсы - для системи Яндекс (відстань між ключовими словами не повинна перевищувати 2 слова).

Перегляд результатів пошуку

Найперше, на що слід звернути увагу, аналізуючи результати пошуку, – це дані про кількість знайдених сайтів і документів, що відповідають умовам пошуку. Якщо ця кількість виявляється занадто великою, то, очевидно, слід задати більш детальні критерії пошуку, щоб відібрати саме ту інформацію, яка найбільш точно відповідає нашим потребам.

Результати пошуку виводяться сторінками. Кожна з них містить інформацію приблизно про 10-15 знайдених документів. Для переходу до наступної чи попередньої сторінки треба натиснути кнопку з посиланням на відповідний номер сторінки: 1 2 3 4 чи діапазон номерів документів: 1-10 11-20 21-30 31-35. Сторінка, на якій ви зараз знаходитесь, (в нашому прикладі – це 2 чи 11-20) не містить посилання на саму себе. По краях списку можна знайти також символи подібні до >>> чи <<<, що означають продовження пошуку і перехід до сторінки, де будуть посилання на наступну групу сторінок, наприклад: 5 6 7 8, та повернення до сторінки з посиланнями на групу сторінок, що переглядалися раніше.

Нагадаємо, що інформація про знайдені документи може виводитись у короткій (тільки назва документу) чи більш деталізованій формі (з невеликим уривком його основного тексту). При значній кількості знайдених документів має значення, у якій саме послідовності вони виводитимуться: спочатку новіші документи чи ті, що точніше відповідають умова пошуку тощо. Всі ці й деякі інші параметри задаються на сторінці Розширений пошук.

Знайшовши сторінку в Інтернеті, часто буває необхідно віднайти на ній потрібний текст. Для цього можна скористатися опцією Найти на этой странице… у меню Правка або комбінацією клавішів Ctrl+F.



Поделиться:


Последнее изменение этой страницы: 2016-04-23; просмотров: 642; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 35.169.107.177 (0.032 с.)