Типичные ошибки пользователей счетчиков 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Типичные ошибки пользователей счетчиков



За последние годы нам многократно приходилось слышать, что счетчики счита-
ют все неправильно. Очень часто проведенное разбирательство показывало, что
проблемы связаны с одной или несколькими типовыми ошибками пользователей,
наиболее частые из которых рассматриваются ниже.

Установка нескольких (или многих) счетчиков:
правило 95%

Очень часто встречаются сайты, обвешанные счетчиками как новогодние елки — их
может быть три, четыре, пять и более. Когда пользователь обращается к странице
такого сайта, происходит следующее.

П Браузер начинает загружать графические элементы, делая это последовательно
(сверху вниз страницы).

□ Для каждого счетчика необходимо получить его адрес из системы адресов DNS,
установить соединение, получить графическое изображение с внешнего сайта.

□ За то время, пока это происходит, пользователь уже может уйти со страницы
по ссылке. В этом случае загрузка части счетчиков может не успеть произойти,
и данное обращение не будет засчитано.

Экспериментально установлено, что каждый дополнительный счетчик учитыва-
ет примерно на 5% меньше посещений, чем счетчик, установленный выше него
в HTML-коде.

Устанавливать стоит только те счетчики, наличие которых необходимо сайту, это
вежливо по отношению к пользователю (ускоряет загрузку страницы), позволяет
получать более корректную статистику посещаемости.

Установка кода счетчика внизу (в подвале) страницы

Чем ниже на странице установлен счетчик, тем позднее (в сравнении с другими
графическими элементами) будет производиться обращение к нему и тем больше
шансов, что клиент до загрузки счетчика успеет уйти с данной страницы на другие
страницы вашего сайта.

Для борьбы с этим продвинутые статистические системы предлагают «раздельный»
код — «считающий пиксель» (прозрачное изображение 1x1) для установки на
самом верху страницы и «логотип» для установки на видном месте. Если вы заин-
тересованы в получении от счетчика максимально точных показателей, то нужно
использовать эту возможность.

Установка кода счетчика не на все страницы сайта

Это очень распространенная проблема — например, если различные разделы
сайта собираются из разных шаблонов. Естественно, обращения к тем страни-
цам, где код счетчика не установлен, засчитываться системой статистики не
будут, поэтому может возникнуть впечатление, что посещаемость сайта ниже
ожидаемой.

Разные показатели называются одинаково или похоже

Эта проблема является проблемой интерпретации данных, однако возникает она
достаточно часто. Допустим, в системе статистики А «хитом» называется любое
обращение к странице; в системе статистики Б — тоже любое, но повторные обраще-
ния через 30 и менее секунд не засчитываются; тогда как в системе статистики В не
засчитываютсяперезагрузки (щелчки на кнопке Reload или «Обновить» браузера)
и повторные обращения менее чем через 30 секунд. Очевидно, что даже по «числу
показанных страниц» в идеальных условиях система А покажет наибольшие дан-
ные, а В — наименьшие.

Проблемы счетчиков


Системы статистики, как и любой другой сервис, не идеальны. При этом возни-
кающие у них проблемы с нагрузкой и видимостью в сети моментально становятся
проблемами их пользователей, так как при обращении к сайту с установленными
счетчиками происходит одновременное обращение пользователя и к системе ста-
тистики.

Наиболее распространенные проблемы описаны ниже.

□ Отсутствие связности сети между пользователем и сервером счетчика. Это
может быть как временная недоступность так и постоянная (например, адми-
нистратор сети, в которой находится пользователь, запретил доступ к счетчику
из соображений приватности либо экономии трафика, или же сервис счетчика
остановлен для регламентных работ). В этом случае клиентский браузер тратит
впустую изрядное количество времени на обращение к системе статистики, об-
ращения не происходит, заход пользователя на сайт не засчитан, а пользователь
раздражен, поскольку страница загружалась медленно.

□ Перегрузка системы статистики возникает в ситуации, когда пользователей
больше, чем может обслужить система. Все описанные выше симптомы (напри-
мер, «торможение» при загрузке страниц сайта с установленным счетчиком) по-
вторяются, но происходит это только в часы наибольшей загрузки (с 11-12 часов
до 17-18 часов по московскому времени). С проблемами перегрузки в разной
степени сталкиваются все системы статистики Рунета.

На практике 10-20% клиентских обращений счетчиками не учитывается, этот
процент выше в дни высокой загрузки (в будние дни, во время каких-то событий,
представляющих всеобщий интерес) и ниже в дни низкой загрузки.

Таким образом, следует с осторожностью относиться к предлагаемым рядом стати-
стических систем средствам учета заходов поисковых роботов. Так как роботы не
забирают картинки, то единственный способ учесть доступ роботов — это вставить
на страницы сайта код, который будет выполняться при любом обращении к стра-
нице и передавать в систему статистики необходимые данные. Если статистическая
система «лежит» или перегружена, то может получиться так, что и сайт будет мало
доступен или вовсе недоступен для индексации поисковой машиной, так как при
каждом обращении к серверу исполняется программа (скрипт), ожидающая ответа
статистической системы. В свою очередь это может привести к выпадению сайта
из результатов поиска.

Мы рекомендуем использовать для учета заходов индексных роботов только сис-
темы обработки журнальных файлов, которые работают независимо от сайта, сле-
довательно, лишены ряда проблем счетчиков.

11.6. Обзор возможностей анализаторов
журнальных файлов

Программы-анализаторы журнальных файлов (логов) предназначены для состав-
ления тех же отчетов, что и сервисы статистики, однако они используют данные,
которые накапливаются непосредственно на сайте. Различия в возможностях счет-
чиков и анализаторов логов были подробно рассмотрены выше.

Как и в случае со счетчиками, анализаторам необходимо «знание» о поисковых
системах и каталогах Рунета, а для анализа поисковых запросов — еще и знание
кодировок русского языка.

Основные возможности систем анализа журнальных файлов приведены в табл. 10.2.
Сюда включены отечественные решения и три зарубежные системы, две из кото-
рых (Analog и Webalizer) бесплатны и поэтому часто включаются в пакет услуг
хостерами сайтов, а третья (Webtrends) считается эталоном по набору возмож-
ностей.

11.7. Выводы

Очевидно, что возможности по анализу статистических данных возрастают одно-
временно со стоимостью решения. Оптимальный выбор зависит от круга решаемых
задач и бюджета.

В то же время оценка реальной эффективности рекламы без детального анализа
посещаемости с учетом целевых посетителей практически невозможна. Поэтому
неизбежно принятие того или иного продвинутого решения. На сегодняшний день
это означает либо установку бесплатных счетчиков Liveinternet или Google Analytics,
либо покупку того или иного решения по анализу лог-файлов за несколько сотен
долларов.

В следующей главе мы рассмотрим методы анализа предлагаемой на сайте информа-
ции. Это необходимо для определения «целей» — страниц, на которых необходимо
сосредоточить усилия по продвижению в поисковых системах.

11.8. Полезные ссылки

□ На сайте http://www.liveinternet.ru/rating/ru/ вы сможете найти рейтинг и стати-
стику для сайтов Liveinternet.ru.

□ Счетчик Rambler's ТорЮО (http://topl00.rambler.ru/topl00/) является не столько
статистикой, сколько самым популярным рейтингом сайтов Рунета.

□ «Яндекс.Метрика» (http://metrika.yandex.ru/) — статистический сервис компании
«Яндекс», в первую очередь предназначенный для анализа рекламных кампаний,
проводимых в системе контекстной рекламы «Яндекс.Директ».

□ С 2009 года счетчик SpyLog преобразился и стал работать под именем Openstat.
Система Openstat — это счетчик посещаемости, интеграция с рекламными сер-
висами, глобальная статистика. Адрес сайта — https://www.openstat.ru/.

□ Сайт системы Google Analytics — http://www.google.com/analytics/.
О Сайт системы «Alexa» — http://www.alexa.com/.

□ На сайте программы AWLA (http://www.webloganalyzer.biz/rus/webloganalyzer.
html) вы сможете получить демоверсию анализатора логов и узнать о программе
более подробно.

□ Статья Юрия Коберского «Особенности национальной интернет-статисти-
ки», две части которой можно найти по ссылкам: http://www.searchengines.ru/
articles/004597.htmLn http://www.searchengines.ru/articLes/004598.html, познакомит
вас еще с одним мнением о различиях счетчиков и лог-анализаторов.

□ Рекомендуем также серию статей Владимира Ринга о всех счетчиках Рунета:
«Новейшая обсервация российских счетчиков: формация SpyLOG» (http://
promo.by/searchengines/spylog-overview.html), «Новейшая обсервация российских
счетчиков: формация Rambler's Тор 100» (http://promo.by/searchengines/rambler-
topl00-overview.html), «Новейшая обсервация российских счетчиков: формация
Rax» (http://promo.by/searchengines/rax-overview.html), «Новейшая обсервация
российских счетчиков: формация TopMail» (http://promo.by/searchengines/
topmail-overview.html), «Новейшая обсервация российских счетчиков: формация
Hotlog» (http://promo.by/searchengines/hotlog-overview.html).

□ Сравнить статистику своего сайта с конкурентами или посмотреть относитель-
ные данные о посещаемости, доле поискового трафика, демографии других
сайтов можно с помощью сервиса «Вебомер», который получает данные из
счетчика Livelnternet.ru, адрес сервиса — http://webomer.ru/.


Глава 12

Анализ предлагаемой на сайте
информации (контент-анализ)

В этой главе вы научитесь выбирать «цели» — находить страницы, которые можно
вывести в зону видимости поисковых систем с минимальными усилиями.

12.1. Множество страниц

И множество запросов

Напомним, что семантическим ядром сайта называют список поисковых запросов,
по которым веб-мастер хочет продвигать свой сайт в результатах поиска. Будем
считать, что семантическое ядро у нас уже есть.

Пусть на начальной стадии продвижения мы имеем два множества, с которыми
нужно работать:

□ семантическое ядро — множество поисковых запросов;

□ множество веб-страниц, из которых состоит продвигаемый сайт.

Эти два множества как бы пересекаются в поисковых системах (которые устанав-
ливают соответствие между ними), и картина пересечения может быть различной.

Нулевая видимость. Ни в одном из проверяемых поисковиков, в ответ ни на один
из запросов семантического ядра в зоне видимости не находится ни одна ссылка на
продвигаемый сайт. Эта ситуация характерна для новых сайтов, то есть большин-
ство пользователей попросту не смогут найти сайт по рассматриваемым запросам.

Полная видимость. В ответ на все запросы семантического ядра во всех поисковых
системах продвигаемый сайт находится в первой десятке результатов поиска. Это
идеальная ситуация, к которой стремится каждый веб-мастер.

Средняя видимость. По каким-то запросам сайт находится, а по каким-то еще
нет. В разных поисковых системах комбинации «запрос+позиция» различны. Это
наиболее распространенная, реальная ситуация.

Для понимания текущего состояния дел вам необходимо научиться анализировать
картину пересечения множества запросов семантического ядра и множества страниц
сайта в поисковых системах.

12.2. Поиск наиболее релевантных страниц

Поисковые системы по умолчанию сортируют ссылки в результатах поиска по
убыванию релевантности. Как уже говорилось, релевантность — это рассчитывае-
мая поисковой системой мера соответствия найденного документа поисковому
запросу. Поэтому можно считать, что первая ссылка — это ссылка на страницу,
наиболее соответствующую смыслу поискового запроса, вторая ссылка — на чуть
менее соответствующую страницу и т. д.

На одном сайте может находиться несколько релевантных запросу страниц. Это
типичная ситуация, поэтому поисковая система старается не перегружать резуль-
таты поиска ссылками на один и тот же сайт.

Для каждого сайта поисковик показывает в результатах поиска ссылку только

Google

на одну, наиболее релевантную запросу страницу. Исключение — Google и с
2010 года «Яндекс», для некоторых запросов они могут отображать в выдаче ссылки
на две страницы сайта (рис. 12.1).

Iшкола анализа данных                                     jrä] Поиск I

® Поиск в Интернете О Только на русском

Веб Я Показать настройки...                                                                                                                        Результаты 1 -10

Школа анализа данных

Школа анализа данных открыта в 2007 году. Инициатором создания выступила
компания «Яндекс» Она же взяла на себя финансирование Школы. Главной целью
Школы...

shad.yandex.ru/- Сохраненная копия - П^ржие
Школа анализа данных — Компания Яндекс

Школа анализа данных придумана, организована и профинансирована компанией <
Яндекс» в 2007 году. Цель школы — подготовка специалистов в прикладных областях,...
company.yandex.ru > Статистика - Сохраненная копия

Яндекс принимает студентов в Школу анализа данных — Компания Яндекс
25 июл 2007... Яндекс открывает Школу анализа данных — вечерние двухгодичные
курсы, которые будут вести преподаватели отечественных и зарубежных...
company.yandex.ru > Статистика - Сохраненная копия

Школа анализа данных — Википедия

Школа анализа данных — двухгодичные очные вечерние курсы, организованные
компанией Яндекс для подготовки квалифицированных специалистов в прикладных...
ги.'*1к1рей1а.огдАмк1/Школа_ан!1ЛКза_данных - <

Рис. 12.1. Исключение — две ссылки на страницы одного сайта в результатах
поиска Google

Наиболее релевантная страница сайта

Найти для любого запроса наиболее релевантную страницу вашего сайта очень
просто. Для этого нужно выполнить поиск по данному запросу с условием, что
поисковик должен показать только страницы вашего сайта (рис. 12.2).

Такая возможность есть обычно в языке запросов, а также предоставляется в ин-
терфейсе расширенного поиска. Расширенный поиск и язык запросов имеется в
большинстве популярных поисковиков, в том числе в «Яндексе», Поиске@МаИ.
г и, «Рамблере» и Google.

Например, в «Яндексе» ограничить поиск только страницами вашего сайта можно
с помощью оператора языка запросов либо задать ограничение поиска страницами
вашего сайта на странице расширенного поиска «Яндекса». Для вашего удобства в
конце главы мы даем ссылки на страницы расширенного поиска и описания языка
запросов в «Яндексе», Поиске@Май.ги, «Рамблере» и Google.

В результатах поиска при таком ограниченном запросе будет выдан список ссылок
на те страницы вашего сайта, которые поисковая система считает релевантными
запросу. Алгоритм ранжирования этого списка тот же, что и в «большом» поиске.
Естественно, наиболее релевантная страница (далее — НРС) в результатах поиска
по сайту — это первая, самая верхняя страница в списке результатов. Заметим, что


Поиск Почта Касты Маркет Новости Словари Блоги Видео Картинки еще»


 


 


Яндекс

Найдется асё

Простой поиск

расширенный поиск


 


 


Я мщу.


 


 


жядалмуйге - - («зрей словом #30$ ксктммт


 


 


На сайте: mm.mystte.fu

в регионе

Пример: «ос^&а или Россия

'..'«1 с акта нш, раэдвда сайта


 


 


Слова: расположены на странице употреблены 8 текста


# в любой форме

© точно так, как е запросе

дата обновления Ш

в где угодно
® в заголовке

Страницы: язык

формат

последние 1 недели
последний месяц

последние 3 месяца

день. мес., год

НТЖ
РОг (АйоЬе Асл>М)
ЙТТ {ЯкЬТеЯРоппв!)
ООС(Мк:иио*10оп!)

русский
английский
французский
немецкий


 


 


Показывать на странице 10 20 50 результатов поиска

Итого: расположенные на сайтент глумем

Найти

Рис. 12.2. Страница расширенного поиска «Яндекса», на которой можно задать ог-
раничение поиска по одному сайту для определения наиболее релевантной страницы

именно эта страница будет находиться и отображаться поисковиком в результатах
«большого» поиска по данному запросу, если поиск не ограничен вашим сайтом.

Процесс подбора страницы для отображения в результатах поиска описан ниже.
Для любого запроса и любого сайта поисковая система выполняет следующее:

О сначала выбирает все релевантные запросу страницы сайта и определяет лучшую
из них, наиболее релевантную;

□ затем выбранная поисковиком НРС с вашего сайта начинает конкурировать
с отобранными тем же способом НРС, находящимися на других сайтах.

В результате такой конкуренции и формируется общая поисковая выдача. Чтобы
понять, как поступит поисковик со страницами вашего сайта на первом этапе, сле-
дует провести контент-анализ сайта по семантическому ядру.

Контент-анализ

Анализ содержимого сайта с целью нахождения его наиболее релевантных страниц
называется контент-анализом. Выполняется он следующим образом.

Для каждого запроса семантического ядра осуществляется поиск его в «Яндексе»
с ограничением по анализируемому сайту. Адрес каждой найденной наиболее

релевантной страницы заносится в таблицу. Та же процедура выполняется в «Рамб-
лере», Google и других поисковых системах, в которых вы будете отслеживать
положение сайта.

Подобная методика поиска НРС избавляет веб-мастера от необходимости про-
смотра десятков страниц общей выдачи поисковика. Ведь НРС, стоящая первой в
результатах поиска по сайту, не обязательно окажется в первой десятке или даже
сотне результатов «большого» поиска. С помощью поиска по сайту НРС находится
всего за один запрос в поисковую систему.

После того как будут найдены наиболее релевантные страницы по всему семанти-
ческому ядру, можно заполнить таблицу результатов контент-анализа (табл. 12.1).

Таблица 12.1. Результаты контент-анализа

URL «Яндекс» «Рамблер» Google Частота Титул
НРС 1 Запрос 1   Запрос 1 10 000

Титул НРС 1

  Запрос 2     1400
  Запрос 7 Запрос 7   450

 

НРС 2   Запрос 4 Запрос 4 850

Титул НРС 2

    Запрос 5 Запрос 5 700
  Запрос 6     550

 

HPC3     Запрос 7 450

Титул НРС 3

  Запрос 8 Запрос 8 Запрос 8 300

 

Здесь запросы сгруппированы вокруг адресов найденных НРС. В приведенном
выше примере хорошо видно, что НРС 1 соответствует запросу 1 семантического
ядра в «Яндексе» и Google, запросу 2 в «Яндексе», а также запросу 7 в «Яндексе»
и «Рамблере», НРС 3 во всех трех поисковых системах соответствует запросу 8
и т. д.

Для большей информативности каждому запросу сопоставлена его частота. Для
каждого адреса НРС приводится титульная фраза, чтобы можно было быстро оце-
нить, как выглядит ссылка на эту страницу в результатах поиска.

Таблица контент-анализа также сравнивается с полной таблицей видимости, и тогда
она может выглядеть, например, так, как показано в табл. 12.2.

Здесь светло-серым фоном выделены запросы, в ответ на которые ссылка в соот-
ветствующей поисковой системе уже находится в диапазоне Тор 10. Темно-серым
фоном выделены запросы, в ответ на которые ссылка в соответствующей поисковой
системе найдена в диапазоне ТорИ-50.

Составленная описанным образом таблица контент-анализа дает исчерпывающую
информацию о том, какие страницы, по каким запросам и в каких поисковиках лег-

Таблица 12.2. Результат контент-анализа после сравнения с полной таблицей ви-
димости

URL «Яндекс» «Рамблер» Google Частота Титул
НРС 1 Запрос 1   Запрос 1 10 000

Титул НРС 1

  Запрос 2     1400
  Запрос 7 Запрос 7   450

1

НРС 2     Запрос 4 850

Титул НРС 2

    Запрос 5 Запрос 5 700
  Запрос 6     550

1 1

НРСЗ     Запрос 7 450

Титул НРС 3

  Запрос 8 Запрос 8 Запрос 8 300

 

че всего продвигать. Так, в нашем примере, анализируя табл. 12.2, можно сделать
следующие выводы.

□ Страницу НРС1 лучше не трогать. Онауже находится в ТорЮ «Яндекса» и Google
по высокочастотному целевому запросу. Любые изменения текста на странице
или ее HTML-тегов могут повлиять на позиции сайта. Поэтому, когда хорошие
позиции уже достигнуты, веб-мастеру следует быть очень осторожным.

О Страница НРС 2 довольно легко может быть продвинута в ТорЮ Google по
запросу 4. Здесь необходимо применить приемы продвижения, которые дают
хороший эффект именно в Google.

П Страница НРС 3 является наиболее удачной для продвижения во всех поиско-
виках по запросу 8.

В составленной таблице хорошо видно, какие страницы и по каким запросам на-
ходятся уже почти «в десятке». Возможно, для того чтобы они попали в зону га-
рантированных показов (диапазон ТорЮ), будет достаточно минимальной правки.
Это наиболее перспективные «цели» для текстовой коррекции, о которой мы будем
говорить в следующей главе.

Смысл контент-анализа в том, чтобы избежать ненужных усилий по продвиже-
нию страниц, которые поисковые системы не считают наиболее релевантными по
запросам семантического ядра. Это позволит сосредоточиться на работе над стра-
ницами, которые сами поисковики выбрали в качестве «лидеров» по необходимым
веб-мастеру запросам.

12.3. Если контент-анализ
не дал результатов

Довольно часто встречается ситуация, когда поиск по сайту не дает вообще никаких
результатов, то есть «Яндекс», Поиск@МаИ.ги, «Рамблер» и Google не могут найти
на сайте ни одной страницы, соответствующей запросу семантического ядра. Это
происходит в следующих случаях.

□ Неправильно составлено семантическое ядро. Веб-мастер думает, что его сайт
соответствует выбранным запросам, а на самом деле на сайте нет информации,
которая могла бы ответить на них. В данном случае необходимо либо пересмот-
реть семантическое ядро, исключив запросы, по которым не найдено ни одной
релевантной страницы, либо добавить на сайт соответствующее содержимое —
тексты, рисунки.

□ Отличия в лексике. Лексика сайта и лексика пользовательского спроса отлича-
ются друг от друга. Один из наиболее известных примеров — запросы, касающие-
ся аренды автомобилей. Пользователи часто используют в поисковых запросах
слово «прокат», тогда как на сайтах компаний, предоставляющих автомобили в
аренду, почему-то употребляется только слово «аренда». В итоге в ответ на все
запросы типа «прокат того-то» на сайте не находятся релевантные страницы,
тогда как «аренде» того же самого могут быть посвящены целые разделы. В та-
ких случаях нужно корректировать тексты сайта, добавляя синонимы, которые
встречаются в поисковых запросах.

12.4. Выводы

От правильного выбора страниц, к которым стоит прилагать усилия по оптимиза-
ции, прямо зависит количество времени и денег, которое вы потратите на поисковое
продвижение. Определение наиболее релевантной страницы для каждого запроса
дает возможность не конкурировать в результатах поиска со своими собственными
страницами. Корректируя тексты страницы, которую поисковая система выбрала в
качестве наиболее релевантной, вы идете самым коротким и самым эффективным
путем.

В следующих главах мы разберемся с тем, как можно, используя данные контент-
анализа, корректировать текстовое содержимое сайта для его продвижения в
поисковых системах. И прежде всего мы рассмотрим вопрос, какие факторы и
почему поисковые системы считают важными для ранжирования результатов
поиска.

Контент-анализ является одним из основных методов, когда сайт требуется про-
двигать по большому количеству запросов.

12.5. Полезные ссылки

□ Поиск по определенному сайту можно проводить со страницы расширенного
поиска «Яндекса» по адресу http://yandex.ru/search/advanced.

□ Кроме того, рекомендуем ознакомиться с языком запросов поисковой системы
«Яндекс» на сайте И11р://Ме1р.уапс1ех.ги/5еагсМ/?1*с1=481939.


□ Можно ограничить область поиска одним сайтом с помощью расширенного поис-
ка «Рамблера» на странице http://www.rambler.ru/cgi-bin/advanced.cgi7set-www.

□ Дополнительная ссылка на язык запросов поисковой системы «Рамблер» —
http://help.rambler.ru/article.htmlTs-15l8iid-229.

□ То же самое, но для Google: ссылка на расширенный поиск http://www.google.
ru/advanced_search?hl=ru.

□ Советы по поиску и функции поиска Google доступны по адресу http://www.
google.com/intl/ru/help/features.html.

□ Расширенный поиск в Поиске@Маі1.ги находится по адресу http://go.mail.ru/
advanced.html.


Глава 13

Внутренние факторы,
от которых зависит положение
сайта в результатах поиска


В этой главе вы у знаете, на какие параметры веб-страницы можно влиять, чтобы
повысить ее позицию в результатах поиска, а также почему поисковые системы
считают именно эти параметры важными для ранжирования результатов по -
иска.

Мы уже знаем, как устроен индекс поисковой системы — об этом рассказывалось в
главе «Как устроены поисковые системы». Если пользователь ввел запрос, например
«новости», поисковая система увидит в своем индексе, что слово «новости» было
найдено на многих веб-страницах. При этом количество страниц может быть очень
большим — тысячи и даже десятки тысяч.

Возникает закономерный вопрос: в каком порядке поисковой системе нужно сор-
тировать (ранжировать) ссылки на найденные страницы, чтобы наверху списка
результатов оказались ссылки на страницы, наиболее соответствующие поисковому
запросу?

Для решения этой задачи поисковые системы учитывают довольно много свойств
текста страницы и всего сайта — факторов, которые можно условно разделить на
две группы: внутренние и внешние.

К внутренним факторам мы относим те факторы, на которые владелец сайта может
влиять самостоятельно. Например, тексты сайта, теги, изображения, ссылки на сайте
и т. п. Внешние факторы — это прежде всего ссылки на сайт с других сайтов Сети.
Их ставят владельцы этих сайтов, и напрямую повлиять на них нельзя. О спосо-
бах влияния на внешнюю ссылочную структуру сайта мы расскажем в отдельной
главе.

Какие же внутренние факторы учитывают поисковые системы, ранжируя ссылки
на найденные страницы?

13.1. Представление о «естественных
веб - ст рани цах»

Главный принцип поисковых систем таков: они стремятся найти и показать вверху
списка результатов «естественные веб-страницы»[20], наиболее соответствующие
запросу.

Как говорят разработчики поисковых машин, их интересуют веб-страницы, соз-
данные людьми и для людей (а не для поисковых роботов).

Что же означает слово «естественные»? Разберем это на примере.

Пусть поисковая система по запросу новости нашла два следующих текстовых
документа. В обоих текстах есть слово «новости».

ГЛАВНЫЕ НЕОФИЦИАЛЬНЫЕ НОВОСТИ 2005 ГОДА____________________________

Весь год, параллельно с самыми важными событиями, происходит множе-
ство любопытных курьезов, которые упоминаются в новостях в последнюю
очередь. Однако без них картина уходящего года была бы, наверное, не
полной, и уж во всяком случае не такой красочной. Лента. Ру предлагает спи-
сок самых странных новостей года, составленный на основе предпочтений
наших читателей.

ГЛАВНЫЕ НОВОСТИ НЕОФИЦИАЛЬНЫЕ НОВОСТИ 2005 НОВОСТИ ГОДА

Весь новости год, параллельно новости с самыми важными событиями,
происходит новости множество любопытных новости курьезов, которые
упоминаются в новостях в последнюю новости очередь. Однако без новости
них картина уходящего года была бы, наверное, не полной, и уж во всяком
новости случае не такой красочной. Лента.Ру предлагает новости список
самых странных новостей года, составленный на основе предпочтений но-
вости наших читателей.

Даже беглый взгляд на эти тексты позволяет увидеть принципиальное отличие:
первый текст написан хорошим, гладким языком, а вот второй... какой-то непра-
вильный. Читать его сложно, слово «новости» употребляется в нем не к месту и не в
меру. Иными словами, первый текст - естественный, он написан человеком и для
человека. Второй — неестественный, люди не смогут легко прочитать его и понять.
Очевидно, он составлен кем-то специально для поискового робота.

А теперь вспомним, что нам (поисковой машине) необходимо решить, ссылку на
какой из этих документов поставить выше в результатах поиска по запросу новости.
В первом тексте слово «новости» встречается два раза, во втором — двенадцать.

Казалось бы, чем чаще в тексте встречается нужное слово, тем более соответствует
текст запросу... Следуя такой простой логике, мы должны были бы в результатах
поиска первой поставить ссылку на полную белиберду.

К сожалению, поисковая система не умеет понимать тексты, как это делает человек,
и выбор из двух, или двух сотен, или двух миллионов текстов, в которых найдено
слово из поискового запроса, осуществляется автоматически. Как же поисковая
машина может автоматически отличить естественные тексты от неестественных?

На помощь приходят лингвистика и математика. Естественный текст имеет свои
качественные и количественные характеристики, которые почти не меняются от
текста к тексту. Это средняя длина предложений, средняя длина слов, частоты
употребления слов, распределение знаков препинания и т. п. Многие из этих ха-
рактеристик можно подсчитать автоматически и тем самым оценить степень есте-
ственности текста.

Наиболее устойчивы частоты встречаемости слов в тексте. Они лучше всего ис-
следованы, и их труднее всего подделать. Наиболее известным лингвистическим
фактом о частотах слов в естественных текстах является закон Ципфа: если распо-
ложить слова в порядке их частоты употребления в некотором достаточно большом
текстовом массиве, то количество вхождений слова будет обратно пропорционально
его номеру. Закон Ципфа применяют для анализа текстов в самых разных отраслях,
в том числе даже в криптографии для анализа зашифрованных сообщений, когда
нужно понять, имеем ли мы дело хоть и с зашифрованным, но все-таки естествен-
ным текстом.

Конечно, частота употребления конкретного слова сильно зависит от тематики
рассматриваемых текстов. Но в одной тематике эти частоты довольно устойчивы
и подчиняются закону Ципфа.

Зная этот закон и другие принципы поведения слов в тексте, поисковая машина
может обнаружить неестественную плотность и расположение некоторых слов и на
этом основании сделать заключение о неестественном характере текста. Например,
в приведенном примере неестественного текста частота слова «новости» почтив три
раза выше, чем ожидаемое для естественных текстов.

Несомненно, что алгоритмы ранжирования реальных поисковых машин намного
сложнее и учитывают множество факторов. Но все эти факторы, используемые в
качестве значимых параметров для ранжирования, взяты именно из представле-
ний о том, какими должны быть нормальные, естественные, сетевые документы,
предназначенные для пользователей.

У читателя может возникнуть естественный вопрос, почему мы так старательно
подчеркиваем слово «естественный». Разве в Интернете, кроме обычных текстов
веб-страниц, бывают какие-то другие, «неестественные» документы? Откуда они
могут появиться, кто и с какой целью их создает? Кому может понадобиться нечи-
таемый документ, где слово «новости» повторяется через каждые два слова?

К сожалению, неестественных документов, созданных для того, чтобы обмануть
поисковики, в Интернете очень много. Вопрос, кто их создает и с какой целью, мы
подробно разберем в главе о поисковом спаме.

А сейчас рассмотрим внутренние факторы, от которых зависит положение сайта
в результатах поиска.

13.2. Внутренние факторы ранжирования

Напомним, что внутренние факторы ранжирования — это параметры, которые вла-
делец сайта или его веб-мастер имеет возможность легко изменить самостоятельно.
Условно говоря, к внутренним факторам относится все, что находится «внутри»
сайта, — тексты, теги, рисунки, внутренние ссылки.

Наиболее интересны вхождения ключевых слов (слов поискового запроса) в раз-
личные поля и области текста страницы, и вот почему.

Общая схема алгоритма ранжирования поисковой машины такова: по запросу
поисковая машина находит все вхождения слов запроса в веб-страницу. Эти вхож-
дения взвешиваются: для вхождений учитывается их компактность (расположение
рядом), важность (вхождение в специальные поля — в титул, заголовки, близость
к началу страницы), форма и порядок расположения и т. п. Всем вхождениям назна-
чается вес, а затем вес каждого из вхождений на странице объединяются по некой
общей формуле, чтобы получить общий вес (позицию) страницы в результатах
поиска.

Ниже мы опишем основные факторы ранжирования вхождений слов, а также при-
чины, почему именно они были приняты в качестве факторов для ранжирования.

Нужно понимать, что каждая поисковая система имеет собственный набор фак-
торов ранжирования и алгоритмы их обработки, причем как сам набор факторов,
так и алгоритмы ранжирования (вместе составляющие то, что называется форму-
лой релевантности), постоянно пересматриваются и развиваются разработчиками
поисковиков для улучшения результатов поиска.

Рассмотрим кратко факторы, которые учитываются абсолютно всеми поисковыми
машинами.

«Цитата» — полный повтор запроса

Поисковая машина считает, что те документы, где слова запроса идут рядом и в том же
порядке, как в запросе, более релевантны, чем те, где слова запроса рассыпаны по раз-
ным предложениям далеко друг от друга или имеют другую грамматическую форму.
Это довольно естественное предположение, которое оправдывает себя на практике.

Для владельца сайта эта особенность ранжирования в поисковиках означает, что
наиболее выгодной стратегией является использование в тексте страницы точных
формулировок («цитат») тех поисковых запросов, по которым хочется привлечь
посетителей.



Поделиться:


Читайте также:




Последнее изменение этой страницы: 2020-10-24; просмотров: 112; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.173.112 (0.175 с.)