Все системы статистики берут свои данные из событий, происходящих при обра-
щении браузера пользователя к веб-серверу, который обслуживает ваш сайт.
События эти записываются в журнал сайта, так называемый лог.
Логи сайта
При обращении пользователя к сайту происходит сразу несколько событий.
1. Запрос страницы. Клиент (браузер) передает на WWW-сервер запрос на выдачу
страницы, при этом на сервере становятся известны:
а) обязательные параметры. IP-адрес клиента, запрашиваемый URL, дата и
время запроса (по IP-адресу можно определить географическое положение
клиента);
б) дополнительные параметры (необязательные, но обычно передаваемые):
используемый пользователем браузер, адрес (URL) предыдущей страницы,
с которой произошел переход, имя пользователя и пароль для защищенных
страниц и т. д.
2. Выдача страницы. Сервер возвращает клиенту запрошенный документ (HTML
или картинку).
3. Запись в лог. Веб-сервер записывает данные о произошедшей транзакции в жур-
нальный файл (лог-файл).
Как правило, веб-страницы (в этой главе будем называть их документами) явля-
ются составными, то есть они состоят из HTML-текста страницы и некоторого
количества вставленных в текст изображений. Все они передаются в браузер поль-
зователя по отдельности — на самом деле при запросе страницы между браузером
пользователя и веб-сервером происходит несколько транзакций, записываемых
в лог по отдельности. Необходимо упомянуть также особенности составных до-
кументов.
□ Для каждого вложенного документа (изображения, текста во фрейме, стилевого
файла и т. п.) пользовательский браузер делает отдельный запрос.
□ Элементы составного документа могут извлекаться не с одного, а с нескольких
разных сайтов (веб-серверов). В этом случае адреса (URL) вложенных элемен-
тов описываются в основном, внешнем документе. При этом запись о запросе
страницы появится не только в логах вашего сайта, но и в журнальных файлах
этих третьих серверов.
Вот пример нескольких записей журнального файла:
62.205.178.34 [17/Jun/2005:00:06: 52 +0400]
"/apache-talk/msg05126.html http/1.1" 12854 "http://www.yandex.ru/
yandsearch?rpt=rad&text=RFCl945"
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SVl; Maxthon;.NET
CLR 1.1.4322)"
"ruid=0000000142BlDAE9000092EA03030F02"
62.205.178.34 [17/Jun/2005:00:06: 52 +0400]
"image/color_logo.gif http/1.1" 2649
"http://www.1exa.ru/apache-talk/msg05126.html"
Здесь первая запись фиксирует получение HTML-страницы, а вторая — вло-
женной в нее картинки. Следует уточнить, что в этом примере оставлены только
существенные для изложения поля данных (в порядке следования: IP-адрес, дата,
URL, размер документа, URL ссылающейся страницы, название пользователь-
ского ПО и идентификатор пользователя). Журнальные файлы представляют
собой сырые данные, которые необходимо обработать. Качество их обработки
(глубина анализа) и определяет качество той системы статистики, которую вы
будете использовать. Заметим, что в логах сайта содержится вся необходимая
информация, и никаких других данных о посещаемости сайта в большинстве
случаев не существует.
Подсчет посетителей
По IP-адресам невозможно точно подсчитать количество посетителей сайта. Это
связано с тем, что многие пользователи пользуются корпоративным доступом в
Интернет и при выходе в Сеть получают один и тот же IP-адрес (адрес корпора-
тивного «прокси», то есть сервера-посредника). То же самое верно для пользова-
телей некоторых публичных систем доступа в Интернет (домашних сетей, систем
телефонного дозвона) — пользователям каждый раз назначаются разные 1Р-адреса
или один на всех.
Для более точного подсчета посетителей и для распознавания того же посетителя
в его следующих заходах на ваш сайт в Интернете используется технология Cookie
(в переводе с англ. печенье; читается как «куки»), которая заключается в следую-
щем.
□ При первом посещении сайта браузеру пользователя присваивается уникаль-
ный Cookie-идентификатор — по сути простая текстовая строчка с данными
веб-сервера. Этот идентификатор записывается на компьютер пользователя
в специальный каталог. Браузер позволяет это сделать, если только поль-
зователь специально не запретил записывать и отдавать куки в настройках
браузера.
□ При последующих просмотрах страниц сайта браузер, наоборот, сообщает этот
идентификатор выдавшему его сайту (и только ему). Таким образом, можно
отследить как нескольких пользователей, приходящих с одного IP-адреса, так
и одного пользователя, приходящего с разных 1Р-адресов.
На сегодняшний день для большинства сайтов этот метод является единственным
способом отследить поведение посетителей (без их регистрации и последующего
ввода имени и пароля).
В то же время, согласно современным оценкам, от 10 до 30% пользователей в те-
чение месяца очищают (или теряют) записи Cookie. Как уже упоминалось выше,
это приводит к тому, что оценка количества новых пользователей оказывается
завышенной.
Точность подсчетов
Реальная жизнь несколько сложнее описанной выше простой схемы. Аккуратный
подсчет статистики сайта затрудняется по нескольким причинам.
□ Часть пользователей выходит в Интернет с разделением одного IP-адреса ме-
жду многими пользователями. Это происходит при разделе одного домашнего
ADSL-соединения между несколькими жителями одной квартиры, при выдаче
провайдером временных адресов при каждом выходе в Сеть, при использова-
нии корпоративных «серверов-посредников» (прокси-серверов), зачастую при
мобильном доступе и т. п.
□ Часть пользователей меняет свой IP-адрес в процессе работы (например, после
обрыва телефонного или мобильного соединения восстановление может про-
исходить с заменой IP-адреса).
□ В компаниях и у частных пользователей часто используются персональные и
корпоративные брандмауэры, или «файрволлы» (firewall), и анонимизаторы,
не позволяющие передавать браузеру пользователя записи Cookie и другие
необязательные данные запроса.
□ Часть обращений пользователей к веб-страницам не фиксируется в логах, так
как страница на самом деле берется браузером не с самого сайта, а с локального
диска пользователя (если она была скачана ранее) или из веб-акселератора про-
вайдера (для ускорения доступа к сайтам некоторые провайдеры хранят часто
запрашиваемые страницы в специальном буфере — кэше).
По этим причинам полученные статистическими сервисами данные отличаются от
реальных. Не существует каких-то корректных способов оценить величину откло-
нения «реальности» от измеренных характеристик, однако принято считать, что эти
отклонения в среднем не превышают 5-10%. В то же время, если аудитория сайта
достаточно велика и нет оснований полагать, что она резко изменится (например,
после активной рекламы на ресурсах с большой посещаемостью), то можно считать
ошибку измерения постоянной и успешно сравнивать между собой данные по дням,
неделям, месяцам.
11.4. Обработка данных: собственный
анализ данных или счетчик?
Существует два основных способа обработки исходных данных о посещаемо-
сти.
□ Накопление журнальных файлов у себя и их самостоятельный анализ с помо-
щью программы анализа логов. Для такого анализа вам потребуется установить
соответствующую программу и прилагать регулярные усилия для получения
и обработки данных.
□ Использование внешнего сервиса обработки данных (счетчика). В этом слу-
чае третья сторона — счетчик — ведет журнал загрузок страницы. Делается
это с помощью размещения на вашем сайте элемента сайга счетчика (обычно
картинки). Затем эти данные анализируются и предоставляются потребителю
в обработанном виде.
Каждый из этих способов имеет свои особенности, достоинства и недостатки, срав-
нительный анализ которых приведен в табл. 11.1. Основные возможности обоих
упомянутых выше способов обработки данных приведены в табл. 11. 2.
Таблица 11.1. Сравнение характеристик анализаторов логов и счетчиков
1. Параметр
| 2. Счетчики
| 3. Анализаторы логов
| Стоимость установ- ки и эксплуатации
| Бесплатно или месячная оплата ($5-50/мес. и выше)
| Разовая оплата или бесплатно. Встречается схема аренды ПО (ежегодная оплата)
| Трудоемкость уста- новки и эксплуата- ции
| Небольшая: требуется ус- тановка «кода» (фрагмента HTML) на всех страницах сайта (в шаблоне)
| Требуется установка программы на сервере, где расположен сайт, либо регулярное копирование log-фaйлoв на обрабатываю- щий компьютер. Для подсчета посетителей может потребовать- ся дополнительная настройка \VWW-cepnepa
| Доступность резуль- татов анализа
| Анализ реального време- ни для данных за сегодня, задержка для длинных пе- риодов. Подробные данные хранятся не слишком долго
| Обсчет требует времени, но для сайтов с посещаемостью в тыся- чи посетителей в день и менее это время невелико
| Доступность исход- ных данных (к^- файлов)
| Данные накапливаются у владельца сервиса, переход на другой сервис невозмо- жен. Как правило, исходные данные долго не хранятся
| Данные остаются у владельца сайта
| Потери данных
| Рядовое явление — при перегрузке сервиса счетчика часть посещений не счита- ется
| Журнальные файлы могут быть утеряны из-за аварии или некомпетентности системного администратора
| Доступные типы статистики
| Общая посещаемость
сайта
| +
| +
| Посещаемость отдельных страниц и групп страниц
| +
| +
| Переходы по ссыл- кам с других сайтов
| +
| +
| Трафик с поисковых
систем
| + (детальный анализ поис- ковых фраз — не для всех счетчиков)
| +
| Заходы поисковых роботов
| Классические счетчики не отслеживают. Решения этой
проблемы для счетчиков имеют свои недостатки
| +
| Сравнение аудито- 1 рии с конкурентами
| + (технологически возмож- но, политически - не всегда)
| - (нет данных конкурента для анализа)
| |
Продолжение *Ъ
Таблица 11.1 (продолжение)
1. Параметр
| 2. Счетчики
| 3. Анализаторы логов
| Социодемографиче-
ские характеристики аудитории
| +
|
| География посети- телей
| +
| + - (требуется источник данных о географии)
| Фильтрация дан- ных по критериям (источник трафика, точка продаж)
| - + (возможности ограни- чены)
| + - (не все анализаторы, хотя возможна фильтрация исходных данных внешней программой)
| |
Таблица 11.2. Сравнительные возможности систем анализа лог-файлов
Параметр
| Analog
| \¥еЬаНгег
| Webtrends
| Статистика Bitrix
| Хе1Ргоп^ег
(^апа1угег + + статистика сайта)
| Стоимость
| Бесплатно
| Бесплатно
| От $895 (Small Busi- ness Ed.) до $9995 (Enterprise)
| $500 (MySQL)- $3000 (Oracle).
Работает только с сайтами на Bitrix
| Статистика сайта: $400, анализатор входит в состав пакета «продвижение сайта»
| Нагрузочная способность (кол-во об- рабатывае- мых данных)
| Высокая (за счет низкой функцио- нальности)
| Высокая (за счет низкой функцио- нальности)
| Высокая
| Неизвестно
| Невысокая, рассчитана на небольшие сайты
| Анализ общей посе- щаемости
| + (нет подсчета пользова- телей)
| + (нет подсчета пользова- телей)
| + (разные способы подсчета пользовате- лей)
| +
| +
| Детальный анализ посе- щаемости по страницам/ каталогам
| +
| +
| +
| +
| +
| География
| -+ (по доменам)
| - + (по доменам)
| + (данные по России
неточные)
| + - (по стра- нам)
| +
| Статистика по ссы- лающимся сайтам
| +
| +
| +
| +
| +
| |
Параметр
| Analog
| \Vebalizer
| Webtrends
| Статистика Вклх
| NetPromoter (loganalyzer +
+ статистика сайта)
|
Статистика по переходам с поисковых систем и поисковым фразам
|
| - + (нет
поддержки
русского
языка)
| - + (нет поддержки русского языка)
| +
| +
|
Статистика по заходам поисковых роботов
| Общая (выделяет- ся по User- Agent)
| Общая
| + (без поддерж- ки части российских поискови- ков)
| Детальная
| Общая в «Статистике сайта», детальная в Log Analyzer
|
Точки входа, точки выхо- да, пути по
сайту
|
| +(только
точки
входа)
| +
|
| +
|
Анализ
рекламных
кампаний
|
|
| Развитые средства, чем дороже, тем лучше. Ориенти- ровка на онлайн- продажи
| Возможность создавать свои «события» как цепочки посещенных страниц.
Простые воз- можности по анализу реклам- ных кампаний.
| Простые сред- ства (заходы по кампании без детального анализа)
|
Экспорт данных
| -
| -
| XLS, DOC, PDF
| -
| -
|
Время на освоение
| Минималь- ное
| Минималь- ное
| Большое
| Среднее
| Среднее
|
Отчеты для руководства (executive summary)
|
|
| + (отче- ты очень высокого качества, но на англий- ском)
|
|
|
Обобщая вышеизложенное, основные различия между собственной обработкой
данных и сервисом можно свести к следующему.
□ Сторонний сервис (счетчик) дешевле по стартовым затратам, начать его ис-
пользовать можно через несколько минут. Получаемые результаты (набор
отчетов и их точность) ограничены тем набором возможностей, которые пре-
доставляет сервис счетчика. Обычно у счетчиков есть бесплатные тарифные
планы с ограниченными возможностями и платные — с более мощной стати-
стикой.
□ Собственная обработка журнальных файлов требует относительно больших
денежных и временных затрат на стадии внедрения, однако в ходе дальнейшей
эксплуатации обеспечивает большую гибкость.
Часть отчетов доступна только для одной из технологий.
Сравнение аудиторий своего сайта и сайта конкурентов можно сделать только в
публичном счетчике. Это невозможно осуществить средствами анализа лишь соб-
ственных журнальных файлов, потому что на собственном сайте у вас нет доступа
к данным конкурентов, а у счетчика он есть (конечно, если ваши конкуренты также
разместили у себя код данного счетчика).
Напротив, счетчики обычно или вовсе не анализируют заходы индексных роботов
поисковых систем, или предлагаемые ими решения имеют серьезные недостатки.
В то же время для оценки качества индексации поисковыми машинами можно
использовать предоставляемые поисковиками средства для веб-мастеров.
Установка счетчика (особенно многих счетчиков) от третьих сторон может замед-
лять доступ посетителя к сайту, что в ряде случаев вызывает раздражение у поль-
зователей и владельца сайта.
Таким образом, выбор средств анализа статистики должен производиться исходя
из имеющихся задач.
Необходимо упомянуть о третьем способе получения данных о посещаемости: ана-
лизе поведения части пользователей. Как правило, эти данные собираются путем
установки дополнения (панели инструментов или «тулбара») к пользовательскому
браузеру. Эти дополнения предоставляют пользователю какую-то дополнительную
функциональность, взамен собирая данные о просмотренных сайтах и страницах.
Такие тулбары предлагают своим пользователям как крупные интернет-порталы
(«Яндекс», Google и др.), так и специализированные компании по сбору интернет-
статистики («Alexa», TNS-Gallup Media). Компания «Alexa» предоставляет доступ
к собранной таким способом обобщенной статистике интернет-сайтов. Для любого
сайта Интернета можно посмотреть:
Ö количество пользователей сайта (в % от общемировой аудитории Сети);
□ долю поискового трафика;
□ базовые социально-демографические характеристики (возраст, пол, образова-
ние);
□ оценку основных источников трафика для сайта (ресурсы, которые были посе-
щены непосредственно перед переходом на анализируемый сайт) и сайты, на
которые пользователь уходит с данного.
При использовании этих данных необходимо понимать следующие особенности
сервиса «Alexa».
□ Очень невысокая полнота выборки: не более долей процента русскоязыч-
ных пользователей имеют установленный тулбар «Alexa». Как следствие, для
сайтов с невысокой посещаемостью данные будут очень неточными, а при
посещаемости менее нескольких сотен человек в день данных может вовсе
не быть.
□ Смещенность выборки: тулбар «Alexa» распространен в англоязычных странах
значительно шире, чем в России. Как следствие, сайты с большей долей ино-
странных посетителей будут иметь гораздо более высокую оценку трафика, чем
ресурсы, ориентированные исключительно на Россию.
Таким образом, с помощью этого сервиса можно решить задачу сравнения своего
сайта с сайтами конкурентов, но при этом у последних должна быть примерно такая
же аудитория — как по размеру, так и по составу.
11.5. Счетчики: возможности, достоинства
и недостатки