Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Типичные ошибки пользователей счетчиков
За последние годы нам многократно приходилось слышать, что счетчики счита- Установка нескольких (или многих) счетчиков: Очень часто встречаются сайты, обвешанные счетчиками как новогодние елки — их П Браузер начинает загружать графические элементы, делая это последовательно □ Для каждого счетчика необходимо получить его адрес из системы адресов DNS, □ За то время, пока это происходит, пользователь уже может уйти со страницы Экспериментально установлено, что каждый дополнительный счетчик учитыва- Устанавливать стоит только те счетчики, наличие которых необходимо сайту, это Установка кода счетчика внизу (в подвале) страницы Чем ниже на странице установлен счетчик, тем позднее (в сравнении с другими Для борьбы с этим продвинутые статистические системы предлагают «раздельный» Установка кода счетчика не на все страницы сайта Это очень распространенная проблема — например, если различные разделы
Разные показатели называются одинаково или похоже Эта проблема является проблемой интерпретации данных, однако возникает она Проблемы счетчиков Системы статистики, как и любой другой сервис, не идеальны. При этом возни- Наиболее распространенные проблемы описаны ниже. □ Отсутствие связности сети между пользователем и сервером счетчика. Это □ Перегрузка системы статистики возникает в ситуации, когда пользователей
На практике 10-20% клиентских обращений счетчиками не учитывается, этот Таким образом, следует с осторожностью относиться к предлагаемым рядом стати- Мы рекомендуем использовать для учета заходов индексных роботов только сис- 11.6. Обзор возможностей анализаторов Программы-анализаторы журнальных файлов (логов) предназначены для состав- Как и в случае со счетчиками, анализаторам необходимо «знание» о поисковых Основные возможности систем анализа журнальных файлов приведены в табл. 10.2. 11.7. Выводы Очевидно, что возможности по анализу статистических данных возрастают одно- В то же время оценка реальной эффективности рекламы без детального анализа В следующей главе мы рассмотрим методы анализа предлагаемой на сайте информа- 11.8. Полезные ссылки □ На сайте http://www.liveinternet.ru/rating/ru/ вы сможете найти рейтинг и стати- □ Счетчик Rambler's ТорЮО (http://topl00.rambler.ru/topl00/) является не столько □ «Яндекс.Метрика» (http://metrika.yandex.ru/) — статистический сервис компании
□ С 2009 года счетчик SpyLog преобразился и стал работать под именем Openstat. □ Сайт системы Google Analytics — http://www.google.com/analytics/. □ На сайте программы AWLA (http://www.webloganalyzer.biz/rus/webloganalyzer. □ Статья Юрия Коберского «Особенности национальной интернет-статисти- □ Рекомендуем также серию статей Владимира Ринга о всех счетчиках Рунета: □ Сравнить статистику своего сайта с конкурентами или посмотреть относитель- Глава 12 Анализ предлагаемой на сайте В этой главе вы научитесь выбирать «цели» — находить страницы, которые можно 12.1. Множество страниц И множество запросов Напомним, что семантическим ядром сайта называют список поисковых запросов, Пусть на начальной стадии продвижения мы имеем два множества, с которыми □ семантическое ядро — множество поисковых запросов; □ множество веб-страниц, из которых состоит продвигаемый сайт. Эти два множества как бы пересекаются в поисковых системах (которые устанав-
Нулевая видимость. Ни в одном из проверяемых поисковиков, в ответ ни на один Полная видимость. В ответ на все запросы семантического ядра во всех поисковых Средняя видимость. По каким-то запросам сайт находится, а по каким-то еще Для понимания текущего состояния дел вам необходимо научиться анализировать 12.2. Поиск наиболее релевантных страниц Поисковые системы по умолчанию сортируют ссылки в результатах поиска по На одном сайте может находиться несколько релевантных запросу страниц. Это Для каждого сайта поисковик показывает в результатах поиска ссылку только
на одну, наиболее релевантную запросу страницу. Исключение — Google и с Iшкола анализа данных jrä] Поиск I ® Поиск в Интернете О Только на русском Веб Я Показать настройки... Результаты 1 -10 Школа анализа данных Школа анализа данных открыта в 2007 году. Инициатором создания выступила shad.yandex.ru/- Сохраненная копия - П^ржие Школа анализа данных придумана, организована и профинансирована компанией < Яндекс принимает студентов в Школу анализа данных — Компания Яндекс Школа анализа данных — Википедия
Школа анализа данных — двухгодичные очные вечерние курсы, организованные Рис. 12.1. Исключение — две ссылки на страницы одного сайта в результатах Наиболее релевантная страница сайта Найти для любого запроса наиболее релевантную страницу вашего сайта очень Такая возможность есть обычно в языке запросов, а также предоставляется в ин- Например, в «Яндексе» ограничить поиск только страницами вашего сайта можно В результатах поиска при таком ограниченном запросе будет выдан список ссылок Поиск Почта Касты Маркет Новости Словари Блоги Видео Картинки еще»
расширенный поиск
Я мщу.
жядалмуйге - - («зрей словом #30$ ксктммт
На сайте: mm.mystte.fu
'..'«1 с акта нш, раэдвда сайта
Слова: расположены на странице употреблены 8 текста
Показывать на странице 10 20 50 результатов поиска Итого: расположенные на сайтент глумем Найти Рис. 12.2. Страница расширенного поиска «Яндекса», на которой можно задать ог- именно эта страница будет находиться и отображаться поисковиком в результатах Процесс подбора страницы для отображения в результатах поиска описан ниже. О сначала выбирает все релевантные запросу страницы сайта и определяет лучшую □ затем выбранная поисковиком НРС с вашего сайта начинает конкурировать В результате такой конкуренции и формируется общая поисковая выдача. Чтобы Контент-анализ Анализ содержимого сайта с целью нахождения его наиболее релевантных страниц Для каждого запроса семантического ядра осуществляется поиск его в «Яндексе» релевантной страницы заносится в таблицу. Та же процедура выполняется в «Рамб- Подобная методика поиска НРС избавляет веб-мастера от необходимости про- После того как будут найдены наиболее релевантные страницы по всему семанти-
|
Здесь запросы сгруппированы вокруг адресов найденных НРС. В приведенном
выше примере хорошо видно, что НРС 1 соответствует запросу 1 семантического
ядра в «Яндексе» и Google, запросу 2 в «Яндексе», а также запросу 7 в «Яндексе»
и «Рамблере», НРС 3 во всех трех поисковых системах соответствует запросу 8
и т. д.
Для большей информативности каждому запросу сопоставлена его частота. Для
каждого адреса НРС приводится титульная фраза, чтобы можно было быстро оце-
нить, как выглядит ссылка на эту страницу в результатах поиска.
Таблица контент-анализа также сравнивается с полной таблицей видимости, и тогда
она может выглядеть, например, так, как показано в табл. 12.2.
Здесь светло-серым фоном выделены запросы, в ответ на которые ссылка в соот-
ветствующей поисковой системе уже находится в диапазоне Тор 10. Темно-серым
фоном выделены запросы, в ответ на которые ссылка в соответствующей поисковой
системе найдена в диапазоне ТорИ-50.
Составленная описанным образом таблица контент-анализа дает исчерпывающую
информацию о том, какие страницы, по каким запросам и в каких поисковиках лег-
Таблица 12.2. Результат контент-анализа после сравнения с полной таблицей ви-
|
че всего продвигать. Так, в нашем примере, анализируя табл. 12.2, можно сделать
следующие выводы.
□ Страницу НРС1 лучше не трогать. Онауже находится в ТорЮ «Яндекса» и Google
по высокочастотному целевому запросу. Любые изменения текста на странице
или ее HTML-тегов могут повлиять на позиции сайта. Поэтому, когда хорошие
позиции уже достигнуты, веб-мастеру следует быть очень осторожным.
О Страница НРС 2 довольно легко может быть продвинута в ТорЮ Google по
запросу 4. Здесь необходимо применить приемы продвижения, которые дают
хороший эффект именно в Google.
П Страница НРС 3 является наиболее удачной для продвижения во всех поиско-
виках по запросу 8.
В составленной таблице хорошо видно, какие страницы и по каким запросам на-
ходятся уже почти «в десятке». Возможно, для того чтобы они попали в зону га-
рантированных показов (диапазон ТорЮ), будет достаточно минимальной правки.
Это наиболее перспективные «цели» для текстовой коррекции, о которой мы будем
говорить в следующей главе.
Смысл контент-анализа в том, чтобы избежать ненужных усилий по продвиже-
нию страниц, которые поисковые системы не считают наиболее релевантными по
запросам семантического ядра. Это позволит сосредоточиться на работе над стра-
ницами, которые сами поисковики выбрали в качестве «лидеров» по необходимым
веб-мастеру запросам.
12.3. Если контент-анализ
не дал результатов
Довольно часто встречается ситуация, когда поиск по сайту не дает вообще никаких
результатов, то есть «Яндекс», Поиск@МаИ.ги, «Рамблер» и Google не могут найти
на сайте ни одной страницы, соответствующей запросу семантического ядра. Это
происходит в следующих случаях.
□ Неправильно составлено семантическое ядро. Веб-мастер думает, что его сайт
соответствует выбранным запросам, а на самом деле на сайте нет информации,
которая могла бы ответить на них. В данном случае необходимо либо пересмот-
реть семантическое ядро, исключив запросы, по которым не найдено ни одной
релевантной страницы, либо добавить на сайт соответствующее содержимое —
тексты, рисунки.
□ Отличия в лексике. Лексика сайта и лексика пользовательского спроса отлича-
ются друг от друга. Один из наиболее известных примеров — запросы, касающие-
ся аренды автомобилей. Пользователи часто используют в поисковых запросах
слово «прокат», тогда как на сайтах компаний, предоставляющих автомобили в
аренду, почему-то употребляется только слово «аренда». В итоге в ответ на все
запросы типа «прокат того-то» на сайте не находятся релевантные страницы,
тогда как «аренде» того же самого могут быть посвящены целые разделы. В та-
ких случаях нужно корректировать тексты сайта, добавляя синонимы, которые
встречаются в поисковых запросах.
12.4. Выводы
От правильного выбора страниц, к которым стоит прилагать усилия по оптимиза-
ции, прямо зависит количество времени и денег, которое вы потратите на поисковое
продвижение. Определение наиболее релевантной страницы для каждого запроса
дает возможность не конкурировать в результатах поиска со своими собственными
страницами. Корректируя тексты страницы, которую поисковая система выбрала в
качестве наиболее релевантной, вы идете самым коротким и самым эффективным
путем.
В следующих главах мы разберемся с тем, как можно, используя данные контент-
анализа, корректировать текстовое содержимое сайта для его продвижения в
поисковых системах. И прежде всего мы рассмотрим вопрос, какие факторы и
почему поисковые системы считают важными для ранжирования результатов
поиска.
Контент-анализ является одним из основных методов, когда сайт требуется про-
двигать по большому количеству запросов.
12.5. Полезные ссылки
□ Поиск по определенному сайту можно проводить со страницы расширенного
поиска «Яндекса» по адресу http://yandex.ru/search/advanced.
□ Кроме того, рекомендуем ознакомиться с языком запросов поисковой системы
«Яндекс» на сайте И11р://Ме1р.уапс1ех.ги/5еагсМ/?1*с1=481939.
□ Можно ограничить область поиска одним сайтом с помощью расширенного поис-
ка «Рамблера» на странице http://www.rambler.ru/cgi-bin/advanced.cgi7set-www.
□ Дополнительная ссылка на язык запросов поисковой системы «Рамблер» —
http://help.rambler.ru/article.htmlTs-15l8iid-229.
□ То же самое, но для Google: ссылка на расширенный поиск http://www.google.
ru/advanced_search?hl=ru.
□ Советы по поиску и функции поиска Google доступны по адресу http://www.
google.com/intl/ru/help/features.html.
□ Расширенный поиск в Поиске@Маі1.ги находится по адресу http://go.mail.ru/
advanced.html.
Глава 13
Внутренние факторы,
от которых зависит положение
сайта в результатах поиска
В этой главе вы у знаете, на какие параметры веб-страницы можно влиять, чтобы
повысить ее позицию в результатах поиска, а также почему поисковые системы
считают именно эти параметры важными для ранжирования результатов по -
иска.
Мы уже знаем, как устроен индекс поисковой системы — об этом рассказывалось в
главе «Как устроены поисковые системы». Если пользователь ввел запрос, например
«новости», поисковая система увидит в своем индексе, что слово «новости» было
найдено на многих веб-страницах. При этом количество страниц может быть очень
большим — тысячи и даже десятки тысяч.
Возникает закономерный вопрос: в каком порядке поисковой системе нужно сор-
тировать (ранжировать) ссылки на найденные страницы, чтобы наверху списка
результатов оказались ссылки на страницы, наиболее соответствующие поисковому
запросу?
Для решения этой задачи поисковые системы учитывают довольно много свойств
текста страницы и всего сайта — факторов, которые можно условно разделить на
две группы: внутренние и внешние.
К внутренним факторам мы относим те факторы, на которые владелец сайта может
влиять самостоятельно. Например, тексты сайта, теги, изображения, ссылки на сайте
и т. п. Внешние факторы — это прежде всего ссылки на сайт с других сайтов Сети.
Их ставят владельцы этих сайтов, и напрямую повлиять на них нельзя. О спосо-
бах влияния на внешнюю ссылочную структуру сайта мы расскажем в отдельной
главе.
Какие же внутренние факторы учитывают поисковые системы, ранжируя ссылки
на найденные страницы?
13.1. Представление о «естественных
веб - ст рани цах»
Главный принцип поисковых систем таков: они стремятся найти и показать вверху
списка результатов «естественные веб-страницы»[20], наиболее соответствующие
запросу.
Как говорят разработчики поисковых машин, их интересуют веб-страницы, соз-
данные людьми и для людей (а не для поисковых роботов).
Что же означает слово «естественные»? Разберем это на примере.
Пусть поисковая система по запросу новости нашла два следующих текстовых
документа. В обоих текстах есть слово «новости».
ГЛАВНЫЕ НЕОФИЦИАЛЬНЫЕ НОВОСТИ 2005 ГОДА____________________________
Весь год, параллельно с самыми важными событиями, происходит множе-
ство любопытных курьезов, которые упоминаются в новостях в последнюю
очередь. Однако без них картина уходящего года была бы, наверное, не
полной, и уж во всяком случае не такой красочной. Лента. Ру предлагает спи-
сок самых странных новостей года, составленный на основе предпочтений
наших читателей.
ГЛАВНЫЕ НОВОСТИ НЕОФИЦИАЛЬНЫЕ НОВОСТИ 2005 НОВОСТИ ГОДА
Весь новости год, параллельно новости с самыми важными событиями,
происходит новости множество любопытных новости курьезов, которые
упоминаются в новостях в последнюю новости очередь. Однако без новости
них картина уходящего года была бы, наверное, не полной, и уж во всяком
новости случае не такой красочной. Лента.Ру предлагает новости список
самых странных новостей года, составленный на основе предпочтений но-
вости наших читателей.
Даже беглый взгляд на эти тексты позволяет увидеть принципиальное отличие:
первый текст написан хорошим, гладким языком, а вот второй... какой-то непра-
вильный. Читать его сложно, слово «новости» употребляется в нем не к месту и не в
меру. Иными словами, первый текст - естественный, он написан человеком и для
человека. Второй — неестественный, люди не смогут легко прочитать его и понять.
Очевидно, он составлен кем-то специально для поискового робота.
А теперь вспомним, что нам (поисковой машине) необходимо решить, ссылку на
какой из этих документов поставить выше в результатах поиска по запросу новости.
В первом тексте слово «новости» встречается два раза, во втором — двенадцать.
Казалось бы, чем чаще в тексте встречается нужное слово, тем более соответствует
текст запросу... Следуя такой простой логике, мы должны были бы в результатах
поиска первой поставить ссылку на полную белиберду.
К сожалению, поисковая система не умеет понимать тексты, как это делает человек,
и выбор из двух, или двух сотен, или двух миллионов текстов, в которых найдено
слово из поискового запроса, осуществляется автоматически. Как же поисковая
машина может автоматически отличить естественные тексты от неестественных?
На помощь приходят лингвистика и математика. Естественный текст имеет свои
качественные и количественные характеристики, которые почти не меняются от
текста к тексту. Это средняя длина предложений, средняя длина слов, частоты
употребления слов, распределение знаков препинания и т. п. Многие из этих ха-
рактеристик можно подсчитать автоматически и тем самым оценить степень есте-
ственности текста.
Наиболее устойчивы частоты встречаемости слов в тексте. Они лучше всего ис-
следованы, и их труднее всего подделать. Наиболее известным лингвистическим
фактом о частотах слов в естественных текстах является закон Ципфа: если распо-
ложить слова в порядке их частоты употребления в некотором достаточно большом
текстовом массиве, то количество вхождений слова будет обратно пропорционально
его номеру. Закон Ципфа применяют для анализа текстов в самых разных отраслях,
в том числе даже в криптографии для анализа зашифрованных сообщений, когда
нужно понять, имеем ли мы дело хоть и с зашифрованным, но все-таки естествен-
ным текстом.
Конечно, частота употребления конкретного слова сильно зависит от тематики
рассматриваемых текстов. Но в одной тематике эти частоты довольно устойчивы
и подчиняются закону Ципфа.
Зная этот закон и другие принципы поведения слов в тексте, поисковая машина
может обнаружить неестественную плотность и расположение некоторых слов и на
этом основании сделать заключение о неестественном характере текста. Например,
в приведенном примере неестественного текста частота слова «новости» почтив три
раза выше, чем ожидаемое для естественных текстов.
Несомненно, что алгоритмы ранжирования реальных поисковых машин намного
сложнее и учитывают множество факторов. Но все эти факторы, используемые в
качестве значимых параметров для ранжирования, взяты именно из представле-
ний о том, какими должны быть нормальные, естественные, сетевые документы,
предназначенные для пользователей.
У читателя может возникнуть естественный вопрос, почему мы так старательно
подчеркиваем слово «естественный». Разве в Интернете, кроме обычных текстов
веб-страниц, бывают какие-то другие, «неестественные» документы? Откуда они
могут появиться, кто и с какой целью их создает? Кому может понадобиться нечи-
таемый документ, где слово «новости» повторяется через каждые два слова?
К сожалению, неестественных документов, созданных для того, чтобы обмануть
поисковики, в Интернете очень много. Вопрос, кто их создает и с какой целью, мы
подробно разберем в главе о поисковом спаме.
А сейчас рассмотрим внутренние факторы, от которых зависит положение сайта
в результатах поиска.
13.2. Внутренние факторы ранжирования
Напомним, что внутренние факторы ранжирования — это параметры, которые вла-
делец сайта или его веб-мастер имеет возможность легко изменить самостоятельно.
Условно говоря, к внутренним факторам относится все, что находится «внутри»
сайта, — тексты, теги, рисунки, внутренние ссылки.
Наиболее интересны вхождения ключевых слов (слов поискового запроса) в раз-
личные поля и области текста страницы, и вот почему.
Общая схема алгоритма ранжирования поисковой машины такова: по запросу
поисковая машина находит все вхождения слов запроса в веб-страницу. Эти вхож-
дения взвешиваются: для вхождений учитывается их компактность (расположение
рядом), важность (вхождение в специальные поля — в титул, заголовки, близость
к началу страницы), форма и порядок расположения и т. п. Всем вхождениям назна-
чается вес, а затем вес каждого из вхождений на странице объединяются по некой
общей формуле, чтобы получить общий вес (позицию) страницы в результатах
поиска.
Ниже мы опишем основные факторы ранжирования вхождений слов, а также при-
чины, почему именно они были приняты в качестве факторов для ранжирования.
Нужно понимать, что каждая поисковая система имеет собственный набор фак-
торов ранжирования и алгоритмы их обработки, причем как сам набор факторов,
так и алгоритмы ранжирования (вместе составляющие то, что называется форму-
лой релевантности), постоянно пересматриваются и развиваются разработчиками
поисковиков для улучшения результатов поиска.
Рассмотрим кратко факторы, которые учитываются абсолютно всеми поисковыми
машинами.
«Цитата» — полный повтор запроса
Поисковая машина считает, что те документы, где слова запроса идут рядом и в том же
порядке, как в запросе, более релевантны, чем те, где слова запроса рассыпаны по раз-
ным предложениям далеко друг от друга или имеют другую грамматическую форму.
Это довольно естественное предположение, которое оправдывает себя на практике.
Для владельца сайта эта особенность ранжирования в поисковиках означает, что
наиболее выгодной стратегией является использование в тексте страницы точных
формулировок («цитат») тех поисковых запросов, по которым хочется привлечь
посетителей.
| Поделиться: |
Читайте также:
Последнее изменение этой страницы: 2020-10-24; просмотров: 112; Нарушение авторского права страницы; Мы поможем в написании вашей работы!
infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.173.112 (0.175 с.)