четверг, 29 апреля 2010 г.

Статистика посещений собирается

Статистика посещений собирается с помощью счетчика и путем анализа логов сервера. Для доставки лог-файлов, их разбора (parsing) и последующего импорта в базу данных разработано приложение, которые по FTP-протоколу ежедневно скачивает с сервера логи за последний день, сохраняет их локально, импортирует в базу под управлением MSSQL и запускает процедуру постпроцессинга. В процессе импорта из сырых данных извлекаются характеристики пользовательского агента (user agent), рефереры (referer) разбиваются на домен, путь к странице и параметры (query string), распознаются наиболее распространенные поисковые системы и выделяются поисковые фразы, IP адреса разбиваются на октеты и в отдельное поле записывается идентификатор сессии. После этого на SQL сервере запускается процедура, которая выполняет окончательную обработку данных. На этом этапе на основе IP адреса клиента определяется его географическое местоположение, вычисляется время просмотра каждой страницы и производится распознавание роботов.
География

Для получения информации о географии можно воспользоваться имеющимися на рынке базами данных или сервисами. Стоимость таких баз варьируется от 50 до 500-600 долларов в зависимости от степени точности. Существуют бесплатно распространяемые базы, точность которых ограничена уровнем отдельно взятой страны. Как правило, они являются усеченным вариантом предлагаемых на рынке систем (например, www.MaxMind.com или www.IP2Location.com). Знание географии позволяет извлекать из отчетов ценную информацию, на основании которой можно планировать продвижение услуг компании в конкретных регионах посредством заключения партнерских соглашений с местными реселлерами или создания представительств.
Идентификация роботов

Распознавание роботов представляет собой отдельную задачу. Самым надежным способом является идентификация по IP адресу. Это метод применим к большинству крупных поисковых систем, хотя время от времени эти адреса могут меняться. Такой метод неэффективен в отношении распределенных роботов (разнообразные утилиты для скачивания сайтов, персональные поисковые программы, экспериментальные роботы), которые могут находиться по произвольному IP адресу. Часть из них можно отсеять на основании информации о пользовательском агенте (user agent), если поддерживать соответствующий список. Некоторые роботы маскируются под широко распространенные браузеры (IE, Mozilla), либо являются таковыми (например, когда IE скачивает сайт на диск для просмотра в режиме offline). Против последних неплохо работают адаптивные методы, которые анализируют поведение удаленного клиента: если в течение короткого времени с одного IP адреса запрошено большое число страниц (например, 50 страниц в течение минуты), то с высокой вероятностью за ним прячется робот. Дополнительно можно использовать ряд косвенных признаков, скажем, факт запроса файла robots.txt или всегда пустое значение поля referrer в серии обращений. Реализованная таким образом трехуровневая система распознавания роботов оказалась весьма эффективной на практике.
Механизм обратной связи

Механизм обратной связи с посетителями реализуется посредством размещенных на сайте форм, адресов электронной почты и телефонов. В большинстве случаев форма являются более привлекательным для посетителя способом инициировать контакт, так как она предоставляет предопределенный набор полей и списки значений, процедуру проверки правильности данных и, кроме того, позволяет посетителю сохранять большую степень конфиденциальности.

Создание эффективной формы является непростой задачей, для решения которой необходимы эксперименты с интерфейсом и детальный анализ путей навигации. Число и расположение полей ввода, цветовое оформление, наличие и расположение на странице иных элементов и даже название формы – все это влияет на процент заполнения. Например, яркий дизайн, обилие ссылок на другие разделы сайта и большое число изображений отвлекают посетителей и увеличивают число переходов с формы на другие страницы. Слишком маленькие, незаметные поля ввода или чрезмерно большое их количество также снижают эффективность. Для того чтобы избежать потери или искажения информации (например, опечатка в e-mail адресе), необходимо применять процедуру проверки правильности данных на стороне клиента. Дополнительная процедура проверки данных на стороне сервера позволяет отсечь большую часть спама, генерируемого роботами. Необходимо, чтобы обе процедуры выполняли проверку идентичным образом, либо проверка на сервере была более мягкой. В противном случае возможны потери заполненных форм на стороне сервера.

В последние полгода в связи и растущим числом пользователей, установивших Windows XP SP 2, остро встали проблемы блокирования всплывающих окон и использования cookie. Первая проблема проявляется в том, что форма, которая должна открываться в отдельном окне, молча блокируется браузером. Вторая проблема состоит в том, что если сайт реализован способом, предполагающим обязательное использование механизма cookie, то ресурс окажется недоступным для посетителей. Согласно нашим оценкам, за первые три месяца 2005 года количество браузеров, которые не принимают cookie по умолчанию, увеличилось с 2 до 27% и продолжает расти.

Очень востребованной оказалась практика дополнения каждой заполненной на сайте формы служебной информацией. Эта информация включает в себя IP адрес посетителя, географическое положение, ресурс, с которого посетитель изначально пришел на сайт и его полный путь по сайту. Знание последнего позволяет сделать предположения о том, каковы интересы потенциального клиента и какой информацией о компании он обладает. На основании географического положения может приниматься решение о том, какому из представительств компании будет передан тот или иной запрос. Кроме того, служебная информация помогает отделять спам и экономить рабочее время продавцов.
Анализ и отчеты

После того, как данные о посещении перенесены на SQL сервер и обработаны, они готовы для анализа. Разделение процессов обработки логов и их анализа на независимые компоненты дает аналитику свободу в выборе инструментов анализа и возможность разрабатывать свои собственные. Как уже упоминалось выше, наиболее гибким и универсальным инструментом является OLAP куб. Взаимодействие с ним может осуществляться посредством Excel, через вэб-интерфейс или сторонние компоненты. Сильные стороны такого подхода – это иерархичные представления, использование многомерных таблиц, возможность создавать произвольные запросы и высокая скорость их выполнения, удобный интерфейс. В качестве иллюстрации приведена таблица, которая позволяет ответить на вопрос «Каким образом трафик с поисковых систем за последние три месяца распределился по географии?». Ответ на этот вопрос был получен с чистого листа менее чем за две минуты.

Помимо аналитических отчетов, построение которых требует активного участия человека, существуют отчеты, форма которых четко определена. Например, ежедневный отчет о количестве посетителей, целевом трафике с поисковых систем, числе просмотров ключевых страниц, числе инициированных с сайта контактов т.д. Очень информативными отчетами, характеризующими интерес пользователей к контенту, являются среднее и суммарное время просмотра страницы. Страницы с высоким средним временем просмотра и приличной посещаемостью формируют «зоны интереса» на сайте и должны быть в центре внимания вэб-мастера. Часто случается так, что страницы с меньшей посещаемостью дают гораздо больший вклад в суммарное время просмотра, чем страницы с высокой.

Важным элементом любого большого сайта является система поиска, которая позволяет посетителю попасть в интересующий его раздел сайта, минуя основную навигацию. Фактически, поиск дополняет собой систему навигации и поэтому должен обладать высокой релевантностью. Одним из эффективных способов реализации функции поиска является использовании сервиса GoogleAPI. Следует понимать, что для этого сайт должен регулярно индексироваться поисковым роботом GoogleBot, иначе результаты поиска будут соответствовать устаревшему контенту. Для сайта с подобной системой поиска одной их значимых метрик является число страниц, запрошенных роботом GoogleBot. Кроме того, информация о том, что посетители ищут на сайте и на какие страницы переходят далее, позволяет оптимизировать размещение контента и систему навигации.

Стандартные отчеты элементарно строятся из одного или нескольких SQL запросов. Существует достаточное число продуктов, которые могут быть использованы в качестве среды для генерирования таких отчетов в разнообразных форматах (назовем лишь Crystal Reports и MSSQL Reporting Services). Нам был выбран последний, так как он предоставляет удобную среду разработки, доступ через вэб-интерфейс и доставку отчетов по расписанию на указанный электронный адрес. Таким образом, рабочий день сотрудников, поддерживающих сайт, начинается с просмотра отчетов за предыдущий день. Эти отчеты включают в себя:

1. суммарные показатели посещаемости за сутки (числа сессий, различных IP адресов, запрошенных страниц в разбивке по пользователям и роботам)

2. список наиболее популярных страниц

3. полные пути всех посетителей, выполнявших поиск по сайту

4. полные пути всех посетителей из определенных стран, заходивших на страницы с формами

5. статистика посетителей по поисковым системам и фразам
Метрики и организация процесса работы над сайтом

Первая функция сайта – это генерация потенциальных покупателей (lead generation). Соответственно, конечным измеримым результатом работы сайта является число посетителей, инициировавших контакт. На практике такая метрика не может быть использована в непосредственной форме, так как существенная часть этих обращений является спамом. Проблема решается путем классификации вручную полученных с сайта и зарегистрированных в базе данных форм на «полезные»и «спам». Число осмысленных обращений рассматривается как показатель продуктивности сайта. В качестве дополнительной метрики продуктивности сайта как инструмента продаж используется число посетителей, пришедших с поисковых систем по релевантным фразам из определенных географических регионов. Соотношение между числом целевых посетителей и числом инициированных контактов позволяет оценивать эффективность контента сайта, т.е. дает основу для улучшения usability.

Вторая функция, которую выполняет сайт – представительская. Показателем популярности сайта является общее число посетителей, хотя можно выбирать и более узкие группы, ограничив, например, этот показатель только одним географическим регионом. Встречается мнение, что «нецелевые» посетители (которые не является непосредственными покупателями) являются лишними. Это неверно, так как все посетители являются важным каналом продвижения брэнда компании. Одна из техник, которая позволяет привлечь на сайт значительное число посетителей – это размещение на сайте нацеленного на широкую аудиторию контента и продвижение этого контента в поисковых системах по популярным запросам. В случае успеха сайт получает существенный поток посетителей. Контент может быть самым разнообразным – фотографии, статьи, рисунки, справочные материалы, клипарт и т.д. Желательно, чтобы это был оригинальный материал, созданный сотрудниками компании или их семьями. Анализ поведения нецелевых посетителей показывает, что подавляющее большинство проводят на сайте всего несколько минут. Однако среди них есть и такие, которые проявляют очень высокий интерес к сайту, к компании и предлагаемым услугам.

Итого, мы отслеживаем следующие метрики:

1. число инициированных с сайта контактов

2. число и объем инициированных с сайта продаж

3. число посетителей на страницах с формами

4. число целевых посетителей

5. отношение числа целевых посетителей к числу заполненных форм

6. общее число посетителей

7. позиции сайта в поисковых системах по ключевым запросам

8. число страниц, запрошенных роботами основных поисковых систем

Перечисленные метрики вычисляются как по короткому, так и по длинному временному периоду с тем, чтобы оценивать и локальные изменения, обусловленные конкретным контентом, и иметь представление о трендах, вызванных глубинными явлениями. Дополнительно ежедневно фиксируется позиции сайта и конкурирующих ресурсов в выдаче поисковых систем по набору ключевых запросов.

Эффект того или иного изменения, вносимого в сайт, зачастую проявляется спустя довольно значительное время – это относится прежде всего к положению ресурса в выдаче поисковых систем. Кроме того, влияние изменений на метрики может быть весьма причудливым и плохо поддающимся рациональному прогнозу. Поэтому все, даже минимальные изменения, вносимые в сайт, должны фиксироваться. Например, изменение цвета небольшого промо-элемента может значительно изменить число переходов на соответствующую страницу. Другой пример: одна фраза, расположенная в начале страницы, может повлиять на позицию сайта в поисковых системах по какому-нибудь узкому запросу и привлечь целевой трафик.

В тех случаях, когда в поддержку сайта вовлечены несколько человек, на адекватность и скорость принятия решений влияет организация самого процесса совместной работы. Опыт показывает, что обсуждение целесообразности того или иного изменения среди большого числа людей фактически блокирует любое решение в силу субъективности человеческого восприятия. Поэтому решения по поводу небольших изменений разумно принимать и реализовывать группой из 2-4 человек на основании объективных данных о посещаемости сайта. http://seo-miheeff.ru/site_optimization_the_need.php

Комментариев нет:

Отправить комментарий