Защита от спама в Google Analytics с помощью фильтров

1 балл2 балла3 балла4 балла5 баллов (3 голосов, средний: 3,67 из 5)
Загрузка...
Просмотров всего: 1176

Stop the spam in Google Analytics
В последнее время, тысячи аккаунтов Google Analytics регулярно становятся «жертвами» спама, влияющего на качество данных, а в некоторых случаях, делающего отчеты бесполезными для любого анализа. Некоторые пользователи задались вопросом об эффективности GA.
Но давайте будем честными, даже со спамом, Google Analytics по-прежнему самый популярный и самый мощный сервис веб-аналитики в сети Интернет, тем более, что другие сервисы, такие как Яндекс Метрика и Live Internet в такой же степени подвергаются влиянию спама.
Что же делать, если вдруг вы решили проверить статистику сайта, открыли отчёт в Google Analytics и обнаружили резкий скачок трафика со множеством переходов с сомнительных источников? Как идентифицировать и отсеять ложные данные в отчётах? На эти и другие вопросы вы найдёте ответы в данной статье.

Признаки того, что аккаунт в Google Analytics подвергся реферальному спаму (Referrer spam):

  • Наличие подозрительных рефералов с нетематических ресурсов в отчётах.
  • Кардинальные изменения некоторых метрик — увеличение показателя отказов и уменьшение средней длительности сессий.
  • Не установлено имя хоста (not set), или вместо имени хоста — набор произвольных символов, также отсутствуют другие параметры, такие как: страна, город, браузер и др.

Что такое Referrer spam

Referrer spam (известный также как log spam) — реферальный (ссылочный) спам, т.к. изначально характеризовался фальшивыми ссылками сайтов-источников (Referral). Со временем спам эволюционировал и сегодня уже может отображаться как поисковый (Organic Search), социальный (Social) и даже в виде прямого трафика (Direct).

Почему спамеры портят отчёты

Google Analytics — самый популярный сервис веб-аналитики, используемый миллионами пользователей во всём мире. И не удивительно, что наиболее очевидная причина спама — трафик. Люди ведь любопытны по своей природе и поэтому, проверяя посещаемость сайта, переходят по реферальным ссылкам, чтобы проверить сайт-источник, на котором нет никаких упоминаний и ссылок на их площадки.
Спаму подвергаются тысячи аккаунтов GA, так что не трудно представить объем трафика, получаемый с помощью таких методов. Целью обычно служит продвижение страниц для продажи SEO услуг, перенаправление в магазины для получения скидок, накрутка рекламы, имитация продвижения сайтов некоторыми недобросовестными «сеошниками» и др.

Виды спама

В интернете много ложной информации о спаме в Google Analytics. Используя неправильные методы и настройки, некоторые пользователи тратят много времени, теряют данные или, что ещё хуже, блокируют доступ к сайту, играясь с настройками конфигурационного файла .htaccess.
Чтобы избежать нежелательных результатов и сэкономить время, важно понимать различия между видами спама.
Наиболее распространенные виды:

  • Ghost spam (спам-призрак)
  • Crawler spam (гусеничный спам)

Эти два типа спама имеют различные характеристики, поэтому и методы борьбы с ними различаются.

Ghost spam (спам-призрак)

Самый распространённый тип спама, называемый призраком потому, что при отправке данных в GA, не взаимодействует с сайтом напрямую.
Механизм отправки данных осуществляется через протокол измерений (Measurement Protocol), позволяющий отправлять данные непосредственно на сервера Google Analytics.
Ghost Spam: How It WorksСпамеры используют этот метод, генерируя случайные коды отслеживания (tracking ID) и рассылая, с помощью автоматизированных скриптов, ложные данные в отчёты.
Поэтому, независимо от системы управления сайтом, серверные решения бесполезны против этого спама. Единственный способ остановить Ghost spam в Google Analytics — фильтры.

Crawler spam (гусеничный спам)

Есть поисковые роботы, которые сканируют сайты с целью индексации в поисковых системах Google, Яндекс, Bing и др. А есть роботы, которые также сканируют сайты, но с другой целью — привлечь трафик на интернет-площадки спамеров, либо для улучшения их ранжирования (см. рисунок).
Crawler spam: How It WorksТакие роботы, как правило, игнорируют правила robots.txt, но, в отличие от ghost spam, они посещают сайт. Поэтому, такой робот-спамер легко блокируется как с помощью фильтра в Google Analytics, так и в файле .htaccess на уровне сервера.

Как обнаружить реферальный спам

    Для того, чтобы идентифицировать спам в отчётах, необходимо предпринять следующие действия:

  1. Зайти в аккаунт Google Analytics и открыть вкладку «Отчёты».
  2. В «Отчётах» открыть «Источники трафика» → «Весь трафик» → «Рефералы».
  3. Добавить дополнительный параметр «Поведение» → «Имя хоста».

Referral Spam Detection

На что обратить внимание для выявления спама:

  1. Неестественный или нетематический «Источник».
  2. Значение «Новые сеансы» = 100%, а «Показатель отказов» = 100% или 0%.
  3. Not set или произвольный набор символов в поле «Имя хоста».
  4. Также можно воспользоваться готовыми списками спам-роботов, например здесь.

Как защититься от спама в отчётах Google Analytics с помощью фильтров

Для защиты от спама потребуется настроить два фильтра — фильтр по имени хоста для борьбы со спамом-призраком и фильтр по источнику кампании для исключения из отчётов источников Crawler spam.
Также дополнительно включим встроенную функцию «Исключение обращений роботов и «пауков». Эта опция исключает из отчётов посещения поисковых роботов.

Важно! Google не рекомендует применять фильтры к основному представлению («Все данные по веб-сайту»), поскольку данные для ресурса частично не будут собраны или утеряны. Для применения фильтров используйте дополнительное представление, либо создайте его. Подробно о представлениях читайте здесь.

Фильтр по имени хоста (для Ghost spam)

Этот фильтр исключает 100% Ghost spam из отчётов Google Analytics.
Принцип работы фильтра заключается в том, что спам-призрак использует ложные данные (или not set) как имя хоста т.к. спамеры не знают конечную цель.
Перед настройкой фильтра составьте список ваших хостов.

  1. Перейдите на вкладку «Отчёты» в GA и выберите «Диапазон дат: Последние 30 дней» в календаре.
  2. В боковой колонке выберите «Аудитория» → «Технологии» → «Сеть»
  3. Убедитесь что в статистике основной параметр — имя хоста (по умолчанию выбран интернет-провайдер).
  4. A list of host names

  5. В столбце «Имя хоста» найдите и скопируйте все допустимые имена хостов. Имена хостов будут включать в себя те места, где вы разместили код отслеживания Google Analytics (UA-ХХХХХХ-1). Обязательно убедитесь, что добавили все из них, иначе потеряете часть данных.
  6. Создайте выражение для фильтра, которое бы включало все домены (если сайт старый, то помимо основного домена это могут быть другие домены либо хосты сервисов), разделённые символом «|», который используется в качестве оператора «ИЛИ». Поддомены (blog.site.com.ua, forum.site.com.ua и пр.) в выражение включать не нужно, т.к. им соответствует основной домен сайта.
  7. Перейдите во вкладку «Администратор» в GA и выберите представление (кроме исходного), к которому будет применён фильтр.
  8. Selecting a view in Google Analytics

  9. Выберите «Фильтры» → «Новый фильтр».
  10. Заполните поля, как на скрине ниже и обязательно проверьте фильтр перед сохранением.
  11. Setup the Filter of host name in Google Analytics

  12. После того, как убедитесь, что фильтр работает корректно и никакие полезные данные не исключены — сохраните фильтр.
Важно! После каждого добавления кода отслеживания Google Analytics в какой-либо сервис, например, PayPal или YouTube, включите имя хоста сервиса в конце регулярного выражения в поле «Шаблон фильтра».

Фильтр по источнику кампании (для Crawler spam)

Crawler spam использует правильное имя хоста, поэтому для защиты отчётов от данного вида спама понадобится другой фильтр, исключающий источник кампании.
Создание и настройка фильтра аналогичны фильтру по имени хоста (см. пункты 6-8). Только при заполнении полей фильтра изменяем название фильтра, выбираем «Исключить», вместо имени хоста в «Поле фильтра» — источник кампании, а в «Шаблон фильтра» вводим регулярное выражение, составленное из URL сайтов-источников спама, как на примере.

Пример регулярного выражения для фильтра по источнику кампании:
semalt.semalt.com|buttons-for-website.com|buttons-for-your-website.com|semalt.com|best-seo-solution.com|best-seo-offer.com

В качестве альтернативы данному фильтру, при наличии навыков, можно использовать блокировку спама в .htaccess файле.

Исключение обращений поисковых роботов и «пауков»

В отличие от спам-ботов, поисковые роботы сканируют сайты, улучшая качество поиска, принося тем самым огромную пользу. Но они оставляют данные в отчётах GA, которые не несут практической пользы. Поэтому необходимо исключить запросы этих роботов из отчётов.

  1. В Google Analytics откройте вкладку «Администратор» и выберите представление.
  2. Откройте «Настройки представления» и поставьте галочку в пункте «Исключение обращений роботов и «пауков».
  3. Excluding requests robots and spiders

  4. Сохраните настройки.

Выводы

При обнаружении подозрительных данных в отчётах Google Analytics, важно не паниковать и не делать поспешных выводов. Необходимо проанализировать отчёты, определить наличие спама и его тип.
Применив описанные в данной статье фильтры и настройки, вы полностью защитите отчёты от реферального спама.

ТЕГИ:

9 комментариев : “Защита от спама в Google Analytics с помощью фильтров”

  1. Алексей пишет:

    Пробовал настроить фильтр по источнику кампании. Регулярное выражение немного изменил т.к. у меня немного другие источники. фильтр не фурычит… Что я не так сделал?

    • Ivan Sliva пишет:

      Если настроили всё правильно, то проверьте наличие пробелов в регулярном выражении в поле «Шаблон фильтра». Их там не должно быть, всё пишется слитно.

  2. Rolex пишет:

    При проверке фильтра пишет: «Этот фильтр не изменяет данные. Конфигурация фильтра неправильная или данных недостаточно.» Что не так делаю? 🙂

  3. Rolex пишет:

    Сорри, нашел проблему — не поставил галочку «Включить», вместо нее стояла «Исключить». Но появилась другая проблема, после проверки фильтра в списке включенных в фильтр оказался и мой домен. Скрин: http://joxi.ru/52azB3nu6ZKBA0

    • Ivan Sliva пишет:

      Это значит что в поле «Шаблон фильтра» вы не ввели свой домен.

      • Rolex пишет:

        Так погодите, в поле шаблон фильтра вводить надо то, что мы хотим исключить из отчетов или оставить? Я же туда вставил те домены, которые спамят у меня))))

        • Ivan Sliva пишет:

          Если мы говорим о фильтре по имени хоста, то в его настройках в поле «Шаблон фильтра» нужно вводить свой домен, а если фильтр по источнику кампании — домены источников-спамеров.
          Перечитайте ещё раз внимательно статью и исправьте.

          • Rolex пишет:

            Все теперь понял, спасибо большое!

Оставить комментарий