16.07.2014

Полный аудит сайта. Часть 2


Часть №5 – Индексация

Аудит сайта

5.1 Проверка индексации каждой страницы сайта 

Индексация особенно важна для больших проектов. Если в индекс попадают мусорные страницы (дубликаты, страницы с ошибками, пустые страницы), важные страницы (продвигаемые) получают меньше статического веса. Если в индекс не попадают важные страницы, сайт недополучает трафик.

  • Составление списка всех важных страниц сайта (выгрузка из БД, ручное составление)
  • Составить список всех страниц сайта (программы  PageWeight  или  Xenu  )
  • Проверить все ссылки с помощью запросов url:http://www.site.ru/page/ и url:http://site.ru/page/, используя автоматический парсер ПС (программа  a-parser )
  • Составить 4 списка: все проиндексированные важные страницы, все проиндексированные мусорные страницы, все непроиндексированные важные страницы, все непроиндексированные мусорные страницы

5.2 Составление списка непроиндексированных страниц, посещенных роботом

В некоторых случаях, после посещения робота, страница не попадает в индекс. Важно отличать такие страницы, от страниц, которые не в индексе и робот их не посещал, поскольку технология индексации таких страниц отличается.

  • При помощь анализа логов составляется список страниц, которые посещал робот
  • Получить список важных непроиндексированных страниц, не посещенных роботом и список важных непроиндексированных страниц, посещенных роботом
  • Изучить список непроиндексированных страниц, которые не посещал робот ПС, это будет список страниц, на которые необходимо привести робота, чтобы они попали в индекс
  • Изучить список непроиндексированных страниц, которые посетил робот ПС, это будут страницы, которые имеют проблему с дублями или статическим весом 

5.3 Проверка возможности индексации важных областей на flash и ajax сайтах 

При продвижении творческих проектов важно изучить индексацию областей, при написании которых использовались технологии Flash, Ajax или другие, с индексацией которых могут возникнуть проблемы.

  • Необходимо по матрице сайта открыть текстовую сохраненную копию всех типов страниц и найти там тексты, выложенные с помощью этих технологий, если текст найти удалось – значит блок индексируется 
  • В редких случаях даже при отсутствии flash и ajax, на сайте может быть настолько кривая верстка, что текст не попадет в текстовый индекс 

 

 

5.4 Проверка возможности индексации всех страниц сайта при текущих инструкциях robots.txt

После корректировки robots.txt необходимо проверить, что все важные доступны для индексации.

  • Проверка осуществляется сервисом  http://webmaster.yandex.ru/robots.xml ;

5.5 Проверка целесообразности использования noindex, nofollow, meta noindex, meta nofollow, SEOHide

Ошибки в инструкциях индексации могут привести к выпадению важных страниц из индекса и существенным потерям трафика.

  • По матрице сайта делается проверка (сервисы RDS-bar ,  СайтРепорт )
  • Необходимо найти не закрытые <noindex>
  • Необходимо изучить, какие внутренние ссылки закрыты в nofollow
  • Необходимо изучить, какие внешние ссылки закрыты в nofollow
  • Необходимо изучить, какие страницы закрыты в meta noindex
  • Необходимо изучить, какие страницы закрыты в meta nofollow
  • Необходимо изучить, есть ли на сайте SEOHide и корректно ли он внедрен

5.6 Проверка корректности использования <noindex>, nofollow, SEOHide

После составления списка страниц, на которых используются инструкции по скрытию индексации, необходимо изучить списки на предмет ошибок. Контрольные точки:

  • Не закрытый <noindex>
  • Индексируемый SEOHide)
  • Проверка корректности SEOHide с помощью плагина WebDeveloper
  • Важные страницы с meta nofollow, meta noindex
  • Nofollow на внутренних ссылках

5.7 Поиск ошибок (сравнение индексов по категориям и типам страниц);

Необходимо подробно изучить сайт на предмет ошибок. Один из способов это сделать – сравнить списки проиндексированных страниц в разных поисковых системах по тем разделам и типам страниц, где их количество в индексе различается.

  • Изучаются области сайта, где в одной ПС страниц меньше, чем в другой)

аудит сайта


  • Открываются страницы из списка проиндексированных, изучаются
  • Изучаются те страницы, которых нет в индексе одной из поисковых систем, но есть в другой поисковой системе
  • Изучаются страницы в Google, помеченные как supplimental

5.8 Поиск в индексе технических страниц  

Приведены популярные типы технических страниц, которые рекомендуется закрывать от индексации, а так же некоторые варианты идентификации их через оператор inurl:

  • Файлы статистики /*_openstat
  • Страницы контекстной рекламы или меток /*from=adwords, /*utm_source=, /*utm_campaign=, /*utm_content=, /*utm_term=, /*utm_medium=
  • Корзина /cart/, /order/
  • Страницы сортировки /*sort, asc, desc, list=*
  • Страницы поиска /search/
  • Страницы авторизации /auth/
  • Версия для печати /*printable, /print
  • Напоминание пароля /remind_password/
  • Регистрация /register/
  • Административный раздел - /administrator/
  • Кэш страниц /cache/
  • Модули, подгружаемые на страницы /components/, /plugins/
  • Файлы инсталяции CMS /installation/, /installer/
  • Логи /logs/
  • Файлы /files/
  • Скрипты, таблицы стилей /ajax/, /java/, /css/
  • Аккаунты пользователей /user/
  • ...

5.9 Анализ динамики индексации сайта

Динамика индексации сайта может указать на слабые места и проблемы проекта.

  • Сведение статистики по списку проиндексированных страниц, собранных с параметром &how=tm позволяет нам узнать возраст страниц и изучить динамику индексации сайта

5.10 Проверка robots.txt на ошибки 

Из-за ошибки в robots.txt весь сайт может быть исключен из индекса.

  • С помощью сервиса  //webmaster.yandex.ru/robots.xml  проверяем закрывает ли robots все ненужные страницы и не находит ли валидатор ошибок
  • Проверяем, что robots.txt соответствует правилам  //help.yandex.ru/webmaster/?id=996567

5.11 Проверка robots.txt на наличие директив для всех поисковых систем  

Яндекс и Google используют различные директивы в robots.txt, инструкции для них следует писать отдельными.

  • User-Agent: Yandex + User-Agent: * обязательно, опционально User-Agent: Google

5.12 Проверка sitemap.xml на ошибки 

С помощью sitemap.xml можно управлять индексацией своего сайта. Для того, чтобы поисковые системы доверяли рекомендациям и корректно обрабатывали их, необходимо исправить ошибки.

  • Ссылка на sitemap.xml есть в robots.txt
  • Атрибуты дат страниц расставлены корректно
  • Приоритеты расставлены правильно
  • Исключены уже проиндексированные страницы
  • Нет страниц, закрытых от индексации в robots.txt
  • Нет нарушений валидности составления sitemap.xml (сервис //webmaster.yandex.ru/sitemaptest.xml )
  • - Дополнительная информация по sitemap.xml - http://www.sitemaps.org/ru/faq.html#faq_xml_schema

 

Часть №6 - Дублирование, аффилиаты, ошибки

аудит сайта

6.1 Анализ содержания поддоменов

На поддоменах может располагаться что угодно: копия сайта, спамный контент, вирусы. Например, на поддомене может располагаться архивная версия форума, которая уже не работает и поэтому не обновляется. Используя найденные ошибки в движке форума, которые не были исправлены, спамботы могут оставить на страницах форума ссылки на спамные ресурсы. Необходимо внимательно изучить содержание поддоменов до начала продвижения сайта.

  • получив список поддоменов, изучить из содержание через site:1.site.ru
  • rhost:ru.site*
  • предмет изучения – поиск лишних доменов, уязвимостей, дублей, спамного и ошибочного контента
  • предмет изучения – поиск лишних доменов, уязвимостей, дублей, спамного и ошибочного контента

6.2 Поиск дублирующих страниц

Необходимо найти все возможные дубли страниц сайта и перенастроить сервер таким образом, чтобы только 1 страница главного зеркала была индексируемой.

  • сравнение по шинглам (сервис  СайтРепорт )
  • сравнение TITLE (сервис  СайтРепорт ,  WebMaster Google , оператор «intitle:» в Яндексе)
  • проверка по дублям: www.site.ru и site.ru
  • проверка по дублям: http:// и https://
  • проверка по дублям: dir и dir/
  • проверка по дублям: / и /index.php
  • проверка по дублям: /cat/dir/ и /dir/cat/
  • проверка по дублям: /cat/dir/id/ и /cat/id/
  • проверка по дублям: panasonic/tv/ и param_1=12¶m_2=44
  • проверка по дублям: param_1=12¶m_2=44 и /cat_12/dir_44/
  • проверка по дублям: site.ru и test.site.ru
  • проверка по дублям: test.site.ru и site.ru/test/
  • проверка по дублям: /bedroom/divan_roza.html и /guestroom/divan_roza.html
  • проверка по дублям: /?red_id=3342
  • проверка по дублям: /session_id=442424424022492

6.3 Поиск дублирующего контента

На сайте могут присутствовать частичные дубли. Такие страницы не только соревнуются между собой в релевантности по ключевым словам дублированного блока, но и могут терять релевантность по продвигаемым запросам за счет размытия текста.

  • сравнение по шинглам (сервис  СайтРепорт )
  • ручной осмотр разных страниц сайта по матрице)

6.4 Поиск пустых страниц

На некоторых сайтах можно найти страницы с пустыми TITLE. При таком раскладе продвигаемые страницы теряют в релевантности, потому что содержимое TITLE имеет значительное влияние на ранжирование страницы.

  • по TITLE(сервис  СайтРепорт )
  • по количеству контента и по размеру страницы (часто пустые страницы и страницы с ошибками имеют проблемы в TITLE)

6.5 Поиск страниц с ошибками

Из-за ошибок CMS, базы данных, кодировки, верстки, скриптов и др., некоторые страницы могут отображаться с ошибками.

  • вручную при сравнении индексов
  • через поиск ключевых слов "admin”, "SQL” и т.п. в тексте
  • анализ ошибок в логах
  • анализ страниц с высоким % отказов

6.6 Поиск циклических (бесконечных) страниц

Некоторые модули сайта могут создавать циклические страницы. Так, например распространенный модуль календаря мероприятий позволяет создавать бесконечное количество страниц, углубляясь в даты до эпохи динозавров и ещё дальше.

  • Анализ подозрительных модулей (календарь)
  • Анализ страниц с высоким уровнем вложенности (сервис  СайтРепорт )

6.7 Проверка на аффилиаты, зеркала, тестовые поддомены

При продвижении сайта может возникнуть неловкая ситуация, когда после достижения результатов поисковая система склеит несколько сайтов клиента между собой

  • Проверка данных whois (сервис  //nic.ru/whois/ )
  • Поиск аффилиатов по контактным данным и whois (сервисы  //www.skvotte.ru/ , //2ip.ru/domain-list-by-email/ ,  //www.recipdonor.com/infowhois )
  • Поиск всех проекты на этом IP (запрос IP:255.255.255.255 в Yahoo)
  • Поиск по дублированию контента
  • Совпадения между проектами по контактным данным и адресам организации
  • Совпадения между проектами по контенту
  • Совпадение между проектами по информации о владельцах домена
  • Совпадение между проектами по реквизитам, адресу самовывоза, колл-центру
  • Ссылки между проектами
  • Совпадение между проектами по ассортименту и ценовым предложениям
  • Совпадения между проектами по IP
  • Пытка клиента

Часть №7 - Региональность

Аудит сайта

7.1 Ошибки при определении региона

Существует ряд признаков, по которым поисковые системы определяют регион сайта. Иногда регион может быть определен с ошибкой, например, был случай, когда сайту клиники доктора Александрова присвоили регион Александров. Общение с коллегами показало, что случай этот не единичный.

  • Слово, схожее с названием региона в важных областях страницы
  • Недобавление поисковой системой нужного региона в список регионов сайта
  • Отсутствие указания явных региональных признаков на сайте

7.2 Проверка корректности определения регионов в Я.Каталоге

Я.Каталог – один из способов привязки региона к сайту.

  • Проверить, какой регион присвоен сайту в Яндекс.Каталоге

7.3 Проверка корректности определения регионов в Я.Адреса

Если у компании есть представительства в разных городах – следует указать это через панель Яндекс.Вебмастер, добавив адреса всех представительств.

  • Проверить, какие регионы добавлены как представительства в Я.Адреса

7.4 Проверка ранжирования региональных доменов

Сайт может хорошо ранжироваться в одном регионе и плохо в другом. Для того, чтобы понять, над какими городами нужно работать, необходимо собрать статистику по видимости сайта во всех продвигаемых регионах.

  • Изучение ранжирования сайта по регионам по всей семантике

7.5 Анализ наличия ссылок с региональных площадок

Для хорошего ранжирования по регионам необходимо получить ссылки с региональных площадок. Многие площадки дают возможность поставить ссылку условно бесплатно.

  • Поиск площадок, где лидеры размещают статьи, пресс-релизы и т.п. по соотв. регионам

7.6 Разделение сем. ядра на регионально зависимые и регионально независимые запросы.

Чтобы эффективно продвигать сайт в регионах, необходимо иметь представление, по каким запросам выдача различается, а по каким нет.

  • Проверка семантического ядра на регионально-зависимые запросы (сервис //www.seolib.ru/script/geo/ )