16.07.2014

Полный аудит сайта. Часть 2


Часть №5 – Индексация

Аудит сайтаАудит сайта

5.1 Проверка индексации каждой страницы сайта 

Индексация особенно важна для больших проектов. Если в индекс попадают мусорные страницы (дубликаты, страницы с ошибками, пустые страницы), важные страницы (продвигаемые) получают меньше статического веса. Если в индекс не попадают важные страницы, сайт недополучает трафик.

  • Составление списка всех важных страниц сайта (выгрузка из БД, ручное составление)
  • Составить список всех страниц сайта (программы PageWeight или Xenu )
  • Проверить все ссылки с помощью запросов url:http://www.site.ru/page/ и url:http://site.ru/page/, используя автоматический парсер ПС (программа a-parser)
  • Составить 4 списка: все проиндексированные важные страницы, все проиндексированные мусорные страницы, все непроиндексированные важные страницы, все непроиндексированные мусорные страницы

5.2 Составление списка непроиндексированных страниц, посещенных роботом

В некоторых случаях, после посещения робота, страница не попадает в индекс. Важно отличать такие страницы, от страниц, которые не в индексе и робот их не посещал, поскольку технология индексации таких страниц отличается.

  • При помощь анализа логов составляется список страниц, которые посещал робот
  • Получить список важных непроиндексированных страниц, не посещенных роботом и список важных непроиндексированных страниц, посещенных роботом
  • Изучить список непроиндексированных страниц, которые не посещал робот ПС, это будет список страниц, на которые необходимо привести робота, чтобы они попали в индекс
  • Изучить список непроиндексированных страниц, которые посетил робот ПС, это будут страницы, которые имеют проблему с дублями или статическим весом 

5.3 Проверка возможности индексации важных областей на flash и ajax сайтах 

При продвижении творческих проектов важно изучить индексацию областей, при написании которых использовались технологии Flash, Ajax или другие, с индексацией которых могут возникнуть проблемы.

  • Необходимо по матрице сайта открыть текстовую сохраненную копию всех типов страниц и найти там тексты, выложенные с помощью этих технологий, если текст найти удалось – значит блок индексируется 
  • В редких случаях даже при отсутствии flash и ajax, на сайте может быть настолько кривая верстка, что текст не попадет в текстовый индекс 

 

 

5.4 Проверка возможности индексации всех страниц сайта при текущих инструкциях robots.txt

После корректировки robots.txt необходимо проверить, что все важные доступны для индексации.

5.5 Проверка целесообразности использования noindex, nofollow, meta noindex, meta nofollow, SEOHide

Ошибки в инструкциях индексации могут привести к выпадению важных страниц из индекса и существенным потерям трафика.

  • По матрице сайта делается проверка (сервисы RDS-barСайтРепорт)
  • Необходимо найти не закрытые <noindex>
  • Необходимо изучить, какие внутренние ссылки закрыты в nofollow
  • Необходимо изучить, какие внешние ссылки закрыты в nofollow
  • Необходимо изучить, какие страницы закрыты в meta noindex
  • Необходимо изучить, какие страницы закрыты в meta nofollow
  • Необходимо изучить, есть ли на сайте SEOHide и корректно ли он внедрен

5.6 Проверка корректности использования <noindex>, nofollow, SEOHide

После составления списка страниц, на которых используются инструкции по скрытию индексации, необходимо изучить списки на предмет ошибок. Контрольные точки:

  • Не закрытый <noindex>
  • Индексируемый SEOHide)
  • Проверка корректности SEOHide с помощью плагина WebDeveloper
  • Важные страницы с meta nofollow, meta noindex
  • Nofollow на внутренних ссылках

5.7 Поиск ошибок (сравнение индексов по категориям и типам страниц);

Необходимо подробно изучить сайт на предмет ошибок. Один из способов это сделать – сравнить списки проиндексированных страниц в разных поисковых системах по тем разделам и типам страниц, где их количество в индексе различается.

  • Изучаются области сайта, где в одной ПС страниц меньше, чем в другой)

аудит сайта

  • Открываются страницы из списка проиндексированных, изучаются
  • Изучаются те страницы, которых нет в индексе одной из поисковых систем, но есть в другой поисковой системе
  • Изучаются страницы в Google, помеченные как supplimental

5.8 Поиск в индексе технических страниц  

Приведены популярные типы технических страниц, которые рекомендуется закрывать от индексации, а так же некоторые варианты идентификации их через оператор inurl:

  • Файлы статистики /*_openstat
  • Страницы контекстной рекламы или меток /*from=adwords, /*utm_source=, /*utm_campaign=, /*utm_content=, /*utm_term=, /*utm_medium=
  • Корзина /cart/, /order/
  • Страницы сортировки /*sort, asc, desc, list=*
  • Страницы поиска /search/
  • Страницы авторизации /auth/
  • Версия для печати /*printable, /print
  • Напоминание пароля /remind_password/
  • Регистрация /register/
  • Административный раздел - /administrator/
  • Кэш страниц /cache/
  • Модули, подгружаемые на страницы /components/, /plugins/
  • Файлы инсталяции CMS /installation/, /installer/
  • Логи /logs/
  • Файлы /files/
  • Скрипты, таблицы стилей /ajax/, /java/, /css/
  • Аккаунты пользователей /user/
  • ...

5.9 Анализ динамики индексации сайта

Динамика индексации сайта может указать на слабые места и проблемы проекта.

  • Сведение статистики по списку проиндексированных страниц, собранных с параметром &how=tm позволяет нам узнать возраст страниц и изучить динамику индексации сайта

5.10 Проверка robots.txt на ошибки 

Из-за ошибки в robots.txt весь сайт может быть исключен из индекса.

5.11 Проверка robots.txt на наличие директив для всех поисковых систем  

Яндекс и Google используют различные директивы в robots.txt, инструкции для них следует писать отдельными.

  • User-Agent: Yandex + User-Agent: * обязательно, опционально User-Agent: Google

5.12 Проверка sitemap.xml на ошибки 

С помощью sitemap.xml можно управлять индексацией своего сайта. Для того, чтобы поисковые системы доверяли рекомендациям и корректно обрабатывали их, необходимо исправить ошибки.

  • Ссылка на sitemap.xml есть в robots.txt
  • Атрибуты дат страниц расставлены корректно
  • Приоритеты расставлены правильно
  • Исключены уже проиндексированные страницы
  • Нет страниц, закрытых от индексации в robots.txt
  • Нет нарушений валидности составления sitemap.xml (сервис http://webmaster.yandex.ru/sitemaptest.xml)
  • - Дополнительная информация по sitemap.xml - http://www.sitemaps.org/ru/faq.html#faq_xml_schema

 

Часть №6 - Дублирование, аффилиаты, ошибки

аудит сайта

6.1 Анализ содержания поддоменов

На поддоменах может располагаться что угодно: копия сайта, спамный контент, вирусы. Например, на поддомене может располагаться архивная версия форума, которая уже не работает и поэтому не обновляется. Используя найденные ошибки в движке форума, которые не были исправлены, спамботы могут оставить на страницах форума ссылки на спамные ресурсы. Необходимо внимательно изучить содержание поддоменов до начала продвижения сайта.

  • получив список поддоменов, изучить из содержание через site:1.site.ru
  • rhost:ru.site*
  • предмет изучения – поиск лишних доменов, уязвимостей, дублей, спамного и ошибочного контента
  • предмет изучения – поиск лишних доменов, уязвимостей, дублей, спамного и ошибочного контента

6.2 Поиск дублирующих страниц

Необходимо найти все возможные дубли страниц сайта и перенастроить сервер таким образом, чтобы только 1 страница главного зеркала была индексируемой.

  • сравнение по шинглам (сервис СайтРепорт)
  • сравнение TITLE (сервис СайтРепортWebMaster Google, оператор «intitle:» в Яндексе)
  • проверка по дублям: www.site.ru и site.ru
  • проверка по дублям: http:// и https://
  • проверка по дублям: dir и dir/
  • проверка по дублям: / и /index.php
  • проверка по дублям: /cat/dir/ и /dir/cat/
  • проверка по дублям: /cat/dir/id/ и /cat/id/
  • проверка по дублям: panasonic/tv/ и param_1=12¶m_2=44
  • проверка по дублям: param_1=12¶m_2=44 и /cat_12/dir_44/
  • проверка по дублям: site.ru и test.site.ru
  • проверка по дублям: test.site.ru и site.ru/test/
  • проверка по дублям: /bedroom/divan_roza.html и /guestroom/divan_roza.html
  • проверка по дублям: /?red_id=3342
  • проверка по дублям: /session_id=442424424022492

6.3 Поиск дублирующего контента

На сайте могут присутствовать частичные дубли. Такие страницы не только соревнуются между собой в релевантности по ключевым словам дублированного блока, но и могут терять релевантность по продвигаемым запросам за счет размытия текста.

  • сравнение по шинглам (сервис СайтРепорт)
  • ручной осмотр разных страниц сайта по матрице)

6.4 Поиск пустых страниц

На некоторых сайтах можно найти страницы с пустыми TITLE. При таком раскладе продвигаемые страницы теряют в релевантности, потому что содержимое TITLE имеет значительное влияние на ранжирование страницы.

  • по TITLE(сервис СайтРепорт)
  • по количеству контента и по размеру страницы (часто пустые страницы и страницы с ошибками имеют проблемы в TITLE)

6.5 Поиск страниц с ошибками

Из-за ошибок CMS, базы данных, кодировки, верстки, скриптов и др., некоторые страницы могут отображаться с ошибками.

  • вручную при сравнении индексов
  • через поиск ключевых слов "admin”, "SQL” и т.п. в тексте
  • анализ ошибок в логах
  • анализ страниц с высоким % отказов

6.6 Поиск циклических (бесконечных) страниц

Некоторые модули сайта могут создавать циклические страницы. Так, например распространенный модуль календаря мероприятий позволяет создавать бесконечное количество страниц, углубляясь в даты до эпохи динозавров и ещё дальше.

  • Анализ подозрительных модулей (календарь)
  • Анализ страниц с высоким уровнем вложенности (сервис СайтРепорт)

6.7 Проверка на аффилиаты, зеркала, тестовые поддомены

При продвижении сайта может возникнуть неловкая ситуация, когда после достижения результатов поисковая система склеит несколько сайтов клиента между собой

  • Проверка данных whois (сервис http://nic.ru/whois/)
  • Поиск аффилиатов по контактным данным и whois (сервисы http://www.skvotte.ru/,http://2ip.ru/domain-list-by-email/http://www.recipdonor.com/infowhois)
  • Поиск всех проекты на этом IP (запрос IP:255.255.255.255 в Yahoo)
  • Поиск по дублированию контента
  • Совпадения между проектами по контактным данным и адресам организации
  • Совпадения между проектами по контенту
  • Совпадение между проектами по информации о владельцах домена
  • Совпадение между проектами по реквизитам, адресу самовывоза, колл-центру
  • Ссылки между проектами
  • Совпадение между проектами по ассортименту и ценовым предложениям
  • Совпадения между проектами по IP
  • Пытка клиента

Часть №7 - Региональность

Аудит сайта

7.1 Ошибки при определении региона

Существует ряд признаков, по которым поисковые системы определяют регион сайта. Иногда регион может быть определен с ошибкой, например, был случай, когда сайту клиники доктора Александрова присвоили регион Александров. Общение с коллегами показало, что случай этот не единичный.

  • Слово, схожее с названием региона в важных областях страницы
  • Недобавление поисковой системой нужного региона в список регионов сайта
  • Отсутствие указания явных региональных признаков на сайте

7.2 Проверка корректности определения регионов в Я.Каталоге

Я.Каталог – один из способов привязки региона к сайту.

  • Проверить, какой регион присвоен сайту в Яндекс.Каталоге

7.3 Проверка корректности определения регионов в Я.Адреса

Если у компании есть представительства в разных городах – следует указать это через панель Яндекс.Вебмастер, добавив адреса всех представительств.

  • Проверить, какие регионы добавлены как представительства в Я.Адреса

7.4 Проверка ранжирования региональных доменов

Сайт может хорошо ранжироваться в одном регионе и плохо в другом. Для того, чтобы понять, над какими городами нужно работать, необходимо собрать статистику по видимости сайта во всех продвигаемых регионах.

  • Изучение ранжирования сайта по регионам по всей семантике

7.5 Анализ наличия ссылок с региональных площадок

Для хорошего ранжирования по регионам необходимо получить ссылки с региональных площадок. Многие площадки дают возможность поставить ссылку условно бесплатно.

  • Поиск площадок, где лидеры размещают статьи, пресс-релизы и т.п. по соотв. регионам

7.6 Разделение сем. ядра на регионально зависимые и регионально независимые запросы.

Чтобы эффективно продвигать сайт в регионах, необходимо иметь представление, по каким запросам выдача различается, а по каким нет.

  • Проверка семантического ядра на регионально-зависимые запросы (сервисhttp://www.seolib.ru/script/geo/)