Полный аудит сайта. Часть 2
galina2601 16-07-2014, 23:53 4 142 Легенды о SEOЧасть №5 – Индексация
5.1 Проверка индексации каждой страницы сайта
Индексация особенно важна для больших проектов. Если в индекс попадают мусорные страницы (дубликаты, страницы с ошибками, пустые страницы), важные страницы (продвигаемые) получают меньше статического веса. Если в индекс не попадают важные страницы, сайт недополучает трафик.
- Составление списка всех важных страниц сайта (выгрузка из БД, ручное составление)
- Составить список всех страниц сайта (программы PageWeight или Xenu )
- Проверить все ссылки с помощью запросов url:http://www.site.ru/page/ и url:http://site.ru/page/, используя автоматический парсер ПС (программа a-parser )
- Составить 4 списка: все проиндексированные важные страницы, все проиндексированные мусорные страницы, все непроиндексированные важные страницы, все непроиндексированные мусорные страницы
5.2 Составление списка непроиндексированных страниц, посещенных роботом
В некоторых случаях, после посещения робота, страница не попадает в индекс. Важно отличать такие страницы, от страниц, которые не в индексе и робот их не посещал, поскольку технология индексации таких страниц отличается.
- При помощь анализа логов составляется список страниц, которые посещал робот
- Получить список важных непроиндексированных страниц, не посещенных роботом и список важных непроиндексированных страниц, посещенных роботом
- Изучить список непроиндексированных страниц, которые не посещал робот ПС, это будет список страниц, на которые необходимо привести робота, чтобы они попали в индекс
- Изучить список непроиндексированных страниц, которые посетил робот ПС, это будут страницы, которые имеют проблему с дублями или статическим весом
5.3 Проверка возможности индексации важных областей на flash и ajax сайтах
При продвижении творческих проектов важно изучить индексацию областей, при написании которых использовались технологии Flash, Ajax или другие, с индексацией которых могут возникнуть проблемы.
- Необходимо по матрице сайта открыть текстовую сохраненную копию всех типов страниц и найти там тексты, выложенные с помощью этих технологий, если текст найти удалось – значит блок индексируется
- В редких случаях даже при отсутствии flash и ajax, на сайте может быть настолько кривая верстка, что текст не попадет в текстовый индекс
5.4 Проверка возможности индексации всех страниц сайта при текущих инструкциях robots.txt
После корректировки robots.txt необходимо проверить, что все важные доступны для индексации.
- Проверка осуществляется сервисом http://webmaster.yandex.ru/robots.xml ;
5.5 Проверка целесообразности использования noindex, nofollow, meta noindex, meta nofollow, SEOHide
Ошибки в инструкциях индексации могут привести к выпадению важных страниц из индекса и существенным потерям трафика.
- По матрице сайта делается проверка (сервисы RDS-bar , СайтРепорт )
- Необходимо найти не закрытые <noindex>
- Необходимо изучить, какие внутренние ссылки закрыты в nofollow
- Необходимо изучить, какие внешние ссылки закрыты в nofollow
- Необходимо изучить, какие страницы закрыты в meta noindex
- Необходимо изучить, какие страницы закрыты в meta nofollow
- Необходимо изучить, есть ли на сайте SEOHide и корректно ли он внедрен
5.6 Проверка корректности использования <noindex>, nofollow, SEOHide
После составления списка страниц, на которых используются инструкции по скрытию индексации, необходимо изучить списки на предмет ошибок. Контрольные точки:
- Не закрытый <noindex>
- Индексируемый SEOHide)
- Проверка корректности SEOHide с помощью плагина WebDeveloper
- Важные страницы с meta nofollow, meta noindex
- Nofollow на внутренних ссылках
5.7 Поиск ошибок (сравнение индексов по категориям и типам страниц);
Необходимо подробно изучить сайт на предмет ошибок. Один из способов это сделать – сравнить списки проиндексированных страниц в разных поисковых системах по тем разделам и типам страниц, где их количество в индексе различается.
- Изучаются области сайта, где в одной ПС страниц меньше, чем в другой)
- Открываются страницы из списка проиндексированных, изучаются
- Изучаются те страницы, которых нет в индексе одной из поисковых систем, но есть в другой поисковой системе
- Изучаются страницы в Google, помеченные как supplimental
5.8 Поиск в индексе технических страниц
Приведены популярные типы технических страниц, которые рекомендуется закрывать от индексации, а так же некоторые варианты идентификации их через оператор inurl:
- Файлы статистики /*_openstat
- Страницы контекстной рекламы или меток /*from=adwords, /*utm_source=, /*utm_campaign=, /*utm_content=, /*utm_term=, /*utm_medium=
- Корзина /cart/, /order/
- Страницы сортировки /*sort, asc, desc, list=*
- Страницы поиска /search/
- Страницы авторизации /auth/
- Версия для печати /*printable, /print
- Напоминание пароля /remind_password/
- Регистрация /register/
- Административный раздел - /administrator/
- Кэш страниц /cache/
- Модули, подгружаемые на страницы /components/, /plugins/
- Файлы инсталяции CMS /installation/, /installer/
- Логи /logs/
- Файлы /files/
- Скрипты, таблицы стилей /ajax/, /java/, /css/
- Аккаунты пользователей /user/
- ...
5.9 Анализ динамики индексации сайта
Динамика индексации сайта может указать на слабые места и проблемы проекта.
- Сведение статистики по списку проиндексированных страниц, собранных с параметром &how=tm позволяет нам узнать возраст страниц и изучить динамику индексации сайта
5.10 Проверка robots.txt на ошибки
Из-за ошибки в robots.txt весь сайт может быть исключен из индекса.
- С помощью сервиса //webmaster.yandex.ru/robots.xml проверяем закрывает ли robots все ненужные страницы и не находит ли валидатор ошибок
- Проверяем, что robots.txt соответствует правилам //help.yandex.ru/webmaster/?id=996567
5.11 Проверка robots.txt на наличие директив для всех поисковых систем
Яндекс и Google используют различные директивы в robots.txt, инструкции для них следует писать отдельными.
- User-Agent: Yandex + User-Agent: * обязательно, опционально User-Agent: Google
5.12 Проверка sitemap.xml на ошибки
С помощью sitemap.xml можно управлять индексацией своего сайта. Для того, чтобы поисковые системы доверяли рекомендациям и корректно обрабатывали их, необходимо исправить ошибки.
- Ссылка на sitemap.xml есть в robots.txt
- Атрибуты дат страниц расставлены корректно
- Приоритеты расставлены правильно
- Исключены уже проиндексированные страницы
- Нет страниц, закрытых от индексации в robots.txt
- Нет нарушений валидности составления sitemap.xml (сервис //webmaster.yandex.ru/sitemaptest.xml )
- - Дополнительная информация по sitemap.xml - http://www.sitemaps.org/ru/faq.html#faq_xml_schema
Часть №6 - Дублирование, аффилиаты, ошибки
6.1 Анализ содержания поддоменов
На поддоменах может располагаться что угодно: копия сайта, спамный контент, вирусы. Например, на поддомене может располагаться архивная версия форума, которая уже не работает и поэтому не обновляется. Используя найденные ошибки в движке форума, которые не были исправлены, спамботы могут оставить на страницах форума ссылки на спамные ресурсы. Необходимо внимательно изучить содержание поддоменов до начала продвижения сайта.
- получив список поддоменов, изучить из содержание через site:1.site.ru
- rhost:ru.site*
- предмет изучения – поиск лишних доменов, уязвимостей, дублей, спамного и ошибочного контента
- предмет изучения – поиск лишних доменов, уязвимостей, дублей, спамного и ошибочного контента
6.2 Поиск дублирующих страниц
Необходимо найти все возможные дубли страниц сайта и перенастроить сервер таким образом, чтобы только 1 страница главного зеркала была индексируемой.
- сравнение по шинглам (сервис СайтРепорт )
- сравнение TITLE (сервис СайтРепорт , WebMaster Google , оператор «intitle:» в Яндексе)
- проверка по дублям: www.site.ru и site.ru
- проверка по дублям: http:// и https://
- проверка по дублям: dir и dir/
- проверка по дублям: / и /index.php
- проверка по дублям: /cat/dir/ и /dir/cat/
- проверка по дублям: /cat/dir/id/ и /cat/id/
- проверка по дублям: panasonic/tv/ и param_1=12¶m_2=44
- проверка по дублям: param_1=12¶m_2=44 и /cat_12/dir_44/
- проверка по дублям: site.ru и test.site.ru
- проверка по дублям: test.site.ru и site.ru/test/
- проверка по дублям: /bedroom/divan_roza.html и /guestroom/divan_roza.html
- проверка по дублям: /?red_id=3342
- проверка по дублям: /session_id=442424424022492
6.3 Поиск дублирующего контента
На сайте могут присутствовать частичные дубли. Такие страницы не только соревнуются между собой в релевантности по ключевым словам дублированного блока, но и могут терять релевантность по продвигаемым запросам за счет размытия текста.
- сравнение по шинглам (сервис СайтРепорт )
- ручной осмотр разных страниц сайта по матрице)
6.4 Поиск пустых страниц
На некоторых сайтах можно найти страницы с пустыми TITLE. При таком раскладе продвигаемые страницы теряют в релевантности, потому что содержимое TITLE имеет значительное влияние на ранжирование страницы.
- по TITLE(сервис СайтРепорт )
- по количеству контента и по размеру страницы (часто пустые страницы и страницы с ошибками имеют проблемы в TITLE)
6.5 Поиск страниц с ошибками
Из-за ошибок CMS, базы данных, кодировки, верстки, скриптов и др., некоторые страницы могут отображаться с ошибками.
- вручную при сравнении индексов
- через поиск ключевых слов "admin”, "SQL” и т.п. в тексте
- анализ ошибок в логах
- анализ страниц с высоким % отказов
6.6 Поиск циклических (бесконечных) страниц
Некоторые модули сайта могут создавать циклические страницы. Так, например распространенный модуль календаря мероприятий позволяет создавать бесконечное количество страниц, углубляясь в даты до эпохи динозавров и ещё дальше.
- Анализ подозрительных модулей (календарь)
- Анализ страниц с высоким уровнем вложенности (сервис СайтРепорт )
6.7 Проверка на аффилиаты, зеркала, тестовые поддомены
При продвижении сайта может возникнуть неловкая ситуация, когда после достижения результатов поисковая система склеит несколько сайтов клиента между собой
- Проверка данных whois (сервис //nic.ru/whois/ )
- Поиск аффилиатов по контактным данным и whois (сервисы //www.skvotte.ru/ , //2ip.ru/domain-list-by-email/ , //www.recipdonor.com/infowhois )
- Поиск всех проекты на этом IP (запрос IP:255.255.255.255 в Yahoo)
- Поиск по дублированию контента
- Совпадения между проектами по контактным данным и адресам организации
- Совпадения между проектами по контенту
- Совпадение между проектами по информации о владельцах домена
- Совпадение между проектами по реквизитам, адресу самовывоза, колл-центру
- Ссылки между проектами
- Совпадение между проектами по ассортименту и ценовым предложениям
- Совпадения между проектами по IP
- Пытка клиента
Часть №7 - Региональность
7.1 Ошибки при определении региона
Существует ряд признаков, по которым поисковые системы определяют регион сайта. Иногда регион может быть определен с ошибкой, например, был случай, когда сайту клиники доктора Александрова присвоили регион Александров. Общение с коллегами показало, что случай этот не единичный.
- Слово, схожее с названием региона в важных областях страницы
- Недобавление поисковой системой нужного региона в список регионов сайта
- Отсутствие указания явных региональных признаков на сайте
7.2 Проверка корректности определения регионов в Я.Каталоге
Я.Каталог – один из способов привязки региона к сайту.
- Проверить, какой регион присвоен сайту в Яндекс.Каталоге
7.3 Проверка корректности определения регионов в Я.Адреса
Если у компании есть представительства в разных городах – следует указать это через панель Яндекс.Вебмастер, добавив адреса всех представительств.
- Проверить, какие регионы добавлены как представительства в Я.Адреса
7.4 Проверка ранжирования региональных доменов
Сайт может хорошо ранжироваться в одном регионе и плохо в другом. Для того, чтобы понять, над какими городами нужно работать, необходимо собрать статистику по видимости сайта во всех продвигаемых регионах.
- Изучение ранжирования сайта по регионам по всей семантике
7.5 Анализ наличия ссылок с региональных площадок
Для хорошего ранжирования по регионам необходимо получить ссылки с региональных площадок. Многие площадки дают возможность поставить ссылку условно бесплатно.
- Поиск площадок, где лидеры размещают статьи, пресс-релизы и т.п. по соотв. регионам
7.6 Разделение сем. ядра на регионально зависимые и регионально независимые запросы.
Чтобы эффективно продвигать сайт в регионах, необходимо иметь представление, по каким запросам выдача различается, а по каким нет.
- Проверка семантического ядра на регионально-зависимые запросы (сервис //www.seolib.ru/script/geo/ )