5 принципов управления индексацией сайта + чек-лист

Представьте себе, что у вас есть ограниченное количество монет, за 1 монету поисковый робот обходит 1 страницу вашего сайта. Это и есть краулинговый бюджет (Crawl Rank) – количество адресов, которые поисковый робот может обойти за единицу времени (день/неделю/месяц). Роботу всё равно какие страницы посещать, поэтому важно отслеживать и направлять его движение.

То, насколько быстро и качественно индексируется ваш сайт, влияет на его позиции в выдаче поисковых систем. В том числе, качество сайта при ранжировании определяется соотношением количества проиндексированных и участвующих в поиске страниц. Если в базу поисковой системы загружено несколько тысяч документов, а в поиске участвуют только несколько десятков, очевидно, что поисковая система не будет считать такой сайт достаточно качественным. Если в интернет-магазине постоянно появляются новые товары, но роботы ПС их не находят, не забирают в базу и не показывают в поиске по запросам пользователей, на сайт не будет естественного трафика по важным низкочастотным запросам.

Принципы управления индексацией

Квота на обход и индексацию страниц за единицу времени может быть значительно меньше, чем количество документов на сайте, особенно это касается интернет-магазинов и крупных информационных порталов. Перед нами стоят две задачи: во-первых, сайт должен индексироваться достаточно быстро и полно; во-вторых, в индекс поисковых систем должны попадать только качественные страницы сайта. Чтобы этого добиться, следует принимать во внимание некоторые основные принципы.

1. Индексируют роботы, управляет человек

Это первый и самый главный принцип. Если вы его усвоите, всё остальное станет для вас «делом техники». Нет никакой магии в том, чтобы управлять сканированием и индексацией сайта. Не нужно шаманских танцев с бубном и волшебных заклинаний. Всё, что нужно — внимательно и аккуратно провести определённые технические работы и постоянно отслеживать реакцию поисковых систем на свои действия. Если вы не знаете, как выполнить какие-то из задач, перечисленных ниже — обратитесь к тому, кто знает, потому что без этой работы сайт «продвигать» бессмысленно.

2. Настройка индексации начинается с сервера

Обращаясь к сайту, поисковый робот получает ответ сервера. От скорости и содержания этого ответа зависит проиндексируется ли страница, попадёт ли она в основной индекс, или будет удалена из индекса поисковых систем. Для простоты это можно сформулировать так — сервер должен отвечать на запросы → сервер должен отвечать на запросы быстро → сервер должен отвечать на запросы быстро и правильно.

Если сайт по каким-то причинам часто бывает недоступен, или на многих страницах сервер отдаёт ошибки, поисковые роботы будут посещать его реже, что, естественно, повлияет на скорость и качество индексации. Время ответа сервера также напрямую влияет на количество страниц и позиции в выдаче. С учетом сетевых задержек оно должно быть не более 300мс (даже под нагрузкой).

Теперь о содержании ответов сервера. Тут всё довольно просто:

  • если всё OK, робот должен получить ответ 200 OK
  • если полезная страница навсегда сменила свой адрес, сервер должен отдавать ответ 301 Moved Permanently
  • этот же ответ (301) должен быть настроен для основного хоста (с www/без www), всех вариантов главной страницы (со / и без, index.php, index.html)
  • если страница временно перемещена, сервер должен отвечать 302 Found (HTTP 1.1) / Moved Temporarily (HTTP 1.0)
  • если страница не менялась со времени последнего посещения роботом, нужно указать ему, что страницу переиндексировать не следует (это тоже важный приём экономии краулингового бюджета), код ответа сервера в этом случае должен быть 304 Not Modified
  • если страницы не существует совсем (не важно по какой причине) робот должен получить ответ 404 Not Found

Это всё, что нужно знать о настройке сервера для управления индексацией. Проверить код ответа можно с помощью сервиса Bertal.ru. Проверить скорость ответа — сервисом от Googl Page Speed Online или сервисом Pingdom Tools. И тот и другой сервис покажут вам рекомендации по оптимизации скорости и массу другой полезной информации.

3. Что не запрещено, то разрешено

Файл robots.txt

Роботы индексируют сайт по принципу «что не запрещено, то разрешено», поэтому важно позаботиться о том, чтобы всё, что вы не хотите видеть на поиске, было закрыто от индексации. В этом вам поможет служебный файл robots.txt. Поисковые роботы проверяют его до начала взаимодействия с сайтом и индексируют содержимое на основании указанных в нём директив. В зависимости от вашей CMS закрыть следует страницы категорий, фильтров, пагинации (постраничной навигации), комментариев, страницы заказа и корзины, страницу входа в админ-панель, страницы тегов и т.д. То есть, от индексации в первую очередь нужно закрыть страницы не содержащие полезной, уникальной, релевантной запросам пользователей информации и служебные разделы. О том, как грамотно составить файл robots.txt, читайте в руководствах Google и Яндекса.

Тег meta name= ″robots″

Файл robots.txt хорош всем, кроме одного — указания в нём для Google носят рекомендательный характер. Если вы хотите наверняка закрыть от индексации какой-то контент, необходимо использовать значения noindex, follow атрибута content в метатеге robots. Выглядит это так:
<meta name="robots" content="noindex, nofollow"/>
Этим вы укажете поисковому роботу, что не нужно индексировать страницу и обрабатывать ссылки на ней. Подробно и том, как правильно использовать этот метод можно прочитать у самих поисковиков — Google и Яндекс.

4. Одна страница = один URL

Это четвёртый принцип. Дублирование страниц — главный враг SEO. Мало того, что отдавая роботам идентичные (или почти идентичные) страницы, вы тратите свою квоту («краулинговый бюджет», помните?), так ещё и общая оценка качества ресурса будет низкой. Представьте себе ситуацию — сегодня робот «забрал» у нас три страницы, при анализе только одна из них оказалась уникальной — будет ли сайт считаться качественным? Дубли страниц чаще всего возникают по вине CMS или из-за того, что при разработке вебмастера оперируют понятиями баз данных, а не доступности информации для пользователей. В базе данных страница одна, и у неё один id, но система управления сайтом позволяет получить к ней доступ по разным URL. Именно это, как правило, не учитывается и приводит к дублям. Чаще всего проблема возникает при добавлении к URL идентификатора сессии или параметров трекинга и сортировки. Также дублированный контент может возникнуть при неправильной пагинации (постраничной навигации).

rel= ″canonical″

Если вы по каким-то причинам не можете совсем убрать с сайта дублирующуюся страницу, например, перенаправляя запросы 301-редиректом, можно и нужно использовать элемент link с атрибутом rel=″canonical″. Он прописывается в блоке head и выглядит так:
<link rel="canonical" href="http://site.com/example/"/>

В примере http://site.com/example/ — это канонический адрес, на который мы указываем роботу поисковой системы. На человеческий язык его можно перевести так: «Вот этот URL для этого содержания является основным, всё остальное — дубли, не нужно их индексировать«. Когда робот находит в документе rel= ″canonical″ он переносит PR, ссылочный вес и прочее на страницу, указанную в качестве канонической. Подробнее разобраться с каноническими урлами можно, почитав справку Google и Яндекс

HTML и XML карты сайта

Карты сайта sitemap.html и sitemap.xml — ещё один способ управлять индексацией. Для наших целей (сохранение квоты) особенно важно, что в карте сайта формата XML можно указать частоту изменения и приоритет страницы по отношению к другим. Подробности о том, как это всё делать, читайте у Google и Яндекса.

Что важно помнить:
1. не стоит указывать документы, которые вы закрыли от индексации (тегом или в robots.txt);
2. карты сайта должны быть актуальными и обновляться с появлением нового контента;
3. в sitemap.xml должны быть те же ссылки, что и в rel= ″canonical″.

5. Направляйте роботов внутри сайта

Оптимизация структуры и грамотная внутренняя перелинковка — наиболее очевидные способы управления сканированием и индексацией сайта. Важная коммерческая информация не должна быть ниже 3-го уровня вложенности. Новая информация, например, новые статьи, должны располагаться выше старых. Контекстные и навигационные ссылки должны проставляться не случайным образом, а исходя из логики важности и ценности конкретных страниц.

Чек-лист по управлению индексацией

Бонусом для тех, кто дочитал до конца, выкладываю чек-лист по управлению индексацией сайта. В чек-листе указаны все основные пункты, которые помогут вам настроить индексацию роботами поисковых систем и управлять ею. Его можно использовать для проверки настроек при возникновении каких-либо проблем со сканированием (индексацией) или как шпаргалку (руководство) для вебмастеров на этапе создания сайта.

Скачать чек-лист Управление индексацией сайта в .pdf