Закрываем бесполезные страницы от индексации директивой в robots.txt

Закрываем бесполезные страницы от индексации в robots.txt

Опубликовано: 07.11.2014. Обновлено: 06.10.2021 2 807 2

Эта статья об использовании файла robots.txt на практике применительно к удалению ненужных страниц из индекса поисковых систем. Какие страницы удалять, как их искать, как убедиться, что не заблокирован полезный контент. По сути статья — об использовании одной лишь директивы — Disallow. Всесторонняя инструкция по использованию файла роботс и других директив в Помощи Яндекса.

В большинстве случаев закрываем ненужные страницы для всех поисковых роботов, то есть правила Disallow указываем для User-agent: *.

User-agent: *
Disallow: /cgi-bin

Что нужно закрывать от индексации?

При помощи директивы Disallow в файле robots.txt нужно закрывать от индексации поисковыми ботами:

  • страницы входа в админ-панель CMS;

    Disallow: /bitrix
    Disallow: /login
    Disallow: /admin
    Disallow: /administrator
    Disallow: /wp-admin

  • страницы с индикаторами сессий;

    Disallow: *session_id=

  • версии для печати и другие страницы, дублирующие контент на сайте (feed, rss, print);
  • страницы различных сортировок, фильтраций, если на них не сделана полноценная оптимизация. Под оптимизацией понимается наличие на странице собственного уникального текста, уникальных заголовков, изображений;
  • страницы с результатами поиска по сайту.

Как искать страницы, которые необходимо закрыть от индексации?

ComparseR

Просканировать сайт Компарсером и справа во вкладке "Структура" построить дерево сайта:

дерево сайта Comparser

Просмотреть все вложенные "ветви" дерева.

Получить во вкладках "Яндекс" и "Google" страницы в индексе поисковых систем. Затем в статистике сканирования просмотреть адреса страниц в "Найдено в Яндекс, не обнаружено на сайте" и "Найдено в Google не обнаружено на сайте".

Яндекс.Вебмастер

В разделе "Индексирование" — "Структура сайта" просмотреть все "ветви" структуры.

Яндекс.Вебмастер - структура сайта

В разделе "Поисковые запросы" — "Статистика страниц" выгрузить все страницы и просмотреть список. Таким способом можно обнаружить страницы, которые никак больше нельзя найти. 

Проверить, что случайно не был заблокирован полезный контент

Перечисленные далее методы дополняют друг друга.

robots.txt

Просмотреть содержимое файла robots.txt.

Comparser (проверка на закрытие мета-тегом роботс)

В настройках Компарсера перед сканированием снять галочку:

компарсер настройки роботс

Проанализировать результаты сканирования справа:

результаты сканирования компарсер

Search Console (проверка полезных заблокированных ресурсов)

Важно убедиться, что робот Google имеет доступ к файлам стилей и изображениям, используемым при отображении страниц. Для этого нужно выборочно просканировать страницы инструментом "Посмотреть, как Googlebot", нажав на кнопку "Получить и отобразить". Полученные в результате два изображения "Так увидел эту страницу робот Googlebot" и "Так увидит эту страницу посетитель сайта" должны выглядеть практически одинаково. Пример страницы с проблемами:
пример проблемной страницы с закрытыми стилями и картинками

Увидеть заблокированные части страницы можно в таблице ниже:

Роботу Google не удалось получить следующие ресурсы веб-страницы

Подробнее о результатах сканирования в справке консоли. Все заблокированные ресурсы нужно разблокировать в файле robots.txt при помощи директивы Allow (не получится разблокировать только внешние ресурсы). При этом нужно точечно разблокировать только нужные ресурсы. В приведённом примере боту Гугла запрещён доступ к папке /templates/, но открыт некоторым типам файлов внутри этой папки:

User-agent: Googlebot
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /templates/*.png
Allow: /templates/*.jpg
Allow: /templates/*.woff
Allow: /templates/*.ttf
Allow: /templates/*.svg
Disallow: /templates/

 

Андрей
28.04.2019 в 01:21

Спасибо!

Ответить

Константин Гайдук
02.05.2019 в 14:07

Рад, что оказалось полезно.

Ответить

Комментировать