Время на чтение: ~10 мин.
16 апреля 2021
139

Файл утилиты robots.txt содержит правила индексации вашего сайта с помощью определенных (или всех) роботов поисковых систем. Используя этот файл, вы можете попытаться закрыть сайт из индексации Google. Это сработает? Помните свой ответ, ниже вы можете проверить, совпадают ли наши идеи.

Что такое robots.txt

robotsтх это-1.jpg

robots.txt — это простой текстовый файл с именем, написанным строчными буквами, который находится в корневом каталоге сайта если вы разместили его правильно, он откроется на site.ru/robots.txt

* Вы можете использовать Serpstat «Аудит сайта», чтобы найти все страницы сайта, которые закрыты в robots.txt.

Почему важно управлять индексированием сайта

Если у вас есть веб-сайт с чистым HTML + CSS, то есть вы вручную конвертируете каждую страницу в HTML, не используете скрипты и базы данных (100-страничный веб-сайт — это 100 HTML-файлов на вашем хостинге), тогда просто пропустите эту статью. Нет необходимости управлять индексацией на таких сайтах.

индексация проблемы.jpg

Но у вас нет простого сайта-визитки с парой страниц (хотя такие сайты давно созданы на CMS, таких как WordPress / MODx и другие), и вы работаете с любой CMS, что означает языки программирования, скрипты, базы данных и т. Д. тогда вы встретите такие «атрибуты» как:

  • дубликаты страниц;
  • мусорные страницы;
  • некачественные страницы и многое другое.

Основная проблема заключается в том, что индекс поисковой системы получает то, чего не должно быть, например, страницы, которые не приносят никакой пользы людям и просто заполняют поиск.

Существует такая вещь как краулинговый бюджет, это определенная квота для сайта которая известна только боту. Это определенное количество страниц сайта которые поисковый краулер может проверить за 1 сеанс на сайте.

Если на вашем сайте много дублей страниц, ненужных или пустых страниц которые не несут дополнительную ценность для пользователя и посковых систем, высока вероятность что основные страницы сайта не будут корректно и вовремя заходить в индекс и переиндексироваться т.к основной краулинговый бюджет будет уходить на бесполезные страницы.

Что должно быть закрыто в robots.txt

Чаще всего индексируются следующие бесполезные типы страниц:

Поиск страниц. Если вы не собираетесь модерировать и развивать их, закройте их из индексации

  • Корзина
  • Спасибо и оформить заказ
  • Иногда имеет смысл закрыть страницы нумерации страниц
  • Сравнение продуктов
  • Сортировк
  • Фильтры, если их невозможно оптимизировать и модерировать (Для интернет-магазинов, если вы используете плагин Wucommerce (Для сайтов на WordPress) или на Фильтре используются ЧПУ, тогда параметры фильтра закрывать не нужно)
  • Теги, если вы не можете оптимизировать и модерировать их (Страницы формата ?tag или /tag/url
  • Страницы регистрации и авторизации
  • Персональный аккаунт
  • Списки желаний
  • Профили пользователей
  • Ленты
  • Различные целевые страницы созданы только для продвижения и продаж
  • Системные файлы и каталоги
  • Языковые версии, если они не оптимизированы
  • Версия для печати
  • Пустые страницы и т. д

Вам необходимо закрыть все, что не полезно для пользователя, не закончено, не улучшено или является дубликатом. Изучите ваш сайт и посмотрите, какие URL генерируются при выводе.

закрыть.png

Даже если вы не можете закрыть 100% проблем одновременно, остальные будут закрыты на этапе индексации. Вы не можете сразу предсказать все недостатки, которые могут возникнуть, и они не всегда выходят из-за технических проблем.

Влияние файла robots.txt на Google

robot txt.jpg
Google и Яндекс достаточно продвинутые поисковые системы и сами решают какой контент вашего сайта им индексировать. Если вы закроете страницы в Robots.txt это определенный сигнал для поисковых систем что данную страницу или тип страницы индексировать не нужно.

При этом чтобы с вероятностью 90+% закрыть страницы от роботов то стоит дать им второй сигнал в виде мета тега Noindex. Ниже представлен пример написания данного мета тега. Поэтому безопаснее закрывать страницы от индексации через метатег роботов:

Структура и правильная настройка robots.txt

Порядок директив в файле не имеет значения, потому что поисковая система интерпретирует ваши правила в зависимости от длины префикса URL (от короткого до длинного).

Директива User-Agent

юзерагент.jpg

Здесь указана директива для роботов всех поисковых систем. Это самый распространенный тип записи.

  • User-agent: * (для всех роботов);

Также существуют следующие отдельные роботы Google:

  • API Google — пользовательский агент, который API Google использует для отправки push-уведомлений;
  • Mediapartners-Google — робот-анализатор AdSense
  • AdsBot-Google-Mobile — проверяет качество рекламы на веб-страницах, предназначенных для устройств Android и IOS;
  • AdsBot-Google — проверяет качество рекламы на веб-страницах, предназначенных для компьютеров;
  • Googlebot-Image — робот, индексирующий изображения;
  • Googlebot-News — робот новостей Google;
  • Googlebot-Video – Google Видео ;
  • Googlebot — основной инструмент для сканирования контента в интернете;
  • Googlebot — робот, индексирующий сайты для мобильных устройств.

Директива запрета страниц от индексации

Ниже указан пример как закрыть страницы поиска на сайте. В данном случае есть поиск который генерирует Url-ы cледующего вида:

/found = poiskoviy-zapros

/found = poiskoviy-zapros-2

/found = poiskoviy-zapros-3.

Как мы видим у всех трех итоговых страниц есть один корень /found = значит чтобы закрыть эти страницы от индексации нужно использовать следующий параметр

Disallow: /found = *

Директива для карты сайта

Данная директива отвечает за указание пути к файлу sitemap.xml. В идеале sitemap.xml должен быть размещен в корне сайта.

Важно! Укажите точно абсолютный путь.

Пример директивы:

Sitemap: https://site.ru/site_structure/my_sitemaps1.xml

Директива о чистых параметрах

Если на вашем веб-сайте есть динамические параметры, которые не влияют на содержимое страницы (идентификаторы сеансов, пользователи, источники ссылок и т. Д.). Вы можете показать роботам, что они не должны учавствовать в поиске с помощью директивы:

Clean-param: ref /some_dir/get_book.pl.

 

Примечание. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.

 

Директивы задержки сканирования сайта

анализ робот ткт.png

Если поисковые роботы сильно загружают ваш сервер, вы можете выставить параметр обработки страниц. Чаще всего сильно нагружать сервер могут боты Google/ahrefs/serpstat/simmilarweb и иногда требуется уменьшить количество ботов этих платформ на сайте.

Сделать это можно с помощью следующей директивы:

User-agent: *

Crawl-delay: 10.

В данной статье мы разобрали все основные параметры Robots.txt которые могут использоваться для сайта. Если вам понравилась данная статья расшарьте её у себя в соц сетях.

По всем моментам, которые могут вызывать у вас вопросы пишите в комментарии под данной записью и мы на них ответим.

Оглавление