icon map.png г. Москва, БЦ "Кожевники", ул. Дербеневская 20

icon_time.png Часы работы: Пн.-Пт: с 10-00 до 19:00

 

Файл Robots.txt как его правильно настроить?

20.05.2020 Автор: Попов Иван

Содержание

    Файл утилиты robots.txt содержит правила индексации вашего сайта с помощью определенных (или всех) роботов поисковых систем. Используя этот файл, вы можете попытаться закрыть сайт из индексации Google. Это сработает? Помните свой ответ, ниже вы можете проверить, совпадают ли наши идеи.


    Что такое robots.txt

    robotsтх это-1.jpg

    robots.txt - это простой текстовый файл с именем, написанным строчными буквами, который находится в корневом каталоге сайта:

    Если вы разместили его правильно, он откроется на site.ru/robots.txt

    * Вы можете использовать Serpstat «Аудит сайта», чтобы найти все страницы сайта, которые закрыты в robots.txt.

    Почему важно управлять индексированием сайта

    Если у вас есть веб-сайт с чистым HTML + CSS, то есть вы вручную конвертируете каждую страницу в HTML, не используете скрипты и базы данных (100-страничный веб-сайт - это 100 HTML-файлов на вашем хостинге), тогда просто пропустите эту статью. Нет необходимости управлять индексацией на таких сайтах.


    индексация проблемы.jpg

    Но у вас нет простого сайта-визитки с парой страниц (хотя такие сайты давно созданы на CMS, таких как Wordpress / MODx и другие), и вы работаете с любой CMS, что означает языки программирования, скрипты, базы данных и т. Д. тогда вы встретите такие «атрибуты» как:

    • дубликаты страниц;

    • мусорные страницы;

    • некачественные страницы и многое другое.


    Основная проблема заключается в том, что индекс поисковой системы получает то, чего не должно быть, например, страницы, которые не приносят никакой пользы людям и просто заполняют поиск.

    Существует такая вещь как краулинговый бюджет, это определенная квота для сайта которая известна только боту. Это определенное количество страниц сайта которые поисковый краулер может проверить за 1 сеанс на сайте. Если на вашем сайте много дублей страниц, ненужных или пустых страниц которые не несут дополнительную ценность для пользователя и посковых систем, высока вероятность что основные страницы сайта не будут корректно и вовремя заходить в индекс и переиндексироваться т.к основной краулинговый бюджет будет уходить на бесполезные страницы.


    Что должно быть закрыто в robots.txt

    Чаще всего индексируются следующие бесполезные типы страниц:

    • Поиск страниц. Если вы не собираетесь модерировать и развивать их, закройте их из индексации.2

    • Корзина.

    • Спасибо и оформить заказ.

    • Иногда имеет смысл закрыть страницы нумерации страниц.5

    • Сравнение продуктов.6

    • Сортировка.

    • Фильтры, если их невозможно оптимизировать и модерировать (Для интернет-магазинов, если вы используете плагин Wucommerce (Для сайтов на Wordpress) или на Фильтре используются чпу, тогда параметры фильтра закрывать не нужно)

    • Теги, если вы не можете оптимизировать и модерировать их (Страницы формата ?tag или /tag/url

    • Страницы регистрации и авторизации.10

    • Персональный аккаунт.1

    • Списки желаний.

    • Профили пользователей.

    • Ленты.4

    • Различные целевые страницы созданы только для продвижения и продаж15

    • Системные файлы и каталоги.

    • Языковые версии, если они не оптимизированы.

    • Версия для печати.8

    • Пустые страницы и т. д

    Вам необходимо закрыть все, что не полезно для пользователя, не закончено, не улучшено или является дубликатом. Изучите ваш сайт и посмотрите, какие URL генерируются при выводе.

    закрыть.png


    Даже если вы не можете закрыть 100% проблем одновременно, остальные будут закрыты на этапе индексации. Вы не можете сразу предсказать все недостатки, которые могут возникнуть, и они не всегда выходят из-за технических проблем. Вы должны учитывать человеческий фактор в этом случае.

    Влияние файла robots.txt на Google




    robot txt.jpg

    Google и Яндекс достаточно продвинутые поисковые системы и сами решают какой контент вашего сайта им индексировать. Если вы закроете страницы в Robots.txt это определенный сигнал для поисковых систем что данную страницу или тип страницы индексировать не нужно.

    При этом чтобы с вероятностью 90+% закрыть страницы от роботов то стоит дать им второй сигнал в виде мета тега Noindex. Ниже представлен пример написания данного мета тега.


    Поэтому безопаснее закрывать страницы от индексации через метатег роботов:

    <html>

    <head>

    <meta name=“robots” content=“noindex,nofollow”>

    <meta name=“description” content=“This page….”>

    <title>…</title>

    </head>

    <body>

    Структура и правильная настройка robots.txt


    Порядок директив в файле не имеет значения, потому что поисковая система интерпретирует ваши правила в зависимости от длины префикса URL (от короткого до длинного).

    Директива User-Agent

    юзерагент.jpg


    Здесь указана директива для роботрв всх поисковых систем. Это самый распространенный тип записи.

    • User-agent: * (для всех роботов);



    Также существуют следующие отдельные роботы Google:

    • API Google - пользовательский агент, который API Google использует для отправки push-уведомлений;

    • Mediapartners-Google - робот-анализатор AdSense

    • AdsBot-Google-Mobile - проверяет качество рекламы на веб-страницах, предназначенных для устройств Android и IOS;

    • AdsBot-Google - проверяет качество рекламы на веб-страницах, предназначенных для компьютеров;

    • Googlebot-Image - робот, индексирующий изображения;

    • Googlebot-News - робот новостей Google;

    • Googlebot-Video – Google Видео ;

    • Googlebot - основной инструмент для сканирования контента в интернете;

    • Googlebot - робот, индексирующий сайты для мобильных устройств.

    Директива запрета страниц от индексации.

    Ниже указан пример как закрыть страницы поиска на сайте. В данном случае есть поиск который генерирует Url-ы cледующего вида:

    /found = poiskoviy-zapros

    /found = poiskoviy-zapros-2

    /found = poiskoviy-zapros-3.


    Как мы видим у всех трех итоговых страниц есть один корень /found = значит чтобы закрыть эти страницы от индексации нужно использовать следующий параметр

    Disallow: /found = *


    Директива для карты сайта

    Данная директива отвечает за указание пути к файлу sitemap.xml. В идеале sitemap.xml должен быть размещен в корне сайта. 

    Важно! Укажите точно абсолютный путь.

    Пример директивы:

    Sitemap: https://site.ru/site_structure/my_sitemaps1.xml

    Директива о чистых параметрах

    Если на вашем веб-сайте есть динамические параметры, которые не влияют на содержимое страницы (идентификаторы сеансов, пользователи, источники ссылок и т. Д.). Вы можете показать роботам что они не должны учувствовать в поиске с помощью директивы:

    Clean-param: ref /some_dir/get_book.pl.

    Примечание. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.

    Директивы задержки сканирования сайта

    анализ робот ткт.png

    Если поисковые роботы сильно загружают ваш сервер, вы можете выставить параметр обработки страниц. Чаще всего сильно нагружать сервер могут боты Google/ahrefs/serpstat/simmilarweb и иногда требуется уменьшить количество ботов этих платформ на сайте.

    Сделать это можно с помощью следующей директивы:

    User-agent: *

    Crawl-delay: 10.


    В данной статье мы разобрали все основные параметры Robots.txt которые могут использоваться для сайта. Если вам понравилась данная статья расшарьте её у себя в соц сетях.

    По всем моментам, которые могут вызывать у вас вопросы пишите в комментарии под данной записью и мы на них ответим.


    Читайте также:



    Автор: Попов Иван

    Рейтинг автора:   

    Руководитель отдела SEO продвижения

    Управление крупными проектами, услуговыми сайтами и интернет-магазинами. Суммарный опыт работы в отрасли более 6 лет. Более 70% сайтов, которыми занимается специалист растут в ТОПе и получают коммерческий трафик и продажи

    Оцените материал


    3 отзыва

    Эта информация оказалась полезна?




    Читайте далее