Пройти тест«Узнайте, как увеличить продажи через интернет-каналы »Вам доступен бонус

icon map.png г. Москва, БЦ "Кожевники", ул. Дербеневская 20

icon_time.png Часы работы: Пн.-Пт: с 10-00 до 19:00

 

Файл Robots.txt как его правильно настроить?

20.05.2020 Автор: Попов Иван

Содержание

    Файл утилиты robots.txt содержит правила индексации вашего сайта с помощью определенных (или всех) роботов поисковых систем. Используя этот файл, вы можете попытаться закрыть сайт из индексации Google. Это сработает? Помните свой ответ, ниже вы можете проверить, совпадают ли наши идеи.


    Что такое robots.txt

    robotsтх это-1.jpg

    robots.txt - это простой текстовый файл с именем, написанным строчными буквами, который находится в корневом каталоге сайта:

    Если вы разместили его правильно, он откроется на site.ru/robots.txt

    * Вы можете использовать Serpstat «Аудит сайта», чтобы найти все страницы сайта, которые закрыты в robots.txt.

    Почему важно управлять индексированием сайта

    Если у вас есть веб-сайт с чистым HTML + CSS, то есть вы вручную конвертируете каждую страницу в HTML, не используете скрипты и базы данных (100-страничный веб-сайт - это 100 HTML-файлов на вашем хостинге), тогда просто пропустите эту статью. Нет необходимости управлять индексацией на таких сайтах.


    индексация проблемы.jpg

    Но у вас нет простого сайта-визитки с парой страниц (хотя такие сайты давно созданы на CMS, таких как Wordpress / MODx и другие), и вы работаете с любой CMS, что означает языки программирования, скрипты, базы данных и т. Д. тогда вы встретите такие «атрибуты» как:

    • дубликаты страниц;

    • мусорные страницы;

    • некачественные страницы и многое другое.


    Основная проблема заключается в том, что индекс поисковой системы получает то, чего не должно быть, например, страницы, которые не приносят никакой пользы людям и просто заполняют поиск.

    Существует такая вещь как краулинговый бюджет, это определенная квота для сайта которая известна только боту. Это определенное количество страниц сайта которые поисковый краулер может проверить за 1 сеанс на сайте. Если на вашем сайте много дублей страниц, ненужных или пустых страниц которые не несут дополнительную ценность для пользователя и посковых систем, высока вероятность что основные страницы сайта не будут корректно и вовремя заходить в индекс и переиндексироваться т.к основной краулинговый бюджет будет уходить на бесполезные страницы.


    Что должно быть закрыто в robots.txt

    Чаще всего индексируются следующие бесполезные типы страниц:

    • Поиск страниц. Если вы не собираетесь модерировать и развивать их, закройте их из индексации.2

    • Корзина.

    • Спасибо и оформить заказ.

    • Иногда имеет смысл закрыть страницы нумерации страниц.5

    • Сравнение продуктов.6

    • Сортировка.

    • Фильтры, если их невозможно оптимизировать и модерировать (Для интернет-магазинов, если вы используете плагин Wucommerce (Для сайтов на Wordpress) или на Фильтре используются чпу, тогда параметры фильтра закрывать не нужно)

    • Теги, если вы не можете оптимизировать и модерировать их (Страницы формата ?tag или /tag/url

    • Страницы регистрации и авторизации.10

    • Персональный аккаунт.1

    • Списки желаний.

    • Профили пользователей.

    • Ленты.4

    • Различные целевые страницы созданы только для продвижения и продаж15

    • Системные файлы и каталоги.

    • Языковые версии, если они не оптимизированы.

    • Версия для печати.8

    • Пустые страницы и т. д

    Вам необходимо закрыть все, что не полезно для пользователя, не закончено, не улучшено или является дубликатом. Изучите ваш сайт и посмотрите, какие URL генерируются при выводе.

    закрыть.png


    Даже если вы не можете закрыть 100% проблем одновременно, остальные будут закрыты на этапе индексации. Вы не можете сразу предсказать все недостатки, которые могут возникнуть, и они не всегда выходят из-за технических проблем. Вы должны учитывать человеческий фактор в этом случае.

    Влияние файла robots.txt на Google




    robot txt.jpg

    Google и Яндекс достаточно продвинутые поисковые системы и сами решают какой контент вашего сайта им индексировать. Если вы закроете страницы в Robots.txt это определенный сигнал для поисковых систем что данную страницу или тип страницы индексировать не нужно.

    При этом чтобы с вероятностью 90+% закрыть страницы от роботов то стоит дать им второй сигнал в виде мета тега Noindex. Ниже представлен пример написания данного мета тега.


    Поэтому безопаснее закрывать страницы от индексации через метатег роботов:

    <html>

    <head>

    <meta name=“robots” content=“noindex,nofollow”>

    <meta name=“description” content=“This page….”>

    <title>…</title>

    </head>

    <body>

    Структура и правильная настройка robots.txt


    Порядок директив в файле не имеет значения, потому что поисковая система интерпретирует ваши правила в зависимости от длины префикса URL (от короткого до длинного).

    Директива User-Agent

    юзерагент.jpg


    Здесь указана директива для роботрв всх поисковых систем. Это самый распространенный тип записи.

    • User-agent: * (для всех роботов);



    Также существуют следующие отдельные роботы Google:

    • API Google - пользовательский агент, который API Google использует для отправки push-уведомлений;

    • Mediapartners-Google - робот-анализатор AdSense

    • AdsBot-Google-Mobile - проверяет качество рекламы на веб-страницах, предназначенных для устройств Android и IOS;

    • AdsBot-Google - проверяет качество рекламы на веб-страницах, предназначенных для компьютеров;

    • Googlebot-Image - робот, индексирующий изображения;

    • Googlebot-News - робот новостей Google;

    • Googlebot-Video – Google Видео ;

    • Googlebot - основной инструмент для сканирования контента в интернете;

    • Googlebot - робот, индексирующий сайты для мобильных устройств.

    Директива запрета страниц от индексации.

    Ниже указан пример как закрыть страницы поиска на сайте. В данном случае есть поиск который генерирует Url-ы cледующего вида:

    /found = poiskoviy-zapros

    /found = poiskoviy-zapros-2

    /found = poiskoviy-zapros-3.


    Как мы видим у всех трех итоговых страниц есть один корень /found = значит чтобы закрыть эти страницы от индексации нужно использовать следующий параметр

    Disallow: /found = *


    Директива для карты сайта

    Данная директива отвечает за указание пути к файлу sitemap.xml. В идеале sitemap.xml должен быть размещен в корне сайта. 

    Важно! Укажите точно абсолютный путь.

    Пример директивы:

    Sitemap: https://site.ru/site_structure/my_sitemaps1.xml

    Директива о чистых параметрах

    Если на вашем веб-сайте есть динамические параметры, которые не влияют на содержимое страницы (идентификаторы сеансов, пользователи, источники ссылок и т. Д.). Вы можете показать роботам что они не должны учувствовать в поиске с помощью директивы:

    Clean-param: ref /some_dir/get_book.pl.

    Примечание. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.

    Директивы задержки сканирования сайта

    анализ робот ткт.png

    Если поисковые роботы сильно загружают ваш сервер, вы можете выставить параметр обработки страниц. Чаще всего сильно нагружать сервер могут боты Google/ahrefs/serpstat/simmilarweb и иногда требуется уменьшить количество ботов этих платформ на сайте.

    Сделать это можно с помощью следующей директивы:

    User-agent: *

    Crawl-delay: 10.


    В данной статье мы разобрали все основные параметры Robots.txt которые могут использоваться для сайта. Если вам понравилась данная статья расшарьте её у себя в соц сетях.

    По всем моментам, которые могут вызывать у вас вопросы пишите в комментарии под данной записью и мы на них ответим.


    Читайте также:



      CMS





    Читайте также

    SEO оптимизация страниц сайта. Руководство для использования
    2020-04-09
    ~ 15 мин
    133
    SEO оптимизация страниц сайта. Руководство для использования

    Оптимизация страницы сайта – это ключевая ячейка большого механизма под названием «раскрутка сайта». Если у вас получилось оптимизировать посадочную страницу под требования сайта и рынка, это значит, что вы как минимум, на полпути к успеху.

    Топ 5 cms для сайта под seo продвижение
    2020-05-28
    ~ 15 мин
    52
    Топ 5 cms для сайта под seo продвижение

    Система управления контентом - это инструмент, который помогает вам создать веб-сайт без необходимости писать весь код с нуля (или даже вообще не знать, как писать код).

    Продвижение услуг в Интернете: полный чек лист запуска бизнеса в Сети
    2020-04-14
    ~ 15 мин
    140
    Продвижение услуг в Интернете: полный чек лист запуска бизнеса в Сети

    Если вы читаете эту статью, значит либо вы только запускаете свой бизнес и остро стоит вопрос привлечения новых клиентов в компанию.

    Что такое контент маркетинг?
    2019-04-17
    ~ 15 мин
    48
    Что такое контент маркетинг?

    Что такие контент-маркетинг? Основы и рекомендации по организации стабильного процесса добавления нового контента на сайт

    Что такое AMP страницы?
    2020-05-22
    ~ 15 мин
    41
    Что такое AMP страницы?

    AMP - это платформа с открытым исходным кодом, разработанная Google в сотрудничестве с Twitter. Ускоренные мобильные страницы создают лучшие и более быстрые возможности в мобильном Интернете. 

    Как правильно ставить задачи программисту на доработки сайта
    2020-04-24
    ~ 15 мин
    70
    Как правильно ставить задачи программисту на доработки сайта

    Наша сегодняшняя статья будет посвящена самой жести в SEO-продвижении, а именно локальным, а иногда и глобальным доработкам сайта.