Как создать правильный файл robots.txt для сайта и добавить его на сайт WordPress
Разбираемся с тем, как правильно создать и добавить файл robots.txt к себе на сайт.
В этой статье разберемся с тем, что это такое и как его создать своими руками.
Robots.txt является текстовым файлом указывающий поисковым роботам на разделы, директории и страницы сайта, которые они должны индексировать, а которые — нет. На основе обхода поисковых роботов страницы зависит количество страниц, которые попадут в индекс поисковика.
Важно учитывать, что правила прописанные в robots.txt носят рекомендательный характер. Они не обязательны для выполнения роботами и закрытые от индексации страницы могут появляться в поиске.
Для жесткого запрета роботам индексировать страницу понадобится добавить тег noindex в код страницы. Сгенерировать данный тег можно буквально двумя кликами с помощью плагина Yoast SEO.

Для чего нужен файл robots.txt и какие у него функции
При появлении сайта в интернете поисковики начинают добавлять страницы сайта к себе в базу. В поисковике они оказываются в результате обхода роботов, которые индексируют доступные страницы сайта. Далеко не все страницы и разделы сайта поисковик должен видеть. Например, админку или страницу входа не стоит показывать поисковику.
Наличие правильно настроенного robots.txt позволяет запретить роботам яндекса и гугла индексацию нежелательных страниц. Это позволяет сократить крауленговый бюджет и уменьшить нагрузку на сервер. К тому же поможет избежать просадки в выдаче.
Формат файла robots.txt
Robots.txt является обычным текстовым документом. Прописанные директивы и правила в файле должны соответствовать установленному синтаксису. О синтаксисе мы поговорим ниже.
Файл robots.txt должен иметь расширение .txt и никакое другое. Символы в названии файла должны иметь нижний регистр.
Где находится файл robots.txt
Файл robots должен находится строго в корне сайта. При расположении его в какой-нибудь другой директории сайта прописанные в нем правила работать не будут.
Robots.txt для WordPress должен быть размещен в папке public_html, которая является главной директорией сайта.

Файл должен быть размещен в той же директории, что и папки сайтов: wp-includes, wp-content, wp-admin, cgi-bin.
Маски для правил в файле robots.txt
Для формирования правил в robots.txt используется установленный синтаксис. Правильный синтаксис обеспечивается специальными масками.
Маски — это специальные символы. Всего их насчитывается 3 штуки:
- “*” — обобщающая элементы в URL адресе маска. Например, правило *page* будет запрещать или разрешать индексирование по адресу, содержащему в себе “page”.
- “$” — означает, что элемент стоит последним в URL адресе. При написании правила “page$” Мы запрещаем или разрешаем роботам посещать страницу, где адрес заканчивается на “page”.
- “#” — этот символ на странице файла robots закрывает содержимое строки. Ставится перед текстом. Используется для комментариев в файле.
Директивы файла robots.txt
Для того, чтоб обратится к поисковым роботам и закрыть страницу сайта в robots.txt предусмотрены специальные директивы. Каждая директива имеет свое предназначение и прописывается перед правилом. Рассмотрим все по порядку.
Директива User-agent:
Служит для обращения к поисковому роботу. С помощью нее можно обратиться к какому-то конкретному роботу или ко всем сразу.
Директивы с прописанными правилами о закрытии или открытии для индексации страниц прописываются ниже. В таком случае указанные правила будут относится к роботу, прописанному в директиве над этим списком. Если не понятно, то примеры приведены ниже.
Всего существует около 20 разных роботов гугла и яндекса. Каждый из них выполняет свою отведенную ему функцию.
Для того, чтоб обратится ко всем сразу нужно воспользоваться маской “*”.
User-agent:*
Для того, чтоб обратиться к какому-то конкретному поисковому роботу прописывается имя робота.
#Обращение ко всем роботам яндекса User-agent: Yandex #Обращение к главному роботу яндекса User-agent: YandexBot #Обращение ко всем роботам гугла User-agent: Googlebot
В одном файле robots.txt можно обратиться к нескольким поисковым роботам. Под каждой директивой User-agent: с обращением к какому-то конкретному роботу прописываются правила, которые закрывают или открывают индексацию страниц.
При таком наполнении файла robots определенные правила будут дублироваться. Для яндекса и гугла придется запрещать индексацию одних и тех же страниц. Для оптимизации файла в таких случаях предусмотрена директива User-agent:*.
Существует мнение, что обращением к роботам яндекса и гугла индивидуально лучше ими воспринимается. К тому же так можно разрешить одному роботу то, что другому видеть запрещено.
Директива Disallow:
Директива Disallow: нужна для того, чтоб закрыть страницу или раздел сайта от индексации. Вот так выглядят примеры использования директивы:
User-agent:* #Закрыть весь сайт Disallow: / User-agent:* #Закрыть весь сайт Disallow: / User-agent:* #Закрыть папку wp-admin Disallow: /wp-admin/ User-agent:* #Закрыть файл xmlrpc.php Disallow: /xmlrpc.php User-agent:* #Закрыть страницы с гет параметрами, содержащие “?” Disallow: /*?
Директива Disallow: прописанная без правила имеет такое же значение, как и Allow.
Директива Allow:
Директива Allow: в robots.txt противоположна Disallow. Она разрешает индексирование. Тут возникает справедливый вопрос: для чего? Ведь по умолчанию и так весь сайт открыт для индексации.
Эта директива нужна для того, чтоб открыть файл для индексации, который лежит в папке закрытой директивой Disallow:.
User-agent:* #Закрываем папку с плагинами Disallow: /wp-content/plugins #Открываем файлы стилей с расширением css в папке с плагинами Allow: /wp-content/plugins/*.css
Правила, прописываемые в директиве, те же, что и в User-agent.
Директория Sitemap:
Директория Sitemap: указывает путь к карте сайта и приписывается в нижней части файла. Имеется в виду карта сайта, которая в формате XML.
#Указываем путь к карте сайта Sitemap: http://Домен сайта/sitemap.xml
Директива Clean-param
Данная директива запрещает доступ поисковым роботам к динамически сформированным страницам. Принцип формирования правил для Clean-param является более сложным для понимания. Так как этот блог не предназначен для профессиональных сеошников, то рассматривать его мы не будем. Приведем лишь один пример:
#Запретить индексировать https://example.com/forum?ref=page User-agent: Yandex Disallow:/forum Clean-param: s&ref /forum*/showthread.php
Устаревшие директивы файла robots.txt
Существует несколько директорий, которые утратили свою актуальность и сегодня не учитываются поисковыми роботами. Ничего страшного не произойдет если Вы ими воспользуетесь в своем файле роботс. Но, в то же время никакого эффекта от них ждать не стоит.
- Host: — это директива, которая указывает на основной домен сайта. Это может быть полезно для предотвращения дублирования контента на сайте и улучшения SEO-оптимизации.
- Crawl-delay: — это директива определяющая скорость обхода поисковыми роботами сайта. С 2018 года яндекс не учитывает данную директиву. Для гугла она так же на сегодняшний день не актуальна.
Кириллица в файле robots.txt
Кириллица в файле robots недопустима.Это становится проблемой при использовании кириллического домена.
В случае использования кириллических адресов в файле robots.txt нужно использовать Punycode-конвертацию символов. Это можно сделать в конвертере или использовать его аналоги.

#Недопустимый вариант закрытия раздела от индексации User-agent:* #Закрыть страницу Disallow: /страница Sitemap: http://Домен сайта/sitemap.xml #Допустимый вариант закрытия раздела от индексации User-agent:* #Закрыть страницу Disallow: /xn--80aaxtnfh0b Sitemap: http://xn-- -8sbanf0arjg8an/sitemap.xml
Файл robots txt для WordPress
В WordPress файл robots изначально отсутствует в корне сайта. При запросе он генерируется с помощью php. По дефолту он имеет такой вид:
# START YOAST BLOCK # --------------------------- User-agent: * Disallow: Sitemap: http://dop.weblanserr.ru/sitemap_index.xml # --------------------------- # END YOAST BLOCK
Приведенный пример дефолтного файла генерируется плагином Yoast SEO
Для того, чтоб его можно было изменять с помощью плагинов рекомендуется размещать его динамически с помощью специального хука. Но, никто нам не запрещает разместить его в корневой папке и работать с ним там.
Пример robots.txt для wordpress
В сети можно встретить более строгий вариант файла для WordPress, чем тот, который приведен ниже. Для того, чтоб обезопасить себя от нежелательных последствий выбран именно этот вариант.
User-agent: * # Создаем секцию правил для роботов. * значит для всех # роботов. Чтобы указать секцию правил для отдельного # робота, вместо * укажите его имя: GoogleBot, Yandex. Disallow: /cgi-bin # Стандартная папка на хостинге. Disallow: /wp-admin/ # Закрываем админку. Allow: /wp-admin/admin-ajax.php # Откроем аякс. Disallow: /? # Все параметры запроса на главной. Disallow: *?s= # Поиск. Disallow: *&s= # Поиск. Disallow: /search # Поиск. Disallow: /author/ # Архив автора. Disallow: */embed$ # Все встраивания. Disallow: */xmlrpc.php # Файл WordPress API Disallow: *utm*= # Ссылки с utm-метками Disallow: *openstat= # Ссылки с метками openstat # Одна или несколько ссылок на карту сайта (файл Sitemap). Это независимая # директива и дублировать её для каждого User-agent не нужно. Так например # Google XML Sitemap создает 2 карты сайта: Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/sitemap.xml.gz
#Вместо example.com вставить свой домен
В более строгой версии файла robots закрывается папки ядра вордпресс директивой Disallow: /wp-.
После поэтапно открываем нужные папки и файлы в папках ядра.
Как разместить robots.txt на сайте WordPress
Мы уже выяснили где находится robots.txt. Для создания и размещения его на сайте существует несколько способов. Одни полностью автоматизируют процесс, другие требуют личного участия на протяжении всего процесса.
Мы же выберем для рассмотрения один конкретный метод, который по моему мнению будет наиболее актуальным.
Для создания файла robots в сети существуют онлайн генераторы. Воспользовавшись подобными сервисами пол дела можно считать сделанным. Мы же возьмем уже готовый из этой статьи.
Для автоматического создания файла можно воспользоваться плагином Virtual Robots.txt.
Скачать и установить его можно из библиотеки плагинов в админке WordPrdescription_postess

Для минимизации количества плагинов на сайте мы не будем использовать этот плагин. Разместим robots.txt вручную используя seo плагин Yoast SEO, который устанавливается для комплексного решения задач внутренней оптимизации сайта.
В процессе настройки движка WordPress мы устанавливаем плагин Yoast SEO.

После установки и активации плагина в сайдбаре (колонке пунктов меню в левой части админки) появится пункт меню “Yoast SEO”. Для размещения файла robots нужно предварительно скачать его на этой странице и перейти в раздел “Yoast SEO/Инструменты”.

В разделе “Инструменты” переходим по ссылке “Редактор файлов”. На появившейся странице жмем на кнопку “Создать файл robots.txt”. Появится окно с содержимым файла robots по умолчанию. Заменим содержимое на наше.
Не забываем заменить прописать свой домен вместо example.com указанного в директивах Sitemap:http://example.com/sitemap.xml. По окончанию нажимаем “Сохранить изменения в файле robots.txt”.
В результате в корневой директории сайта появится нужный нам файл. Для дальнейшей работы с ним проделываем те же действия и вносим изменения.
Размещение файла через FTP
Для того, чтоб разместить наш файл можно это сделать через FTP клиент. Например, для этого отлично подойдет FileZilla. Этот способ выбираю я лично и ничего сложного в нем нет. Как добавить, удалить или редактировать файлы сайта на хостинге через FileZilla можно прочесть здесь.
Ошибки и параметры robots.txt
Файл robots должен соответствовать ряду требований. В противном случае файл не будет учитываться роботами.
- Файл не должен быть большего размера, чем 500 КБ для Google и 32 КБ для яндекса.
- В одной строке указывается одна директива с одним правилом. Пробелы между строками не допустимы. Пробела перед директивой также не должно быть.
- Кодировка файла должна быть строго UTF-8.
- В содержимом файла не должно быть кириллицы и орфографических ошибок.
Папки wp-content, wp-includes, cache, plugins, themes закрывать от этой индексации. В интернете можно встретить примеры файла, где эти разделы закрыты, что является ошибкой.
Как проверить robots.txt онлайн
После размещения файла в корне сайта необходимо проверить его на ошибки. Делается это в яндекс вебмастере и Google Search Console.
Рассмотрим процесс проверки в яндекс вебмастере. После добавления сайта в яндекс вебмастер переходим в раздел “Инструменты” в подпункт “Анализ robots.txt”. Если сайт еще не добавлен в вебмастер, то на нужную страницу можно попасть по ссылке.
Тут все понятно: в поле для url вставляем адрес сайта, в окно ниже вставляем скопированный robots.txt.

Нажимаем “Проверить” и получаем результат ответа от сервера ниже. Если содержимое файла написано корректно, то результат будет как на скриншоте.

На этом этапе в нижней части страницы появится возможность проверить возможность проверить конкретные адреса на возможность их индексации.
В окно можно ввести ряд url адресов, которые должны индексироваться поисковыми роботами. Наряду с этим пропишем и те адреса, которые не должны индексироваться.

Нажимаем “Проверить” и получаем ниже интуитивно понятный ответ. Сравниваем результат с тем, что планировалось и вносим коррективы при необходимости.
Дальнейшее редактирование файла robots
После создания и размещения файла robots на сайте последует его доработка. В консоли яндекс вебмастер выходят постоянные сводки добавленных страниц в индекс. При появлении в индексе мусорных страниц следует закрыть в robots соответствующие страницы.
После того, как внесены коррективы нежелательные страницы можно удалить из индекса прямо в консоли вебмастера. Необходимый функционал там присутствует.
Подведем кратко итоги
Для более эффективного продвижения сайта обязательно нужен более полный файл robots.txt, чем тот, который генерируется по умолчанию.
Для размещения файла достаточно взять уже готовый пример и доработать его под свой сайт (например, запретить индексировать измененный адрес входа в админку).
Впоследствии следует отслеживать индексирования страниц и вносить соответствующие коррективы в файл.
Оставьте свой комментарий