WordPress
Читайте сейчас
Правильный файл robots.txt для WordPress
13

Правильный файл robots.txt для WordPress

от Марк Гольцев11.07.2017

Мало кто умеет правильно составлять файл robots.txt для WordPpress, что мешает оценки качества страниц сайта. Попробую раскрыть тему составления адекватного robots.txt.

Файл robots txt для WordPress

Автор «kama», когда писал статью, думал точно пятой точкой. Так как он в ТОП по этому запросу, а запрос достаточно эффективный, могу предположить, что много кто воспользовался его инструкцией. Я попался на эту удочку. Я даже не парился на этот счет, Google посоветовал, я как-то молча скопировал, по идеи тема robots.txt изъезженная и robots.txt с первого взгляда показался мне корректным. Караю себя.

На сайте с того не сего, начал падать органический трафик. Я ломал голову несколько месяцев, что за ерунда творится, думал сейчас вот-вот все наладится. И недавно посмотрел дату изменения файла robots.txt на сервере, сопоставил дату в Яндекс.Метрике и просто офигел. Я просто офигел. Офигел конкретно от robots.txt, который посоветовали.


Скриншот, как доказательство. К чему привел его robots.txt:

плохой файл robots.txt

Помянул автора блога хорошим словом, чтоб ему пусто было. (я сейчас очень культурно выразился). Поисковые системы не могли получать доступ к скриптам темы, плагинам, а страница с закрытым includes вообще отображалась косо, не было доступа к комментариям (у них же canonical), контенту и скриптам сайта cgi-bin. Все это привило к тому, что сайт роботам показался некрасивым на морду. И предполагаю, что Disallow: */trackback отключило плюшку обмена сообщениями с другими блогам, уж проверять не стал. То же самое касается и протокола embed, для обмена со всякими facebook, youtube.

allow — пишут, когда нету ссылок на страницу или стоит Disallow: /. Ручное направление. Если ссылки есть и нет Disallow: /, то allow можно не писать.

Это на мой взгляд, адекватное заполнение файла robots.txt для WordPress:

Пришел к выводу, поисковики даже без robots.txt, точнее с полностью открытым, будут индексировать сайт отлично, поверьте они знают, как работает самая популярная CMS в мире. Закрываться от роботов надо вообще по минимальному. Теги например можно закрывать, если хотите, категории и т.д.

C тем robots.txt сайт индексировался, но оценка юзабили была на дне морском.

Как у вас обстоят дела с robots.txt? Для меня это сейчас очень важно, ибо убытки из-за этого файла измеряются в моем случае тысячами $.
Я не эксперт в области robots.txt, поэтому для меня нужна обратная связь… может я что-то упустил.

Какие директивы WordPress ты закрываешь в Robots.txt, можно добавить свой вариант.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Ваша реакция?
50%
0%
0%
50%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
Об авторе
Марк Гольцев

Хозяин и создатель проекта EDFZ. Я не смог найти редакторов и удалил все статьи спустя несколько лет. Теперь я пытаюсь писать сам:)
Вы можете зарегистрироваться и попробовать написать статью/обзор сами.

13 Комментарии
  • 11.07.2017 в 12:52

    Скорее всего ты сопоставил две разные вещи: трафик и robots.txt и сделал ложные выводы. У меня на многих сайтах этот роботс от kama и никаких проблем. Ищи причину проседания в другом.

    • 11.07.2017 в 12:54

      Яндекс не может оценить страницу с его роботсом, попробуй через вебмастер

    • 11.07.2017 в 20:58

      Тоже самое хотел написать, а смотрю уже есть.
      У меня тоже такой роботс, вот только я не помнил где его взял.

  • 11.07.2017 в 13:20

    Даю обратную связь: всё смешалось — люди, кони…
    Посмотри https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html#allow-disallow
    «allow — пишут, когда нету ссылок на страницу. Ручное направление. Если ссылки есть, то allow не пишут.» — неправильно, allow разрешает роботу зайти на указанные страницы, ссылки здесь вообще ни при чём. На большинстве сайтов allow можно вообще не писать, так как для робота разрешено всё, что не запрещено.
    Файл robots.txt — это инструкции для поисковых ботов, и он никак не влияет на embed, trackback и прочее, всё работает независимо от него.
    «сайт роботам показался некрасивым на морду» — снова неправильно, так как робот скачает всю страницу целиком в любом случае. Просто он не будет шариться во всяких wp-includes и добавлять их содержимое в поиск (но там и так будут лишь php-файлы, которые при нормальной настройке сервера он всё равно НЕ сможет проиндексировать).

    В общем, отставить панику, изменения в роботс и падение трафика наверняка никак не связаны (тем более не насколько быстро яндекс подхватывает изменения).

    • 11.07.2017 в 13:44

      Финлента, Спасибо 😉 allow пишут, когда disalow/ стоит, это закрытие всего, что не разрешено. Если Disallow: / не стоит, значит можно все, кроме того, что нельзя.

      Ссылку которую вы мне дали, так и говорит:
      Disallow: / — ничего нельзя, кроме allow
      Allow: /catalog — Можно

      Второй пример:
      Allow: / — можно все, кроме disallow
      Disallow: /catalog — нельзя каталог, кроме allow
      Allow: /catalog/auto — Это можно.

      А вот насчет embed, trackback у меня действительно сомнения. Но, так как это протоколы двух сторонней связи, блог инфо можете отдать, а ответ можете не получить, так как закрыт доступ для робота. Но, не факт, для меня эти два протокола не имеют значение.

      Еслиу вас стоит тот robots.txt,
      Заходите в панель вебмастера Google и смотрите на страницу ГЛАЗАМИ РОБОТА, ахаете
      Ставите robots.txt. который я выложил

      В моем случае Яндекс быстро подхватывает изменения. Это связанно с особенностью сайта. Кстати 75% трафика с Google. Просто статистику мне удобнее было смотреть в метрике.

    • 11.07.2017 в 18:01

      Ну так я и говорю «для робота разрешено всё, что не запрещено», и приведённые примеры это только подтверждают. На счёт embed, trackback могу развеять сомнения: они точно для своей работы не заглядывают в robots, и им всё равно, что там написано.

    • 11.07.2017 в 18:38

      Так вы же сказали — ссылки здесь вообще ни при чём
      Если на страницу не ведут внутренние ссылки, пишут allow, чтобы вручную показать поисковику наличие страницы/директории. Об этом тоже яндекс писал. Или на уроке вебмастеров рассказывали.
      Короче инфа сотка 😉
      (если нету карты сайта как вариант)

    • 12.07.2017 в 18:03

      Если на страницу не ведут ссылки, то это проблема структуры сайта, и решаться она должна не через robots. Как посетители будут попадать на эту страницу? Только из поиска?

    • 12.07.2017 в 19:03

      Генерируемые страницы через форму ни о чем не говорят? Или принцип социальных сетей? Поиск по базе? Например номера? А может скрытые страницы? Посадочные страницы?
      Причин направить робота на allow может быть много, не умещаются страницы в sitemap или вплоть то всяких сайтов на java. Ну есть у вас одна страница, сами ее создали, плагин sitemap ее не цепляет, не хочется заморачиваться с картой, allow написали и все.
      Я пишу про возможность манипуляции роботом, а вы мне про причинно следственную связь. Я же подправил текст маленько — allow — пишут, когда нету ссылок на страницу или стоит Disallow: /. Ручное направление. Если ссылки есть и нет Disallow: /, то allow можно не писать. Давайте закончи полемику.
      Если считаете, что какая-то часть статьи технически неверная, напиши, что конкретно неверно, я с радостью исправлю. Можете стать автором на этом сайте, я не против:)

  • Евгений
    13.07.2017 в 04:04

    Я бы не торопился с выводами. Сейчас, после изменения robots.txt трафик начал расти?

    • 13.07.2017 в 06:36

      Еще нет, но количество сканированных страницы выросло в ~40 раз, значит вот-вот зашевелится.

  • Евгений
    13.07.2017 в 19:29

    Марк Гольцев, у меня роботс не такой как у Камы, но в целом делает тоже самое. И никаких проблем. наоборот раньше боты бегали пот техническим страниам, а сейчас только по рубрикам и статьям. Так что всё норм.

Оставить комментарий