Делаем robots.txt для WordPress на примере этого сайта

Хочу сразу сказать, что я долгое время ошибался. Идеального и универсально robots.txt для WordPress нет. Сегодня я попробую подобрать оптимальный robots.txt для WordPress на примере этого сайта.

Хочу сказать, что файл robots.txt будет разделён на две части: для все поисковиков и для Яндекса в отдельности. Я не люблю такое делать, но вижу, что подавляющее большинство именно так и делает свои роботс.тхт.

Кстати, robots.txt любого сайта можно элементарно посмотреть введя в строку браузера — site.ru/robots.txt
где вместо site.ru указываете домен нужного сайта.

Посмотрев таким образом большинство сайтов на WordPress я понял, что под каждый свой блог нужно делать индивидуальный robots.txt. Я поясню почему так. Каждый блог использует различные плагины, а также в корневой папке могут быть не нужные для индексации файлы.

Приступаем.
Я изменять robots.txt не советую для сайтов, которые хорошо сидят в индексе. Зачем портить то, что работает. В моем случае я хочу настроить индивидуальные роботсы для сайтов, которые вылетели с индекса Яндекса (т.е. в индексе либо вообще нет страниц (бан), либо 1-2 страницы (фильтр)).
Также я буду добавлять директиву Crawl-delay так как вордпресс очень прожорливый к ресурсам и серваки иногда тормозят.

Для начала я зайду по фтп в корневую папку этого сайта и посмотрю, что там творится.

Папки и файлы сайта по фтп

Сразу видно, что нужно закрыть от индексации много чего.

Не буду томить и подам сразу robots.txt, который у меня получился.


User-Agent: *
Disallow: /cgi-bin - закрываем не нужную папку от индексации
Disallow: /webstat - закрываем не нужную папку от индексации
Disallow: */wp-login.php - закрываем админку
Disallow: */wp-register.php - закрываем регистрацию
Disallow: */xmlrpc.php - закрываем XML-вызов удалённых процедур
Disallow: */wp-admin - закрываем папку админки
Disallow: */wp-includes - закрываем системную папку
Disallow: */wp-content/plugins - закрываем плагины
Disallow: */wp-content/cache -закрываем кэш
Disallow: */wp-content/themes - закрываем темы
Disallow: */category - закрываем от индексации категории
Disallow: */tag - закрываем от индексации теги
Disallow: */author - закрываем от индексации страницы автора
Disallow: */archive - закрываем от индексации архивы
Disallow: */page - закрываем от индексации станицы с главной (создает плагин WP-PageNavi)
Disallow: */trackback/ - закрываем трекбеки
Disallow: */feed/ - закрываем фид
Disallow: */?feed= - закрываем фид
Disallow: */?s= - закрываем поиск
Sitemap: http://seohod.ru/sitemap.xml.gz - информируем роботов о карте сайтов
Sitemap: http://seohod.ru/sitemap.xml - информируем роботов о карте сайтов

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /webstat
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Crawl-delay: 6.5 - всегда добавляю эту директиву теперь на вордпресс
Host: seohod.ru

В итоге, вот такой у меня получился роботс.тхт для сайта seohod.ru
Буд рад услышать ваши замечания в комментариях. Возможно, я что-то делаю и не правильно или не оптимально.

(Голосов: 1, среднее: 5,00 с 5)
Загрузка...

Ответов: 2 на публикацию 'Делаем robots.txt для WordPress на примере этого сайта'

  1. Timka 28.12.2011 - 13:13 #

    Здраствуйте если все так хорого , то почему у вашего сайта вобще одна страница в яндексе ? уже под бан попали?Сочуствую.

    • Sergiy Smychnyk 28.12.2011 - 14:01 #

      Здравствуйте. Под бан я попал уже давно. Подозреваю как раз через не оптимизированный роботс.тхт
      Через такую проблему проходят 90% вебмастеров (посмотрите сколько топиков на тематичных форумах по этому вопросу), которые делаю сайт на вордпресс и вовремя не настраивают запрет дублей от индексации.
      Получается, что Яндекс заходит на сайт пережёвывает все страницы и понимает, что многие дублируют контент.
      В итоге бан обеспечен.
      Этот рпоботс.тхт я поместил на новый сайт, который НЕ был ещё проиндексирован и все красиво работает.

Добавить комментарий

Войти с помощью: