Robots.txt для блога на WordPress
Без сомнения, делая любой интернет проект, нужно всегда думать о поисковой оптимизации. И хотя основные ее этапы и процедуры, в принципе стандартны, каждый вебмастер подходит к этому индивидуально. Этим люди и отличаются от роботов. Кстати о robots (роботах), вот для них то, как раз результаты вашей работы начинаются стандартно – с файла robots.txt
Файл robots.txt может оказать огромное влияние на индексацию Вашего блога или сайта и продвижение в поисковиках.
Желательно, перед добавлением вашего детища в поисковики сделать универсальный файл robots.txt, который поможет вашему блогу и поисковику лучше понять друг друга.
Для создания такого файла лично мне понадобился блокнот и Google. Те же, кому лень открывать блокнот, могут установить плагин KB Robots.txt, и непосредственно в «Панели администрировании» -> «Опции» -> «KB Robots.txt», могут легко менять содержание файла robots.txt Вашего блога.
В общем, прогуглив эту тему я создал файл, на мой взгляд ориентированный на два наиболее авторитетных поисковика: для Рунета – Яндекс, для всего – Google.
Вот так он выглядит:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
User-agent: Yandex
Host: master-web.info
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
Очень интересно услышать ваши мнения, замечания, дополнения в комментариях.ICND2






хорошая тема, сам пользуюсь роботами — доволен результами. удивляет тот факт, что они оч слабо развиты
ага, я тоже пользуюсь ими, у меня все отлично!!! спасибо автору!
Народ, вы жжоте, расскажите подробнее, как вы пользуетесь, например, роботами яндекса?
Скорее всего имелось ввиду использование файлов robots.txt
Вообще не понятно, зачем самому обычному сайту, который хочет и должен быть проиндексирован везде где только можно делать разные директивы указывая поименно поисковики и боты?
Вполне достаточно указать лишь:
User-agent: *
И этим все сказано.
Ну и еще в данной заметке не хватает строчки о том, что данный файл должен всегда находиться в корневой директории сайта, потому как ищется роботами только там и нигде иначе.
В данном случае этот файл должен быть здесь:
А как запретить индексировать коментарии через роботс?
Если вы внимательно смотрели статью, то в самом rodots.txt есть строка Disallow: /comments — вот вам и ответ.
полезный инструмент спасибо
Я новичок в этом деле. Очень помогли мне. Спасибо.
Почему-то у меня KB Robots.txt не работает. Подключился, заполняется, robots.txt не меняется.
Стоит стандартный файл: и не редактируется.
@Денис: Я не использовал никогда этот плагин, потому, наверное, в статье и указан еще один вариант. Зайдите через ftp и отредактируйте файл в блокноте. Там нет ничего сложного, а время на правку плагина сэкономите.
Пользуюсь вордпрессом недавно, потому с директориями знаком не очень хорошо. Спасибо большое. Буду осваивать теперь папки и то, что именно мы отключили от индексации
Та вы поотключали кучу ненужных папок, та и вебархив зачем-то, не пойму зачем
для Яши нужно еще host добавлять... ну и ссылка на сайтмап
Ой, хост есть) не заметил, обычно в конце всех директив пишут
Спасибо за статью, значительно помогла в понимании формирования файла для роботов. Особенно для меня это сейчас актуально, так как Гугл уже начал индексировать ненужные страницы. Еще раз спасибо!!!
User-agent: *
Disallow: /archives/
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/cache
Disallow: /category
Disallow: /comments
Disallow: /search/
Disallow: /xmlrpc.php
Disallow: /cgi-bin
Disallow: /tag/
Disallow: /wp-admin
User-agent: Yandex
Disallow: /archives/
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/cache
Disallow: /category
Disallow: /comments
Disallow: /search/
Disallow: /xmlrpc.php
Disallow: /cgi-bin
Disallow: /tag/
Disallow: /wp-admin
Host: www . rtiivaz . ru — Срока хост нормальная, просто я скрыл ссылку (Hiway)
Скажите где у меня Robots.txt ошибка? И надо ли прописывать эту страку: Disallow: /archives/
— строку Disallow: /archives/ прописывать надо, так как она скрывает архивные страницы и не дает дублировать контент. А ошиббку как таковую проще заметить с инструментами для проверки роботовских фалов от Яндекса или Google
Спасибо. воспользуюсь Вашим советам. С уважением Альберт Аухадуллин.