Здравствуйте, дорогие читатели блога web-zarabotok.info.
Наконец-то, я решился написать статью, которую (как мне кажется) я должен был написать еще очень давно. Так как я писал уже про быструю индексацию и другие похожие статьи — просто обязан написать еще про robots.txt. Для блоггеров и не только он делает очень большую пользу — защищает статьи и папки от нежеланной индексации.
Прочитав статью: «Как ускорить индексацию сайта. Лучшие способы» вы узнаете все о том, как можно улучшить скорость индексации самому. В самом первом способе я помянул именно об этом файле, который играет очень большую роль. Я иногда еще называю его: братом карты xml. Как ни крути — они между собой очень похожи.
Но не буду отходить от главного.
Правильный robots.txt для WordPress — скачиваем готовый файл!
Не буду говорить лишнего: зачем он нам нужен и т. д.? А просто сразу же представлю вашему вниманию готовый файл, который прямо сейчас можно скачать и начать им пользоваться.
Прежде, обязан сказать, что мой robots.txt подходит только на сайты, которые работают на WordPress. Почему? Блог работает именно на этом CMS-модуле. Если ваш сайт работает на какой-либо другой системе, то уж извините. Он вам не пойдет.
А вот и html-код моего файла robots.txt:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: web-zarabotok.info Sitemap: http://web-zarabotok.info/sitemap_index.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
Лучше этого, вы не найдете. Такой robots рекомендуют все админы wordpress. Будьте уверенны, что этот robots.txt — правильный на все 100%. 😉
Разархивируйте и залейте файл в корень вашего сайта. Он должен быть доступен по адресу:
http://ваш домен/robots.txt
Robots.txt — установлен. Теперь скорость индексации улучшится в разы. И, главное — ненужные файлы индексироваться не будут. Что для нас очень важно.
На этом, можно и заканчивать статью. Но! Не тут-то было.
Закачали файл, а сами и не знаем, что мы запретили или разрешили индексироваться. Все подробно расскажу. Смотрим:
User-agent: *
Этим кодом мы делаем наш файл доступным всем поисковым роботам. Без разницы: Google это или Яндекс.
User-agent: Yandex
Код, который относится только к Yandex роботам. Тем самым все действия разрешены, только этой поисковой машине.
Disallow:
[adsense1] С английского перевода, значит: запрещать (не разрешать). Этим самым мы показываем, какие файлы не нужно индексировать. Disallow: /cgi-bin
Блокируем индексацию всех скриптов на сервере (обязательно!).
Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes
Запрещаем индексацию таких файлов, как: плагины, кэш и установленные шаблоны (темы).
User-agent: Googlebot-Image Allow: /wp-content/uploads/
Разрешаем роботу Google — индексировать картинки.
User-agent: YandexImages Allow: /wp-content/uploads/
Аналогично только здесь — Яндекс.
Host:
[adsense2] Здесь, нужно указать адрес вашего сайта. Например: web-zarabotok.info или www.web-zarabotok.info. Sitemap:
Указываем путь к карте сайта в формате xml. Если у вас ее нет, то обязательно создайте. Подробно о картах для сайта, можно узнать здесь.
Это все, что нужно знать при создании файла robots.txt. Теперь у вас не должно возникнут никаких проблем.
Если вы все же решились создать робот сами, то предлагаю вам этот [urlspan]сервис[/urlspan]. Он вам существенно поможет.
И, наконец, информация для тех, кто не знает, как залить файл в директорию (хостинг). Смотрим:
1. [urlspan]Скачиваем программу: FilleZilla[/urlspan].
2. Устанавливаем.
3. Запускаем.
4. Вводим данные для соединения:
5. Соединяемся.
6. Загружаем файл robots.txt:
[adsense3]
Ура! 😛 Файл загружен. Проверить на правильность, можно перейдя по ссылке:
http://ваш домен/robots.txt
Моя ссылка на файл:
http://web-zarabotok.info/robots.txt
Это все, что хотел вам рассказать. Если возникнут вопросы, отпишитесь, пожалуйста, в комментариях. Буду рад помочь. 😉
Спасибо, что дочитали статью до конца. Если понравилась? Подпишитесь на обновления! Не упустите новые и интересные статьи.
Спасибо за внимание!
С уважением, админ блога web-zarabotok.info.
Привет! Вот смотрю разные сайты. У многих файл роботс примерно одинаковый, но отличия есть.
У меня появились вопросы к вашему файлу:
1. Почему правила для всех роботов и для яндекса немного отличаются? Зачем так сделано?
2. В своем роботсе я специально не разрешал google и яндекс индексировать картинки, а у вас это явно прописано. То есть у меня картинки не индексируются?
Но, во первых, Руслан, оператор Allow действует только для Яндекса. И то вопрос, как он его воспринимает 😉 А так роботы обучены смотреть на Запреты. Если у вас стоит запрет, значит, картинки не должны индексироваться.
Спасибо за ответ. Все таки дождался)))
Где можно почитать, что оператор Allow действует только для Яндекса? robots разработка консорциума w3c, самого главного сайта в интернете, который определяет правила.
А вот меня интересует Гугл. В сети поговаривают, что для него надо все открывать. Да и в кабинете ВебМастера какая-то непонятная подсветка строк Robots,txt
Про гугл так по говорят, потому что он игнорирует запреты и все равно забирает страницы в индекс. В итоге появляются так называемые дубли и «сопли» в индексе гугла.
Резонный вопрос — зачем тогда ему писать Robots, если он его игнорирует? И так ли страшны дубли и «сопли», если он сам их плодит?
Все говорят, что дубли страшны. Из-за них понижают в поиске. А чтобы дублей и всяких ненужных страниц не появлялось в поиске, необходимо правильно технически настроить блог. Но это уже отдельная тема)))
Начнем с того, что это говорит Борисов. После его статьи в интернете был небольшой тайфун. Тем не менее, блоги, которые ничего не делали, продолжают развиваться и даже наращивать трафик. Вот я и думаю, так ли страшен «серый волк»?
Конечно же страшен)))
В школе вебмастеров яндекса тоже об этом говорили.
Смысл в том, что если ваш блог начинает сильно грузить роботов всякими дублями и соплями, это роботам не нравится.
В итоге роботы вас посещают реже и соответственно позиции падают
Я, видимо, еще не дошла до этого урока. Параллельно прохожу две школы.
А я не стал все уроки смотреть. Я выборочно выделил темы, которые мне показались интересными.
А лекции они ведут хорошо, иногда даже с юмором )))
В принципе, там почти все темы нужные для обычного блоггера. Нет необходимости только в микроразметке и интернет-магазине. И то, в связи с последними выкрутасами ДжасКлика может имеет смысл иметь свой небольшой магазинчик.
Да нет. В этих же уроках ориентация больше не на обычных блоггеров, а интернет магазины, фирмы и так далее.
Естественно. Это законы бизнеса. Сейчас все стараются побольше набрать себе клиентов-бизнесменов. Ну а мы с этого материала должны брать то, что поможет нам.
В частности, у владельца сайта имеется возможность ограничить индексирование служебных и личных разделов ресурса. Как создать файл и настроить его под разные поисковые системы, а также популярные CMS — поговорим в этой публикации.
Опять очевидный спам. Неужели авторам блога так нравится дарить ссылки вот таким спамерам?
А по этому поводу у меня на блоге завтра как раз статья )))
Кстати, а как у вас идут сообщения о новых статьях? По вашей подписке я их не получаю. Вот почему и пропустила день рождения =)
Я как бы беру стандартный шаблон этого файла и допиливаю уже под свои нужды. То там надо закрыть tag и т.д. Хотя читал что на некоторых сайтах вообще без него сайт работает прекрасно.
По сути все можно настроить и в файле htaccess.
А с другой стороны, этот файл может тормозить работу сайта, если он будет слишком велик.
Да бросьте, Надежда.
Как может обычный текстовый файлик тормозить работу сайта))))
Да и слишком большим он, по-моему, просто не может быть
Не скажите. Поскольку я в последнее время занималась этим файлом, то прошерстила весь интернет. Тормозит не сам файл, а количество инструкций, которые должны выполняться. А по количеству — многие люди ведут речь о сотнях перенаправлений.
Даже страшно себе представить! Зачем людям так много инструкций прописывать.
Все очень просто. Чаще всего это старые сайты. И когда меняется структура, приходится это делать, чтобы не потерять позиции. Второй случай — интернет магазины. Товаров уже нет, но страницы в поиске. И их тоже надо перенаправлять.
Не представляю, насколько должен быть огромен файл роботс, чтобы тормозил работу сайта.
Файл robots.txt для Яндекса должен содержать обязательную директиву host. Это позволит избежать проблем с индексированием зеркала ресурса или иных дублей его страниц.
В приведённом в статье примере так и есть. В примере прописана директива host, как и должно быть по правилам.
Как правильно написать адрес роботса? Так? http://web-zarabotok.info/sitemap_index.xml или так? http://web-zarabotok.info/sitemap.xml
Лучше второй вариант)))
Подскажите нужно ли блокировать wp-comments или просто /comments в роботсе или нет, при том что комментарии у меня не делятся на страницы, а всё на одной