Во всех адекватных руководствах говориться о файле robots.txt, рассматриваются модели его использования и правильное составление, но зачем он нужен?
Если вы еще не знаете зачем нужен файл robots.txt в файлах вашего сайта, тогда вы пришли по адресу. Данная статья создана что бы рассказать вам поподробнее о важности robots.
Вы впервые столкнулись с создание собственного сайта? Тогда рекомендую изучить руководство по созданию сайта, в котором затрагивается так же и файл robots.
Итак, если вы решили разобраться в функциях файла robots значит вы перешли ко внутренним настройкам вашего сайта и задумались о правильной индексации поисковыми системами.
Не буду вас томить и перейду непосредственно к сути.
Зачем файл robots.txt?
Файл был придуман для правильной индексации вашего сайта поисковыми роботами. В чем суть файла robots? Это путеводитель для поисковой системы по вашему сайту, так сказать проводник.
Поисковик переходит что бы прочитать ваш сайт и добавить к себе в базу. В зависимости от объема вашего сайта ему предстоит большая работа, а интересует его только уникальный, понятный, читаемый контент, что бы в дальнейшем рассказать о нем пользователям своей системы.
Роботы могут читать от одной до несколько десятков страниц за одно посещение. Количество сканированных страниц напрямую зависит от важности вашего ресурса. Если поисковик будет перебирать абсолютно все файлы размещенного на вашем хостинге, тогда ему попадется масса ненужной и не уникальной информации. Если это будет именно так, тогда в следующий раз он может зайти не скоро, а нам бы этого не хотелось. Тут в игру вступает файл robots.txt.
Поисковые роботы запрограммированные таким образом, что при заходе на ваш сайт они в первую очередь ищут именно данный файл. Зачем поисковому роботу файл robots.txt? Обращаясь к данному файлу они находят для себя понятное руководство по важной информации и перемещению по сайту.
С этого можем сделать вывод:
- Благодаря robots поисковые системы быстрее находят нужный контент для индексации;
- Не трогают “лишние” файлы предназначенные для администрирования;
- Не разглашают важную информацию, которая может располагаться на сервере.
Важность файла robots.txt при индексации сайта.
По мимо “маршрутизации” роботов файл robots несет также и другую функцию — защита от дублирования контента.
Именно так, рассматриваемый инструмент защищает ваш ресурс от создания штучных дубликатов страниц, при возникновении которых сайт может пострадать и потерять свои позиции в поисковой выдаче.
Давайте рассмотрим возможность дублирования на вашем сайте. Вариантов создания дублей может быть очень много, рассмотрим некоторые, самые часто встречающиеся:
- Доступность для индексирования сайта “с www” и “без него”. Это значит что одна и та же страница вашего сайта доступна с двух разных (в глазах поисковой системы) url адресов. Данная проблема решается путем внесения в файл robots.txt главного зеркала сайта.
- Главная страница сайта и пагинации. Если вы выводите на главной странице анонсы новых записей, то мимолетом создаете и дублирование контента, ведь часть оригинального текста статьи попадает под индекс на другой странице.
- Страницы меток и рубрик так же создают дубли.
- Страницы поиска, архивы записей.
Все перечисленные варианты создания дублей негативно влияют на позиционировании вашего сайта. Одним из способов борьбы с дублированием является создание правильного файла robots.txt, о котором я рассказывал на примере сайта на WordPress.
Некоторые умельцы используют файл robots и в других целях, но это уже совсем другая история и играть с этим крайне не рекомендую.