Все для дизайна: aMyzalevsky: Правильная индексация сайта.Файл robots.txt и его применение

Доброго времени суток!

Сегодня мы обдумаем тему "правильная индексация сайта роботами Google, Яндекса и всеми остальными жителями этого чудного зоопарка". Речь пойдет не о способах быстро засунуть сайт в индекс, или о том, как ботов заставить сразу проиндексировать весь сайт. Разговор будет всего лишь о том, как запретить роботам- поисковикам индексировать определенные страницы сайта или, даже, целые папки. А следовательно, уменьшить время на полную индексацию полезного контента сайта. Выполняется это при помощи маленького, но весьма значительного файла под именем robots.txt. Существуют мнения, что сайт, не содержащий robots.txt вообще не индексируется, либо индексируется неправильно и не полностью.

Meсто расположения на сайте и формат файла robots.txt.

Файл robots.txt, для правильного его прочтения и принятия к сведению роботами поисковиков Google, MSN, Яндекс и т.д., должен находиться строго в корневой директории сайта. То есть если у вас сайт *.ru, то файл должен находиться в папке www или httpdocs, либо в папке, которая звучит одноименно Вашему домену. Именно туда смотрят роботы при начале индексации сайта. Впрочем, не только при первом заходе с целью индексации, а и во все последующие. Нахождение файла в другом месте- неверно и не приводит к его нахождению, и как итог, к его правильной интерпретации роботами. Назван файл должно быть robots (маленькие латинские буквы), расширение txt и никак иначе. Заглавные буквы в имени недопустимы. Создается файл стандартным "Блокнотом" Windows. Пустой файл, в котором нет ни одной команды, равноценен его отсутствию.

Синтаксис и команды файла robots.txt.

Как я уже озвучил ранее, файл запрещает индексацию страниц. Следовательно, то, что не запрещено, то разрешено. Уж простите за тафтологию. Содержимое файла представляет собой список роботов и рекомендации им же. Сначала идет имя робота, на следующей строке- команды для исполнения. Рассмотрим это на примерах.

Эти две строки предписывают всем ботам( команда User-Agent: *) индексировать все страницы (команда Disallow: ) сайта. Обратите внимание, что перед оператором запрета Disallow всегда указано имя робота, для которого создано это правило. Если Вы задаете правило для всех роботов, то ставите знак "*" вместо имени. Рассмотрим примеры, когда Вы хотите, чтобы роботы не индексировали, например, целую папку "data". Пишем строку с указанием робота, а потом строку с запретом индексации папки.

Таким же образом создается запрет на индексацию отдельных файлов. При этом остальные файлы в той же папке спокойно при этом индексируются. Пример:

Очень важно понимать при этом, что для каждой папки нужно делать новую строку. Перечисление папок в одной строке недопустимо. Рассмотрим запрет папок "data" и "image".

Правильный пример запрета индексации:

Неправильный пример запрета индексации:

В некоторых случаях бывает необходимо создать правило на запрет индексации некоторых папок только для одного или нескольким роботам- индексаторам. Делается это следующим образом. Сначала создается правило для отдельного робота, а потом для всех остальных Пример запрета индексации папки "data" для Яндекса и Google, а всем остальным - можно индексировать все содержимое сайта.

Можно сделать и короче. Просто перечислив сначала отдельными строками роботов, а потом одну строку запрета индексации. Пример:

Но, на мой взгляд, удобнее прописать правила для каждого робота. Ибо Вы потом при таком подробном списке не запутаетесь, что Вы какому роботу запретили и оперативно можете менять правила для каждого отдельно взятого робота. Плюс будут наглядно видны все правила и структура файла robots.txt, что позволит Вам помнить все правила создания данного файла. А правильный robots.txt- залог правильной и быстрой индексации сайта. Успехов Вам в построении своего robots.txt.

Команды robots.txt не связанные с запретом индексации.

Таких команд две: Host и Craw-delay. Первая используется для Яндекса и конкретно указывает, как индексировать сайт, с приставкой "www" или без нее. Яндекс, к сожалению, без этого указания может проиндексировать, как захочет его левая нога. Половину страниц как "www.site.ru/", а другую половину "site.ru/". Если Вас не сильно заботит такое раздвоение, то можете не уделять этому внимание. С другой стороны ТИЦ достается не целиком одному домену, а двум. Один с www, другой - без www. Пример использования команды:

Данный пример показывает роботу Яндекса, что сайт velluk.com нужно индексировать без приставки www.

Команда Craw-delay указывает роботу, какую задержку нужно делать перед индексацией следующей страницы. Эту команду актуально применять, когда Ваш сайт загружен и выполняет какие-то мощные расчеты. Либо много графики и php- скриптов на странице.

P.S. : за время написания поста потрачено два часа жизни и выпито две кружки бодрого напитка под названием "кофе".

Источник: http://amyzalevsky.blogspot.com

Мой список блогов

суббота, 22 мая 2010 г.

aMyzalevsky: Правильная индексация сайта.Файл robots.txt и его применение

Комментариев нет:

Все для дизайна

Архив блога

Постоянные читатели