Файл robots . t x t — это текстовый файл, который находится в корневом каталоге
Web-сайта и соответствует стандарту robots. t x t . Рискуя повториться и "сгенерировать дублированный контент", мы приведем три основных соображения, которые необходимо помнить о robots.txt:
• в сайте может быть лишь один файл robots. t x t ;
• файл robots.txt должен находиться в корневом каталоге Web-сайта;
• файлы robots.txt, находящиеся в подкаталогах, не рассматриваются (и не рекомендуются).
Официалъналдокументацияпо robots. txt находитсяпо адресу http: //www. robotstxt. org/.
На этом сайте имеется страница с ответами на часто задаваемые вопросы, полнее руководство и список имен агентов, выполняющих индексирование сети.
Если обратиться к журналам, то можно увидеть, что агенты поисковых механизмов
очень часто обращаются к данному файлу. Это происходит потому, что они пытаются не просматривать или не индексировать все файлы, которые исключены в файле robots. t x t , и хотят иметь в кэше самую свежую копию, robots. t x t исключает URL-адреса из рассмотрения поисковыми механизмами с помощью сравнения с очень простыми шаблонами, и зачастую его легче использовать для исключения из сайта целых каталогов или если, например, нужно исключить много URL-адресов, начинающихся с одних и тех же символов.
Иногда по каким-то внутренним причинам в (обычно большой) компании невозможно получить доступ для изменения этого файла в корневом каталоге. В этом случае, если имеется доступ к исходному коду нужной части приложения, используйте дескриптор meta robots.
Файл robots.txt не пэдпнажачвн для защиты информации! Он запрещает доступ к
каким-либо файлам Он лнщь останавливают индексирование контента поисковым механизмом и таким образом не позволяет пользователям просмотреть конкретный контент с помощью страниц результатов поискового механизма. Но пользователи могут просто перейти на эти страницы на сайте Кроме того, сам файл robots.txt является общедоступным ресурсом и любой, кто захочет воспользоваться им, может сделать это. вводов адресной строке браузера /robots.txt . Так что использование его для защиты может лишь сделать такие страницы более привлекательными для хакеров. Защиту контента следует выполнять традиционными способами аутентификации пользователей и их авторизации для просмотра информации вашего сайта.
Файл robots. txt содержит описания User-agent, которые определяют исключаемые
агенты, и элементы Disallow для определения одного или более исключаемых
URL-адресов. Строки файла robots. txt, которые начинаются с символа #, являются
комментариями и игнорируются агентами.
Следующий файл robots. txt, помещенный в корневой каталог сайта, запрещает
всем агентам (*) обращаться к любым файлам сайта:
# Запрет просмотра сайта всем агентам
User-agent: *
Disallow: /
Следующий пример запрещает Google индексировать все URL, которые начинаются
на/directory:
# Запрев googlebot индексировать все, что начинается на /directory
User-agent: googlebot
Disallow: /directory
googlebot — имя пользовательского агента Google. Учтите, что каждая директива
Disallow соответствует префиксам, а не файлам или URL-адресам. Так что файл
/directory.html (поскольку /directory является префиксом для /directory.html)
также будет соответствовать этому правилу и будет исключен. Если нужно исключить только содержимое папки directory, то нужно указать /directory/. Заключительный слэш предохраняет от соответствия с /directory.html. Учтите также, что слэш в начале обязателен для исключений. Следующее правило неверно:
Disallow: directory
Звездочка, указанная в директиве User-agent, не эквивалентна обобщенному
символу "*". Она не означает любые символы, и строка goo*bot не соответствует
googlebot; более того, она ошибочна.
Обобщенные символы официально не разрешены и в директиве Disallow:, хотя
Google, MSN, а в последнее время и Yahoo! поддерживают эту нестандартную форму применения обобщенных символов. Но мы не рекомендуем их использовать, поскольку это не соответствует стандарту и поскольку многие другие поисковые механизмы не поддерживают их.
Информация о реализациях в поисковых механизмах обобщенных символов находится по следующим адресам:
• Google: http://www.google.com/support/webmasters/bin/answer.py?answer=35303
• MSN: http://search.msn.com.sg/docs/siteowner.aspx?t=
SEARCH_WEBMASTER_REF_RestrictAccessToSite.htm#b
• Yahoo!: http://www.ysearchblog.com/archives/000372.html
Обобщенные символы позволяют записать в файле robots. txt следующие правила,
указывающие Google не индексировать все URL, которые содержат в любом месте
подстроку print=:
User-agent: googlebot
Disallow: /*print=
Странно, что наряду с директивой Disallow (Запретить) почему-то нет директивы
Allow (Разрешить). В некоторых поисковых механизмах (в том числе Google и Yahoo!) они имеются, но детали их интерпретации могут различаться, и они не являются частью стандарта. Мы настоятельно рекомендуем не пользоваться этой директивой.
Исключение с помощью файла robots. txt
Tagged: