Этот способ рассматривается первым не потому, что он является универсальным и оптимальным способом исключения контента, а скорее потому, что на его применение практически не накладывается ограничений. Дескриптор meta robots позволяет постранично исключать любой HTML-контент, и зачастую этот метод легче, если требуется исключить дублированный контент с уже существующего сайта, для которого доступен исходный код, или если сайт содержит множество сложных динамических URL-адресов.
Чтобы исключить страницу таким способом, просто вставьте в раздел
HTML-документа, который нужно исключить, следующий код:
Здесь указывается, что данную страницу не нужно индексировать (noindex), и не
нужно переходить по ссылкам с этой страницы (nofollow). Относительно несложно
добавить простую программную логику, которая будет определять, добавлять такой дескриптор в страницы сайта или нет. Этот прием всегда работает (если есть доступ к исходному коду приложения), в то время как исключение с помощью robots.t x t в некоторых случаях применить трудно, а то и невозможно.
Чтобы исключить просмотр конкретным агентом, нужно заменить слово robots
на имя этого агента — например, googlebot, msnbot или slurp. Для исключения нескольких агентов придется записать несколько дескрипторов meta robots. К примеру, вот так выполняется исключение googlebot и msnbot:
Имена наиболее распространенных агентов, используемых основными поисковыми механизмами, приведены в табл. 5.1.
Теоретически этот метод эквивалентен методу, который мы рассмотрим следующим - robots.t x t . Единственный его недостаток состоит в том, что для определения, нужно ли индексировать страницу, ее приходится прочитать. Это может привести к замедлению индексирования. К тому же, Дэн Тайес (Dan Thies) в своей книге The Search Engine Marketing Kit замечает: "Если на вашем сайте на каждую страницу уникального контента приходится 10 страниц дублированного, то агенты могут просто прекратить индексирование ... нельзя надеяться, что поисковые механизмы будут рыться в вашем сайте, выискивая уникальный контент".
Как уже было сказано, у метода meta-исключения имеются два технических ограничения.
• Нужен доступ к исходному коду приложения. Иначе вставить дескриптор meta
robots невозможно, ведь его нужно помещать в Web-страницы, генерируемые
этим приложением.
• Он работает только для HTML-файлов, но не для текстовых, CSS, двоичных
файлов или изображений.
Эти ограничения позволяет обойти применение файла robots. t x t , который будет
рассмотрен ниже. Он также имеет свои ограничения. Но при отсутствии доступа к исходному коду Web-приложения единственной возможностью остается robots.txt.