Первоначально World Wide Web состоял в основном из статических Web-сайтов.
Каждый URL в Web-сайте указывал на реально существующий физический файл, расположенный
в файловой системе Web-сервера. Поэтому агентам поисковых механизмов практически не о чем было беспокоиться. Агент просматривал весь Web-сайт и
индексировал все URL-адреса — все было относительно просто. Проблемы вроде дублированного
контента или ловушек для агентов практически не встречались.
В настоящее время в пейзаже World Wide Web преобладают динамические Web-сайты. К сожалению, они часто вызывают затруднения, если смотреть на URL-адреса с точки зрения поискового механизма — особенно в отношении индексирования страниц.
Например, во многих динамических Web-сайтах применяются запросы со строковыми параметрами, которые генерируют различные URL-адреса,указывающие на очень похожий или вообще идентичный контент. Поисковые механизмы считают это дублированием контента, что может привести к штрафованию страниц. Использование множества параметров в URL может создать ловушки агентов (spider trap, см. http://en.wikipedia.org/wiki/Spider_trap) или такую структуру ссылок, которую поисковый механизм может преодолеть лишь с трудом. Понятно, что обе эти ситуации снижают
ранг таких Web-сайтов в поисковых механизмах. Дублирование контента рассматривается в главе 5.
Поскольку данную книгу читают Web-разработчики, проектирующие динамические сайты, эти темы необходимо рассмотреть более глубоко. И начнем мы с разбиения URL-адресов на две группы на основе их анатомии:
• статические URL;
• динамические URL.