Эта тема уже поднималась в блоге, но ссылки были с частичной информацией.
Пример: интернет-магазин. Google переходит по ссылкам "добавить в корзину" и, соответственно, добавляет их в индекс. Получается очень некрасиво, и это нужно исправить. Нужно отдать должное разработчикам поисковика, они позаботились о вебмастерах, да ещё и перевели на русский язык!
http://www.google.com/support/webmasters/ - главная страница помощи веб-мастерам.
А теперь конкретно о проблеме.
1. http://www.google.com/support/webmasters/bin/answer.py?answer=96569&ctx=sibling - описывает, как можно указать роботам, что по не нужно сканировать контент по данной ссылке.
<a href="http://******" rel="nofollow">******</a>
Просто и изящно! Посетитель нажмет на ссылку и всё будет происходить как обычно, а вот Google (и я надеюсь другие поисковики) не будут переходить по ссылке и сканировать контент.
Но всякое бывает, для этого есть вариант 2:
2. http://www.google.com/support/webmasters/bin/answer.py?answer=79812&query=%3Cmeta&topic=&type= - описываются варианты использования тэгов <meta> для указания поисковым ботам, нужно ли сканировать данную страницу или нет.
Надеюсь, что адрес страницы не изменится, и я же делаю ссылку, поэтому скопирую фрагмент страницы:
<meta name="robots" content="..., ..." />
<meta name="googlebot" content="..., ..." />
Эти метатеги позволяют контролировать сканирование и индексирование поисковыми системами. Метатег robots применяется ко всем поисковым системам, а "googlebot" - только к Google. По умолчанию задаются значения "index, follow" - "индексировать, переходить" (то же самое, что "all" - все), и их не надо определять. Google распознает следующие значения (указывая несколько значений, разделяйте их запятыми):
* noindex: запрещает индексирование страницы
* nofollow: запрещает роботу Googlebot переходить по ссылкам с этой страницы
* nosnippet: запрещает показывать фрагмент содержания в результатах поиска
* noodp: запрещает использование альтернативного описания из ODP/DMOZ
* noarchive: запрещает Google показывать ссылку Сохранено в кэше для страницы.
* unavailable_after:[date]: позволяет указать точную дату и время, когда необходимо прекратить сканирование и индексирование этой страницы
* noimageindex: позволяет отметить, что вы не хотите указывать свою страницу в качестве источника ссылки для картинки, отображаемой в результатах поиска Google.
Также стоит отметить, что теперь эту информацию можно указывать и в заголовке страниц с помощью команды НТТР-заголовка "X-Robots-Tag". Это особенно полезно, если нужно настроить сканирование и индексирование таких файлов, как графика, или других документов не в формате HTML.
Можно написать всем роботам не сканировать, можно только для гугл-бота. Шикарно!
И напоследок ссылка на информацию о метатегах с сайта W3C - http://www.w3.org/TR/2002/WD-xhtml2-20020805/mod-meta.html (на английском языке)
Последние 10: