Как запретить Google индексировать некоторые страницы08.10.2008 00:00

Эта тема уже поднималась в блоге, но ссылки были с частичной информацией.

Пример: интернет-магазин. Google переходит по ссылкам "добавить в корзину" и, соответственно, добавляет их в индекс. Получается очень некрасиво, и это нужно исправить. Нужно отдать должное разработчикам поисковика, они позаботились о вебмастерах, да ещё и перевели на русский язык!

http://www.google.com/support/webmasters/ - главная страница помощи веб-мастерам.

А теперь конкретно о проблеме.

1. http://www.google.com/support/webmasters/bin/answer.py?answer=96569&ctx=sibling - описывает, как можно указать роботам, что по не нужно сканировать контент по данной ссылке.

Просто и изящно! Посетитель нажмет на ссылку и всё будет происходить как обычно, а вот Google (и я надеюсь другие поисковики) не будут переходить по ссылке и сканировать контент.

Но всякое бывает, для этого есть вариант 2:

2. http://www.google.com/support/webmasters/bin/answer.py?answer=79812&query=%3Cmeta&topic=&type= - описываются варианты использования тэгов <meta> для указания поисковым ботам, нужно ли сканировать данную страницу или нет.

Надеюсь, что адрес страницы не изменится, и я же делаю ссылку, поэтому скопирую фрагмент страницы:

Эти метатеги позволяют контролировать сканирование и индексирование поисковыми системами. Метатег robots применяется ко всем поисковым системам, а "googlebot" - только к Google. По умолчанию задаются значения "index, follow" - "индексировать, переходить" (то же самое, что "all" - все), и их не надо определять. Google распознает следующие значения (указывая несколько значений, разделяйте их запятыми):

    * noindex: запрещает индексирование страницы
    * nofollow: запрещает роботу Googlebot переходить по ссылкам с этой страницы
    * nosnippet: запрещает показывать фрагмент содержания в результатах поиска
    * noodp: запрещает использование альтернативного описания из ODP/DMOZ
    * noarchive: запрещает Google показывать ссылку Сохранено в кэше для страницы.
    * unavailable_after:[date]: позволяет указать точную дату и время, когда необходимо прекратить сканирование и индексирование этой страницы
    * noimageindex: позволяет отметить, что вы не хотите указывать свою страницу в качестве источника ссылки для картинки, отображаемой в результатах поиска Google.

Также стоит отметить, что теперь эту информацию можно указывать и в заголовке страниц с помощью команды НТТР-заголовка "X-Robots-Tag". Это особенно полезно, если нужно настроить сканирование и индексирование таких файлов, как графика, или других документов не в формате HTML.

Можно написать всем роботам не сканировать, можно только для гугл-бота. Шикарно!

И напоследок ссылка на информацию о метатегах с сайта W3C - http://www.w3.org/TR/2002/WD-xhtml2-20020805/mod-meta.html (на английском языке)

<<< Проблема при показе картинки в pop-up окне

Что такое стандарт RSS? >>>

Последние 10: