Предлагаю вашему вниманию перевод доклада директора по системе индексации Google, Dan’а Crow. Доклад сделан на основе третьей конференции SEMNE (Search Engine Marketing New England). Информация прямиком из Google, можно сказать из первых рук. С моими комментариями.


Что такое индексация?

Dan начал свою презентацию с обсуждения, что значит “индексация” и как она производится Google’ом. В общих чертах, процесс индексации для для паука Google выглядит так: сначала робот смотрит файл robots.txt, чтобы узнать, куда ему не нужно идти, и далее проходит по разрешенным страницам. Прочитав страницу, паук находит содержащуюся на ней релевантную информацию. Потом робот проходит по каждой ссылке и повторяет процесс (про nofollow ничего не сказал…)

Растолкованный Robots.txt

Dan продолжил объяснять как использовать файл robots.txt для исключения страниц и директорий вашего сайта из очереди на индексацию, например папку cgi-bin. Он рассказал нам, что все основные поисковые системы имеют свои собственные команды для этого файла, но все поисковики работают над стандартизацией этих команд в недалеком будущем.

По поводу вопроса, чему паук уделяет больше внимания, он сказал, что есть более 200 факторов сканирования, при этом “релевантность” играет большую роль в большинстве из них.

Google все еще любит свой PageRank

Dan также обсудил важность PageRank‘а (настоящего, который знает только Google, а не тулбарного PR, которым только детей пугать). Он дал нам знать, что высококачественные входящие ссылки все еще один из самых важных факторов в плане индексации и ранжирования, и потом он продолжил объяснять, что создание сайта с уникальным контентом для пользователей - один из лучших способов достигнуть успеха. Он объяснил, как создание комьюнити единомышленников, постоянно повышающих популярность вашего сайта, приводит его к успеху.

Не спать. Теперь начнется кое-что интересное :)

Знали ли вы об этих тегах?

Нам также рассказали о некоторых примочках, о которых многие люди не знают ничего. Например, знали ли вы, что используя тег “nosnippet” вы можете сделать так, чтобы Google перестал показывать сниппет вашей страницы в выдаче поисковой системы? Также вы можете сделать так, чтобы Google перестал показывать кэш-версию страницы, используя тег “noarchive“? Dan не рекомендует использов�