На официальном блоге Google вчера была опубликована статья Уди Менбера (Udi Manber) вице-президента Google Engineering и главы Search Quality. Это статья человека, который работает в компании 2 года, а собственно поисковыми технологиями по его же словами занимается уже 20 лет. Так что, в чем-то он да разбирается.

Статья представляет собой краткий, но достаточно информативный очерк, о том чем занимается Google, кто там за что отвечает и что делает, о технологиях и принцыпах работы, в общем обо всем, что делает Google самым популярным, самым удобным, самым быстрым, в общем самым-самым… поисковиком в мире. Америку нам Уди Менбер, вряд ли, открыл, но читать все равно интересно. Поэтому, собственно говоря, я и перевел наиболее интересные, на мой взгляд, части данной статьи для вас.  Надеюсь, она вам понравится, если кому интересен оригинал, он здесь.

Итак, знакомимся с Google Search Quality

Уди Менбер:

“Search Quality - это группа, ответственная за ранжирование результатов поиска в Google. Наша задача ясна: несколько сотен миллионов раз в день люди задают Google вопросы, и в течении секунды Google должен решить, какие из миллиардов web страниц следует показать, и в каком порядке. Хотя в последнее время мы занимаемся и другими делами. Но об этом позже”.

О том, чем пользуются так часто и так много людей, на удивление мало известно, то есть о ранжировании в Google. Это полностью наша вина, и так оно и задумывалось. Мы, честно говоря, достаточно скрытны в том, что делаем. На то существует две причины: конкуренция и возможное мошенничество. С конкуренцией все ясно. Ни одна компания не станет делиться своим тайными рецептами с конкурентами. Что касается мошенничества, то если мы сделаем формулы составления нашего рейтинга слишком уж доступными, мы тем самым упростим людям задачу перехитрить, обвести систему вокруг пальца. Безопасность посредством скрытности никогда не является лучшим способом, и мы не полагаемся исключительно на нее, но она на самом деле предотвращает использование очень многих “нечистых методов”.

“Подробности алгоритмов ранжирования для Google являются чем-то на подобие драгоценных камней в короне. Мы очень гордимся ими и очень их бережем.” Да яркое сравнение, и точное.

“Но быть абсолютно скрытными нельзя, и этот пост - это часть попытки вновь расказывать немного больше, чем мы делали в прошлом. Мы постараемся периодически рассказать вам о новых вещах, объяснять старые вещи, давать советы, распространять новости, и принимать участие в обсуждениях. Я начну с общей информации о нашей группе. В дальнейшем будет больше подобных постов.

Сердцем группы является команда, которая работает над основной ранжирования. Ранжирование - процесс сложный, гораздо сложнее, чем большинство людей себе представляют. Одна из причин этого заключается в том, что языки являются по своей сути существенно неопределенными, а документы не соответствуют определенному набору правил. Действительно, нет общих стандартов того, как передавать информацию, а мы должны понимать все веб-страницы, написанные кем угодно и по какой угодно причине. И это только половина проблемы. Мы также должны понимать поисковые запросы, которые задают люди, и которые в среднем состоят меньше, чем из трех слов, и после этого предоставлять им наше понимание всех этих документов. Не говоря уже о том, что у разных людей разные потребности. И все это мы должны сделать в течении нескольких миллисекунд.

Наиболее известная часть нашего алгоритма для составления рейтинга – это PageRank, алгоритм разработанный Ларри Пейджем и Сергеем Брином, основателями Google. PageRank по-прежнему используется и по сей день, но теперь он является частью гораздо более глобальной системы. К другим частям алгоритма относятся: модели языков (способность управлять словосочетаниями, синонимами, диакритными знаками, ошибками правописания, и т.д.), модели запросов (не просто язык, а то, как люди используют его сегодня), временные модели ( на одни запросы лучше отвечают страницы, которым всего 30 минут, а на другие лучше отвечать страницей, которая уже прошла испытание временем) и персонализированные модели (не все люди хотят одного и того же).

Еще одна команда в нашей группе отвечает за оценку того, насколько хорошо мы все делаем. Делается это по-разному, но цель всегда одна и та же: улучшение пользовательского опыта. Это не главная цель, это единственная цель. Каждую минуту производится автоматизированное оценивание (чтобы убедиться, что все идет по плану), также осуществляется периодическое оценивание общего качества нашей работы и, самое главное, происходит проверка конкретных алгоритмических улучшений. Когда у инженера появляется новая идея, и он разрабатывает новый алгоритм, мы очень тщательно проверяем все эти идеи. У нас есть команда специалистов по статистке, которая изучают все имеющиеся данные и определяют ценность новой задумки. Мы встречаемся каждую неделю (иногда дважды в неделю) чтоб рассмотреть все эти идеи и утвердить испытание новых. В 2021 году мы запустили более 450 новых усовершенствований, в среднем 9 в неделю. Некоторые из этих улучшений просты и очевидны - например, мы разработали способ, как на иврите обрабатываются акронимические запросы (на иврите акроним обозначается (”) рядом с последней буквой слова, так что IBM будет выглядеть как IB”M), а некоторые из этих улучшений весьма сложные - например, мы внесли существенные изменения в алгоритм PageRank в январе. Большую часть времени мы работаем над улучшением релевантности, однако мы также работаем и над проектами, единственной целью которых является упрощение алгоритмов. Простота - это хорошо.

Международный поиск стал для нас одним из ключевых направлений, над которым мы работали в течении последних двух лет. Он включает в себя все языки, а не только наиболее распространенные. Например, в прошлом году, мы добились существенного улучшения в азербайджанском, языке, на котром говорят около 8 млн. человек. За последние несколько месяцев, мы ввели проверку правописания на эстонском языке, каталонском, сербском, сербско-хорватском, украинском, боснийском, латышском, филиппинском, словенском и фарси. Мы создали сеть среди людей всего мира, которые обеспечивают нам обратную связь, у нас также есть много добровольцев со всех отделений Google, которые говорят на разных языках и помогают нам улучшить поиск.

Еще одна группа работает над новыми возможностями и новыим пользовательских интерфейсами. Большой машине нужен большой двигатель, однако одного его не достаточно. Автомобиль должен быть комфортным и легко управляемым. Пользовательский интерфейс Google поиска очень прост. Очень немногие из наших пользователей хоть раз читали страницы-помощи, они и без них прекрасно обходятся (хотя их тоже полезно почитать, и мы работаем над их улучшением). Когда мы добавляем новые опции, то делаем все возможное, чтоб они были понятны, просты и интуитивны в использовании для каждого пользователя. Одним из наиболее заметных изменений, которе мы сделали в прошлом году, был Универсальный поиск (Universal Search ). Среди прочих: Google Notebook, Custom Search Engines, и, конечно же, множество улучшений iGoogle. UI команде помогает группа экспертов по юзабильности, которые проводят исследования среди пользователей и оценивают новые функции. Они путешествуют по всему миру, и даже заходят к людям в дома, чтобы увидеть пользователя в его естественной среде обитания.  (Не волнуйтесь, они не приходят без предупреждения и без приглашения!)

Существует целая команда, которая концентрируется на борьбе с web-спамом и других видах мошенничества. Эта команда работает по ряду направлений, начиная от скрытого текста, до страниц, не относящихся к конкретной теме, а просто забитых бессмысленными комбинациями кейвордов, а также над множеством других схем, которые люди используют, чтоб оказаться выше в результатах поиска. Группа выслеживает новые тенденций спама и разрабатывает для них противодействия, причем разными методами; как и все другие команды, они делают это на международном уровне. Webspam группа работает в тесном сотрудничестве с Google Webmaster Central team, с тем чтоб делиться своим пониманием данных проблем, а также прислушиваться к владельцам сайтов.

Есть и другие группы, посвященные конкретным проектам. В общем, наша организационная структура носит достаточно неформальный характер. Люди все время в движении, и все время открываются новые проекты.

Один из ключевых моментов в поиске заключается в том, что ожидания пользователей растут большими темпами. Завтрашние запросы будет гораздо сложнее, чем сегодняшние. Невозможно это точно измерить, но мы все ощущаем это. Мы знаем, что мы не можем почивать на лаврах, мы должны трудиться, чтобы справиться с новыми задачами. Как я уже говорил, мы будем и дальше будем предоставлять Вам информацию о качестве поиска, так что следите за обновлениями.”

Источник: seoblog

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Популярность: 65%