ОКОНЧАНИЕ. Первая часть статьи доступна ЗДЕСЬ

Подробное описание

Нижеследующее подробное описание реализации, построенной на принципах данного изобретения, проиллюстрировано прилагающимися изображениями. Ссылочные номера на разных изображениях указывают на одинаковые или сходные элементы. Кроме того, данное подробное описание не ограничивает область применения данного изобретения.

Обзор

Системы и методы, соответствующие принципам данного изобретения, улучшают качество результатов поиска, возвращаемых в ответ на поисковый запрос по блогам. Для улучшения качества результатов поиска по блогам могут быть использованы качественные характеристики – для изменения (как в лучшую, так и в худшую сторону) положения блога в результатах поиска.

На рис. 1 изображена показательная диаграмма, иллюстрирующая принципы функционирования данного изобретения. Два отдельных набора данных используются для определения коэффициентов блога (или блог-постинга) в ответ на поисковый запрос – одна часть связана с определением тематической релевантности блога (или блог-постинга) терминам поискового запроса, вторая служит для определения качаства блога (или блог-постинга), которое не зависит от терминов запроса. Качество блога (или блог-постинга) может воздействовать на коэффициенты блога (блог-постинга) как в лучшую, так и в худшую сторону.

Фраза «блог-документ», которая будет использоваться в данном патенте, подразумевает под собой блог, блог-постинг, или блог и блог-постинг вместе. Подразумевается, что описанные здесь приемы в равной степени применимы как к блогам, так и к блог-постингам. Термин «Документ», употребляющийся далее, подразумевает под собой любой воспринимаемый компьютером и хранящийся в цифровом виде продукт. Документом может быть, к примеру, электронное письмо, веб-сайт, файл, комбинация файлов, один или более файлов со встроенными ссылками на другие файлы, постинг в новостные группы, блог-документ, веб-реклама, и т.д. В контексте сети Интернет, наиболее распространенным документом является веб-страница. Веб-страницы зачастую содержат текстовую информацию, а также могут содержать встроенную информацию (изображения, гиперссылки, мета-информацию, и т.п. ) и/или встроенные инструкции (Javascript и т.п.). «Ссылка», в качестве используемого здесь термина, подразумевает под собой любую ссылку на/с документ с/на другого документа, или другой части того же документа.

Показательная конфигурация сети

На рис. 2 содержится показательная диаграмма сети 200, в которой могут быть реализованы системы и методы, соответствующие принципам данного изобретения. Сеть 200 может включать множество клиентов 210, подсоединенных к множеству серверов 220-240 посредством сети 250. Клиенты 210 и три сервера 220-240 изображены подключенными к сети 250 для упрощения. На практике может быть большее или меньшее количество клиентов и серверов. В некоторых случаях, также, клиент может выполнять функции сервера, а сервер – функции клиента.

Клиенты 210 могут содержать клиентские объекты. Объект может быть определен как устройство (персональный компьютер, беспроводной телефон, персональный электронный помощник (PDA), переносной компьютер или другой тип коммуникационного устройства), или процесс, выполняющийся на одном из этих устройств. Серверы 220-240 могут включать в себя серверные объекты, которые собирают, обрабатывают, ищут, и/или хранят документы в соответствии с принципами данного изобретения.

В реализации, соответствующей принципам данного изобретения, сервер 220 может включать в себя поисковую систему 225, используемую клиентами 210. В одной из возможных реализаций, поисковая система 225 может содержать блог-поисковую систему, которая осуществляет поиск только в блог-документах. Сервер 220 кроулит набор документов, индексирует документы, и сохраняет информацию, ассоциированную с документами, в хранилище документов. Серверы 230 и 240 хранят или поддерживают документы, которые были отсмотрены или проанализированы сервером 220.

Поскольку серверы 220-240 показаны в виде отдельных объектов, то для одного или более серверов 220-240 возможно осуществление одной или более функций другого (или других) сервера 220-240. К примеру, возможно, что один или более серверов 220-240 реализованы в качестве отдельного сервера. Возможно, также, что отдельные сервера 220-240 реализованы как два или более отдельных (и возможно распределенных) устройства.

Сеть 250 может включать в себя местную локальную сеть (LAN), расширенную сеть (WAN), телефонную сеть, Интранет, Интернет, или сочетание нескольких сетей. Клиенты 210 и серверы 220-240 могут быть связаны с сетью 250 посредством кабеля, беспроводной связи, и/или оптической связи.

Показательная архитектура клиент/сервер

Рис. 3 – это показательная диаграмма клиентского или серверного объекта (здесь и далее называемого «объект клиент/сервер»), которая может соответствовать одному или нескольким клиентам 210 и/или серверам 220-240. Объект клиент/сервер включает в себя шину 310, процессор 320, основную память 330, постоянную память (ROM) 340, устройство хранения 350, устройство ввода 360, устройство вывода 370, и интерфейс для взаимодействия 380. Шина 310 содержит путь, который позволяет осуществлять взаимодействие между элементами объекта клиент/сервер.

Процессор 320 может состоять из процессора, микропроцессора, или логического процессора, способных понимать и выполнять инструкции. Основная память 320 может состоять из памяти со случайным доступом (RAM) или другого типа устройства для динамического хранения информации, сохраняющего информацию и инструкции для выполнения процессором 320. ROM 340 может состоять из устройства ROM или другого устройства для статического хранения информации, которое может сохранять информацию для использования процессором 320. Устройство хранения 350 может состоять из магнитного и/или оптического записывающего устройства.

Устройство ввода 360 может включать в себя механизм, который позволяет оператору вводить информацию в объект клиент/сервер – клавиатуру, мышь, электронный карандаш, систему распознавания голоса и/или биометрические механизмы, и т.п. Устройство вывода 370 может включать в себя механизм, выводящий информацию оператору – дисплей, принтер, динамики, и т.п. Интерфейс для взаимодействия 380 может состоять из любого механизма приема-передачи, который позволяет объекту клиент-сервер взаимодействовать с другими устройствами и/или системами. К примеру, интерфейс взаимодействия 380 может включать в себя механизмы для взаимодействия с другим устройством или системой посредством сети, подобной сети 250.

Объект клиент/сервер, соответствующий принципам данного изобретения, может выполнять определенные операции по обработке документов, которые будут детально описаны далее. Объект клиент/сервер может осуществлять эти операции в ответ на инструкции со стороны программного обеспечения процессора 320, содержащихся в компьютерном устройстве, подобном памяти 330. Компьютерное устройство может быть физическим или логическим устройством памяти, и/или электромагнитной средой.

Программные инструкции считываются в память 330 с другого компьютерного устройства, подобного устройству хранения информации 350, или с другого устройства посредством интерфейса для взаимодействия 380. Программные инструкции, содержащиеся в памяти 330, заставляют процессор осуществлять процессы, которые будут описаны далее.

Показательное компьютерное устройство

Нарис.4 изображена диаграмма части показательного компьютерного устройства 400, которое может использоваться сервером 220. В одной из возможных реализаций, компьютерное устройство 400 может соответствовать памяти 330 сервера 220. Часть компьютерного устройства 400, изображенная на рис. 4, может содержать операционную систему 410 и программное обеспечение 420 для качественной оценки блогов.

Операционная система 410 может включать в себя программное обеспечение операционной системы, подобное Windows или Linux. Программное обеспечение 420 для качественной оценки блогов может включать в себя программу, получающую данные о блог-документе и определяющую, на основании этих данных, качественный показатель для блог-документа. Данные могут включать в себя сигналы, измеряющие вероятность того, что контент блог-документа плохого качества. Это может привести к понижению или удалению блог-документа из списка кандидатов в результаты поиска. Данные могут, также, включать в себя сигналы, измеряющие вероятность того, что контент блог-документа высокого качества/популярности, что влечет за собой повышение блог-документа в списке кандидатов в результаты поиска.

На рис. 5 изображена показательная база данных 500, которая связана с сервером 220 в реализации, соответствующей принципам данного изобретения. База данных 500 может храниться локально на сервере 220, к примеру, в основной памяти 330 или устройстве для хранения 350; или вынесена за пределы сервера 220. Согласно изображению, база данных 500 может включать в себя следующие поля: поле идентификатора документа (ID) 510, и поле коэффициента качества 520. Вполне допустимо, что база данных 500 может содержать дополнительные поля, кроме изображенных на рис. 5

Поле идентификатора документа 510 хранит информацию, идентифицирующую блог-документы. Информация может содержать уникальный идентификатор. Поле качественного показателя 520 может хранить качественный показатель для каждого блог-документа, идентифицированного полем 510. Доступ к базе данных 500 может осуществляться в ответ на поисковый запрос, полученный сервером 220. Сервер 220 может повышать, понижать, или полностью удалять блог-документ (т.е. блог и/или блог-постинг) из набора результатов поиска, на основании коэффициента качества, хранящегося в поле 420.

Определение коэффициента качества для блог-документа.

Рис. 6 содержит потоковую карту процесса определения коэффициента качества для блог-документа в реализации, соответствующей принципам данного изобретения. Обработка может начинаться с получения информации об оцениваемом блог-документе (шаг 610). Информация может содержать сам блог, постинг, метаданные блога, и/или дополнительные источники данных, связанные с блог-документом.

Положительные индикаторы качества блог-документа определяются на этапе «шаг 620». Индикаторы могут включать в себя популярность блог-документа, подразумеваемую популярность, присутствие блог-документа в блог-листингах, присутствие блог-документа в ведущих блог-листингах, тэггинг блог-документа, ссылки на блог-документ с других ресурсов, а также PageRank блог-документа. Возможно использование и других индикаторов.

Популярность блог-документа может служить положительным индикатором качества этого блог-документа. Некоторые новостные сайты (обычно называемые «news readers» или «feed readers») существуют за счет того, что пользователи могут подписываться на блог-документ (доставляемый с помощью фида сайта). Подобные аггрегаторы хранят информацию о том, сколько человек подписалось на тот или иной блог-документ. Большее количество подписчиков на блог-документ подразумевает более высокое качество этого блог-документа. При этом подписки должны проверяться на «подписной спам» (когда спамеры подписываются на собственные блог-документы, пытаясь сделать их «более популярными») – путем проверки уникальности подписчиков, или путем отслеживания уникальных IP-адресов подписчиков.

Подразумеваемая популярность блог-документа может быть определена, к примеру, путем оценки клик-потоков в результатах поиска. Если определенный блог-документ привлекает внимание чаще, чем другие блог-документы в результатах поиска, то это может свидетельствовать о популярности блог-документа и, соответственно, служит положительным индикатором качества блог-документа.

Существование блог-документа в блог-листингах может служить положительным индикатором качества блог-документа. Поощряется, также, если блог-документы содержат не только недавние записи (постинги), но и «блог-листингы» - краткие коллекции ссылок на сторонние сайты (обычно другие блоги), которые интересны автору/блоггеру. Ссылка в блог-листинге на блог-документ служит индикатором популярности блог-документа, поэтому совокупность ссылок на блог-документ в блог-листингах учитывается и используется для оценки масштаба популярности блог-документа.

Существование блог-документа в блог-листинге известного или заслуживающего доверия блоггера также служит положительным индикатором качества блог-документа. В подобной ситуации предполагается, что известный или заслуживающий доверия блоггер не станет ссылаться на блоггера-спаммера.

Тэггинг блог-документа может служить положительным индикатором качества блог-документа. Некоторые сайты позволяют пользователям добавлять «тэги» (т.е., «категоризировать») в блог-документ. Подобные тэги служат свидетельством того, что владелец оценил контент блог-документа и определил одну или более категорий, которые больше всего подходят для его контента – это само по себе служит положительным индикатором качества блог-документа.

Ссылки на блог-документ с других ресурсов могут служить положительным индикатором качества блог-документа. К примеру, контент электронных писем или стенограмм чатов может содержать URL блог-документов. Электронное письмо или обсуждение в чате, которые содержат ссылки на блог-документ, служат положительным индикатором качества блог-документа.

PageRank блог-документа может служить положительным индикатором качества блог-документа. Высокий PageRank (параметр, рассчитываемый для обычных веб-страниц) – это свидетельство высокого качества и, таким образом, может применяться к блог-документам как положительный индикатор качества блог-документов. В некоторых реализациях блог-документ (постинг) может не ассоциироваться с PageRank (напр., в случае с новым постингом). В подобных случаях новый постинг может наследовать PageRank родительского блога, пока для этого постинга не будет рассчитан собственный PageRank. Подобный наследуемый PageRank можут служить в качестве положительного индикатора качества нового постинга.

Отрицательные индикаторы качества блог-документа определяются на этапе «шаг 630». Это может быть частота добавления новых постингов в блог-документ, содержание постингов в блог-документе, размер постингов в блог-документе, распределение ссылок блог-документа и наличие рекламных объявлений в блог-документе. Допустимо использование и других индикаторов.

Частота добавления новых постингов в блог-документ может использоваться в качестве отрицательного индикатора качества этого блог-документа. Обычно фиды содержат только самые последние постинги в блог-документ. Спаммеры генерируют новые постинги пакетами (т.е., множество новых постингов появляется в течение короткого промежутка времени) или в течение предсказуемых интервалов (один постинг в 10 минут, или постинг каждые 3 часа на 32 минуте). Оба сценария связаны с недобросовестными намерениями, и могут использоваться для обнаружения потенциальных спаммеров. Таким образом, если частота добавления новых постингов в блог-документ вписывается в предсказуемый алгоритм, это может стать отрицательным индикатором при оценке качества блог-документа.

Контент постингов в блог-документе может стать отрицательным индикатором качества этого блог-документа. Фид обычно содержит некоторую часть или весь контент нескольких постингов из данного блог-документа. Сам блог-документ также содержит контент постингов. Спаммеры могут помещать одну из версий своего контента в фид, чтобы улучшить его ранкинги в результатах поиска, при этом сам блог-документ будет содержать другую версию контента (к примеру, ссылки на нерелевантные объявления). Несоответствие (между фидом и блог-документом) может стать отрицательным индикатором качества блог-документа.

В некоторых случаях контент может дублироваться в нескольких постингах блог-документа, в результате чего в нескольких фидах будет содержаться один и тот же контент. Подобное дублирование свидетельствует о низком качестве/спамовости фида и может стать отрицательным индикатором качества блог-документа.

Слова/фразы, используемые в постингах блог-документа, также могут стать отрицательным индикатором качества этого блог-документа. К примеру, из коллекции блог-документов и фидов, которые были оценены редакторами как спам, может извлекаться список слов и фраз (биграмм, триграмм, и т.д.), которые часто появляются в спам-контенте. Если блог-документ имеет высокое содержание слов или фраз из этого списка, подобное может стать отрицательным индикатором при оценке качества блог-документа.

Размер постингов в блог-документе может стать отрицательным индикатором качества блог-документа. Зачастую автоматические генераторы постингов создают многочисленные постинги одинаковой или очень мало различающейся длины. В результате распределение размеров постингов может использоваться как надежный критерий для оценки спамовости. Когда блог-документ содержит множество постингов одинаковой или очень схожей длины, это может стать отрицательным индикатором при оценке качества блог-документа.

Распределение ссылок в блог-документе может стать отрицательным индикатором качества блог-документа. Как указывалось ранее, некоторые постинги создаются для увеличения PageRank отдельного блог-документа. В некоторых случаях, большой процент всех ссылок с постинга или с блог-документа указывают на отдельную веб-страницу или на отдельный сторонний сайт. Если количество ссылок на сторонний сайт превышает некоторый предел, это может отрицательно сказаться на качестве блог-документа.

Наличие рекламных объявлений в блог-документе может стать отрицательным индикатором качества блог-документа. Если блог-документ содержит большое количество объявлений, это может отрицательно сказаться на качественной оценке этого блог-документа.

Блог-документы, обычно, содержат три типа контента: контент в виде недавних постингов, блог-лист, и блог-метаданные (т.е., данные об авторе, другая уместная информация о блог-документе и его авторе). Рекламные объявления, если таковые присутствуют, обычно размещаются в разделе метаданных блога, или возле раздела блог-ссылок. Наличие объявлений в разделе недавних постингов может стать отрицательной характеристикой блог-документа.

Качественный коэффициент для блог-документа может рассчитываться на основании определенных индикаторов (шаг 640). К примеру, в одном из вариантов качественный коэффициент для блог-документа определяется путем присваивания веса различным индикаторам и нахождения комбинации весов для получения качественного коэффициента. Индикаторы могут комбинироваться и/или получать вес различными способами. Например, каждому индикатору может присваиваться положительное или отрицательное значение. Эти значения суммируются для определения качественного коэффициента для блог-документа. Другой способ – значение каждого индикатора умножается на соответствующий фактор (или вес), и получившиеся в результате значения суммируются для получения качественного коэффициента блог-документа. В качестве альтернативы могут использоваться и другие методики.

После определения качественного коэффициента для блог-документа, этот коэффициент ассоциируется с блог-документом. К примеру, качественный коэффициент может ассоциироваться в базе данных 500 с информацией, идентифицирующей блог-документ, для которого определялся коэффициент. В таком случае база данных 500 будет хранить качественные коэффициенты блог-документов. Эти коэффициенты могут периодически обновляться.

Выдача поисковых результатов

Рис. 7 представляет собой потоковую карту показательного процесса выдачи результатов поиска. В одной из возможных реализаций, обработка, представленная нарис. 7, может выполняться одним или более программных и/или аппаратных компонентов, входящих в состав сервера 220. В другой возможной реализации, обработка может осуществляться одним или более программных и/или аппаратных компонентов в составе другого устройства или группы устройств, отдельных от сервера 220.

Обработка начинается с получения поискового запроса (шаг 710). К примеру, пользователь может ввести поисковый запрос в поисковую форму, ассоциированную с поисковой системой (т.е., ввести поисковый термин в интерфейсе поисковой системы или в поисковой форме встраиваемого тулбара). Веб-браузер (или встроенный тулбар) отсылают поисковый запрос поисковой системе 225, связанной с сервером 220.

Показатель релевантности для набора документов определяется на основании поискового запроса (шаг 720). К примеру, сервер 220 определяет коэффициент получения информации (IR) для документов. Коэффициент IR для документа определяется на основании соответствия поисковых терминов поискового запроса контенту документа. Существуют разные способы определения коэффициента IR для документа. К примеру, коэффициент IR может быть определен, исходя из количества упоминаний поисковых терминов в документе. В качестве дополнительных или альтернативных критериев могут использоваться местоположение поисковых терминов внутри документа (т.е., заголовок, контент, и т.п.), или характеристики поисковых терминов (т.е., шрифт, размер шрифта, цвет, и т.п.) Поисковый термин может оцениваться отлично от другого поискового термина, если в запросе присутствует несколько поисковых терминов. На IR может влиять и близость поисковых терминов. Однако существуют и другие методы для определения коэффициента IR для документа.

Результирующий коэффициент для документов определяется, исходя из показателей качества документов (шаг 730). К примеру, коэффициент IR для каждого документа может комбинироваться с качественным коэффициентом документа для определения результирующего коэффициента. Комбинирование коэффициентов может повлечь за собой внесение поправок в коэффициенты IR для документов, повышая или понижая результирующие коэффициенты. В качестве альтернативы, документы могут оцениваться на основании качественных коэффициентов, без генерации коэффициентов IR. В любом случае, результирующие коэффициенты для документов определяются на основании качественных коэффициентов.

Отсортированный по ранкингу набор документов предоставляется пользователю, на основании результирующих коэффициентов для документов (шаг 740). При этом качественные показатели документа могут быть использованы для улучшения результатов поиска, предоставляемых пользователю.

Пример

Нижеследующий пример иллюстрирует описанную выше обработку. Предположим, что пользователь заинтересован в блогах, посвященных футбольным прогнозам. Пользователь отсылает поисковой системе 225 поисковый запрос «fantasy football». Допустим, что в ответ поисковая система 225 возвращает набор блог-документов, основанных на их релевантности поисковому запросу (т.е., с использованием методик определения IR).

Рис.8 – это диаграмма показательного набора блог-документов, полученных в ответ на поисковый запрос. Как видно из рисунка, поисковая система 225 получает пять блог-документов (блог-документы 1-5) со следующими коэффициентами релевантности (IR): блог-документ 1 с коэффициентом IR 1.0, блог-документ 2 с IR 0.9, блог-документ 3 с IR 0.8, блог-документ 4 с IR 0.7, и блог-документ 5 с IR 0.6 . Предположим, что эти пять блог-документов обладают следующими коэффициентами качества: блог-документ 1 с положительным коэффициентом качества 0.4, 2 документ с отрицательным коэффициентом -0.4, третий с положительным коэффициентом качества 0.8, четвертый – с положительным коэффициентом 0.3, и пятый блог-документ с положительным коэффициентом качества 0.3

Поисковая система 225 определяет результирующий коэффициент для блог-документов путем суммирования коэффициентов релевантности с коэффициентами качества. Таким образом, блог-документ 1 получает результирующий коэффициент 1.4, блог-документ 2 получает результирующий коэффициент 0.5, блог-документ 3 получает результирующий коэффициент 1.6, блог-документ 4 получит результирующий коэффициент 1.0, а блог-документ 5 получит результирующий коэффициент 0.9. Таким образом, поисковая система 225 предоставит пользователю блог-документы 1-5 в следующем порядке: 3, 1, 4, 5, 2.

Как видно из примера на рис.8, качество блог-документа может вызвать повышение или понижение ранкинга этого документа. Таким образом достигается улучшение качества результатов, возвращаемых пользователю.

Заключение

Системы, реализованные в соответствии с принципами данного изобретения, улучшают поиск по блогам, поскольку принимается во внимание качество блогов.

Вышеприведенное описание показательных реализаций данного изобретения служит только в качестве иллюстрации и объяснения, но не ограничивает форму воплощения данного изобретения. Модификации и вариации возможны, с учетом вышеприведенных и разработанных в процессе работы методик.

К примеру, описанная на рис. 6 и рис. 7 последовательность действий может изменяться в других вариантах реализации системы, соответствующих принципам данного изобретения. Более того, независимые друг от друга действия могут выполняться параллельно.

В описании изобретения встречается термин «пользователь». Под «пользователем» подразумевается клиент, подобный клиенту 210 (Рис.2), или оператор клиента.

Для специалистов должно быть понятно, что данное изобретение может быть реализовано различными программными и аппаратными способами. Операции и поведение систем, описанных в данном документе, должны восприниматься без привязки к определенному программному коду – подразумевается, что специалисты смогут создать ПО и подобрать аппаратное обеспечение, чтобы реализовать описанные здесь аспекты.

Источник: uspto.gov.
Автор: Google. Перевод: Seva.

google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru

Популярность: 17%