Несколько слов об алгоритме TrustRank

Опубликовано 26.07.2006.

TrustRank - алгоритм, направленный на полуавтоматическое определение степени доверия к тому или иному ресурсу. По сути, благодаря этому алгоритму можно отделить качественные ресурсы от спама. Использовать этот алгоритм можно в нескольких целях.

1. Для повышения позиций в SERP’е тех сайтов, которые с высокой долей вероятности являются качественными, так и для занижения позиций тех ресурсов, которые с большой долей вероятности содержат спам.

2. Можно увеличивать вес ссылок с ресурсов, которые заслуживают доверия, а с ресурсов, которые скорее всего содержат спам, ссылки не учитывать или учитывать с гораздо меньшим коэффициентом.

Алгоритм основан на следующих мыслях:

  • “Хорошие” сайты чаще всего не ссылаются на “плохие”. Но тем не менее “плохие” сайты нередко ссылаются на “хорошие”. Отсюда следует вывод, что при определении степени доверия к сайту стоит “отталкиваться” именно от ссылок с  качественных сайтов.
  • Даже на “хороших” ресурсах могут находиться ссылки на сайты, содержащие спам, причём вероятность этого прямо пропорциональна количеству внешних ссылок на странице. Поэтому чем больше внешних ссылок на странице, тем меньшее количество TrustRank по ним “перетекает”.

Для того, чтобы алгоритм начал функционировать, выбирается некое количество сайтов, которые оцениваются модераторами на предмет наличия/отсутствия спама, то есть “хорошие” сайты отделяются от “плохих” вручную. В результате выбирается n-ное количество “хороших” сайтов, которым присваевается высокий показатель TrustRank. Затем уже TrustRank передаётся от сайта к сайту в автоматическом режиме, причём при передаче от сайта к сайту передаваемый TrustRank уменьшается (затухает). Если показатель определённого сайта больше порогового, то этот сайт считается качественным, а если меньше, то сайт причисляется к ресурсам, которые с высокой долей вероятности содержат спам.

PS. Кстати, про этот самый TrustRank Александр Садовский (Яндекс, руководитель отдела веб-поиска) на конференции 2005 говорил…

Рекомендую к прочтению:

Борьба со спамом при помощи алгоритма Trustrank, оригинал - Combating Web Spam with TrustRank (PDF, En)

Link Spam Detection Based on Mass Estimation (PDF, En)

Комментарии (2):

  1. Креатор сайтов:

    На себе ощутил алгоритм, судя по ссылкам ПР должен был быть 5, а насчитали только 2, очень мощно стал фильтровать

  2. Я история:

    Последний апдейт показал что траст рулит, и алгоритм подсчета пиар сильно изменился