jeudi, mai 22, 2008

PageRank: 1'000 années-hommes de travail et 450 améliorations en 12 mois par Google

Nous sommes des utilisateurs toujours plus sophistiqués des moteurs de recherche (cf. l'analyse de Udi Mamber sur le sujet qui montre l'évolution trépidante des formes de requêtes).

Nous attendons donc toujours à trouver, en première ligne de réponse, le résultat idéal par rapports à nos besoins ... mêmes implicites! Les moteurs devront bientôt lire dans nos pensées pour que nous en restions satisfaits.

Et gare à Google s'il ne le comprend pas: nous ne sommes qu'à un minuscule clic de souris de tout concurrent plus performant...

Donc, pour maintenir ses parts de marché astronomiques dans les moteurs de recherche, Google ne peut se reposer sur ses laurier: Udi Manber nous annonce donc aujourd'hui dans un long article que Google a fait en 2007 plus de 450 améliorations sur son algorithme de PageRank (au sens large)

Parmi ces changements, U. Mamber met en avant l'Universal Search: c'est pour moi aussi une avancée très importante!

Finalement, il estime au total que la qualité / pertinence de Google via son Pagerank (qui intègre 200+ paramètres) est le résultat de 1'000+ années de programmation / recherche. Vu le niveau du travail, on peut juger qu'il est fait par des développeurs payés pas moins de 150'000 $ par an. C'est un asset que l'on peut donc estimer à lui seul à plus de 150 millions de dollars! Une paille finalement vu ce qu'il rapporte. Ce carburant, catalyseur de la compétition avec Microsoft est, pour le million de serveurs chez Google, est bien moins cher que notre essence bientôt inabordable.

Mais, pas d'information de fond sur Pagerank livrée par U. Mamber. L'article commence par un long paragraphe rendant très explicite la légendaire culture du secret chez Google:

"For something that is used so often by so many people, surprisingly little is known about ranking at Google. This is entirely our fault, and it is by design. We are, to be honest, quite secretive about what we do. There are two reasons for it: competition and abuse. Competition is pretty straightforward. No company wants to share its secret recipes with its competitors. As for abuse, if we make our ranking formulas too accessible, we make it easier for people to game the system. Security by obscurity is never the strongest measure, and we do not rely on it exclusively, but it does prevent a lot of abuse."


N'espérez donc pas apprendre de grands secrets en lisant les papiers scientifiques et les blogs de Google. Mais, c'est malgré tout plein d'idées passionnantes pour les geeks (auxquels je revendique mon appartenance)

Source: blog Media & Tech (par didier durand)

5 commentaires:

Olivier Duffez a dit…

C'est dommage d'assimiler l'algorithme de classement des pages à celui du PageRank. Le PageRank n'est qu'un des nombreux critères (effectivement on entend parler d'au moins 200).

Je n'ai pas compris si cette assimilation était voulue ou pas dans cet article, mais il est clair qu'elle contribue à semer le trouble chez les lecteurs quant à l'importance réelle du PageRank...

d.durand a dit…

Bonjour Olivier,

J'ai volontairement simplifié l'article afin de ne pas noyer le lecteur dans les détails.

C'est pour cela que j'ai écrit "PageRank (au sens large)" afin de ne pas effrayer les non-spécialistes

Les spécialistes eux (comme vous et moi) savent trier.

cordialement
didier

Clément VERMOT-DESROCHES a dit…

Intéressant ces données... ça donne une idée du boulot assez pharaonique que demande "l'entretient" d'un moteur de recherche... je causais récemment avec un pote qui me disais qu'il avait du mal à quoi servaient autant d'ingénieurs chez Google... vais pouvoir lui donner quelques chiffres ;) .

J'ai fait un petit calcul, si on considère que les ingés Google bossent 40h/semaine (je ne connais pas la durée légale du travail du coté de la Californie) 47 semaines par an, ça nous fait dans les 4700 ingénieurs qui bossent uniquement à l'amélioration de l'algo du moteur... pas mal !

PS : j'ai à nouveau des liens amazone, sur le terme "clique de souris" et qui méne ici : http://amazon.fr/gp/product/2840824507?ie=UTF8&tag=meditech-21&link_code=em1&camp=2518&creative=9426&creativeASIN=2840824507&adid=c687b2d4-31d7-4634-b518-74b16f54a37f.

d.durand a dit…

Salut Clément,

C'est l'approche des examens qui te donne cette "folie calculatoire"? a+
didier

PS: je vais faire un redesign: j'enleverai Amazon à ce moment.

Clément VERMOT-DESROCHES a dit…

Salut Didier,

Si seulement les mathématiques au lycée étaient aussi simples ;) .

En fait, je doit bien avouer que donné comme ça, 1000 années-hommes, ça ne me dit pas grand chose ;) .

++
Clément