mardi, juin 07, 2005

Google SiteMaps: pas assez de 100'000 serveurs pour "suivre le rythme"? Pubsub dans la brêche...

Google vient d'annoncer un nouveau service fort utile: voir Zorgloob ou Abondance. Il s'agit de signaler aux robots de Google les sites (i.e les pages) qui viennent d'être modifiées afin qu'ils les visitent en priorité

La version officielle chez Google est ici (anglais). Pour ceux qui veulent implémenter, c'est ici. Ce service est sous licence Creative Commons: c'est une preuve que Google veut partager l'idée avec ces concurrents pour simplifier la vie aux webmasters et aussi continuer à restituer à la communauté Open Source la valeur qu'elle lui a déjà procuré.

Ce besoin de se faire guider par les "éditeurs" de sites peut être surprenant quand on connaît l'infrastructure de Google: plus de 100'000 serveurs y sont officiellement dénombrés! Choisissez votre article sur les supputations autour cette nuée de serveurs ici.

(Note: même à environ 1'000 dollars seulement la machine comme cela a été récemment décrit par Urs Hoelzle, resp des opérations chez Google , cela fait quand même 100 millions de dollars d'investissements en matériel!)

Alors, même avec 100'000 serveurs, n'arriverait-elle donc pas à suivre à suivre le rythme de l'évolution de l'Internet?

Il y a sûrement (au moins) 2 zones pénibles pour Google:

  • Les sites de news: Dan Gilmor a été très surpris de l'opacité montrée par Khrisna Bharat, le père de Google News, lors de la récente conférence mondiale des éditeurs à Séoul. Pourquoi a-t-il tant de mal à expliquer les algorithmes utilisés? Seraient-ils défaillants, ne particulier dans la vitesse de rafraîchissement pour la visite des 4'500+ sites concernés?
  • la blogosphère: elle explose en nombre de blogs: les graphiques de sur le blog de Dave Sifri, le ceo de Technorati sont hyper explicites: plus de 10 millions de blogs à visiter le plus régulièrement possible. Sur certains de ces blogs, le nombre de posts peut-être de plusieurs (dizaines) par jour (surtout sur ceux de la liste A, la plus importante à suivre). Il faut les détecter en quasi temps réel sinon on perd en intérêt pour les internautes qui vont alors ailleurs pour se tenir à jour....

Cette perte d'efficacité génère déjà une concurrence ("la nature a horreur du vide"): dans un entretien avec John Battelle, Bob Wyman, le CTO & fondateur de PubSub, déclare que sa société vit dans le "Web Gris". C'est cette partie du web où les news sont encore si "fraîches" qu'elles sont sorties du noir (de l'inconnu) mais ne sont pas encore gravées dans le marbre (blanc) des listes de réponses des grands moteurs. Le web en temps réel, quoi! (Pour l'explication du gris=noir+blanc. C'est une impro....)

Eh bien, avec ses Sitemaps, Google essaie clairement de réduire ce "Web Gris" à la portion congrue afin de faire végéter ces nouveaux concurrents qui l'attaquent sous l'angle de la rapidité de réaction dans le secteur très spécialisé de la blogosphère!

PS: il n'y pas pas que la partie des robots qui soient submergés. La partie institutionnelle du site Google qui décrit les Sitemaps est "partie en vrille" ce week-end dès que la nouvelle de ce service s'est répandue: il semble que ce soit, selon InsideGoogle, un post sur slashdot.org (rapidement suivi d'une nuée d'autres) qui est mis le serveur de Google à plat. La rançon de la gloire .... ou la réponse à un vrai besoin?

Aucun commentaire: