jeudi, juillet 27, 2006

Google crawle le web toujours plus vite: tous les 2-3 jours!

Une information intéressante ramenée par Om Malik lors de sa récente visite au GooglePlex.

Matt Cutts, l'un des gourous de Google, lui a indiqué que Google "crawle" (="visite" en bon français) tous les sites du web chaque 2 à 3j alors qu'il lui fallait encore 1 mois en 2003 pour le faire!

[Note: je l'ai constaté pour ce blog: les billets mettent effectivement seulement 2-3 jours pour être dans le "grand index" de Google - Le second, le "petit", celui de Blogsearch est toujours quasi-instantané!]

La guerre des communiqués entre Yahoo, Google et Microsoft sur la taille des index des moteurs a cessé depuis presque 1 an mais on peut parier qu'ils sont maintenant encore plus gigantesques qu'à l'époque car la croissance du web à l'instar de celle de la blogosphère n'a sûrement pas cessé!

Donc, finalement, en combinant les 2 points précédents: l'infrastructure de Google croit plus vite que l'Internet! (une sorte de Loi de Moore de l'Internet comme le dit O. Malik...) Bien sûr, pour devenir encore plus performant en sûrement tendre vers un suivi du Web en quasi-temps réel!

Le nombre de serveurs de Google (450'000 à la dernière estimation) est ainsi clairement justifié!



Source: blog Media & Tech (par didier durand)

3 commentaires:

Anonyme a dit…

Concernant les études sur les moteurs de recherche, option technique et ingéniérie, je vous donne (mais je parie que vous le connaissez, disons que ce sera pour les lecteurs des commentaires !) ce lien, d'un bloggeur, Jean Véronis, universitaire dont la marotte est d'analyser, entre autres, ce qu'il y a derrière le miroir des moteurs de recherche :
http://aixtal.blogspot.com

Quelques exemples de pages passionantes :
http://aixtal.blogspot.com/2006/03/moteurs-yahoo-google.html
http://aixtal.blogspot.com/2006/07/moteurs-folles-duplications-1.html
http://aixtal.blogspot.com/2006/02/moteurs-et-le-gagnant-est.html
http://aixtal.blogspot.com/2005/12/moteurs-liens-daffection.html
http://aixtal.blogspot.com/2005/12/moteurs-liens-ressuscits.html
http://aixtal.blogspot.com/2005/12/moteurs-liens-morts-vivants.html
http://aixtal.blogspot.com/2005/12/moteurs-ca-diverge-dur.html

Et si vous vous demandez la taille d'index de google, rien de plus simple, cherchez sur google.com ce mot-là : "the".
Comme "le" en français, c'est exclu des recherches, bref ça recherche l'équivalent de *.*, et vous voyez, au 28 juillet, un joli 24 millions de pages d'index.

Anonyme a dit…

Bonjour Sabin,

Merci des infos

Didier Durand a dit…

(PS: je suis abonné à Aixtal depuis toujours... ou presque ;-)

Sinon, "the" donne plus de réponses 23.5 milliards sur google.fr que sur google.com (22 milliards). Paradoxal?

didier