jeudi, septembre 17, 2009

Google acquiert reCaptcha: nous allons bosser "au black" pour Mountain View

Google annonce aujourd'hui l'acquisition de la société reCaptcha.

C'est une toute petite boîte de 6 personnes donc la taille de l'acquisition n'est pas le sujet.

Ce qui m'intéresse, c'est le modèle qui se cache derrière: nous faire bosser au noir pour le géant de Mountain View en améliorant la reconnaissance optique pour que les 10 millions de livres déjà digitalisés dans Google Books et ceux à venir soient encore de plus haute qualité.

En effet, un volume important (en millions...) de livres sont de vieux livres afin qu'ils soient libres de droit: la qualité du papier, de l'encre et de l'impression se sont dégradés. Le processus OCR est donc plus difficile.

L'idée que je trouve brillante est d'utiliser les captchas produits par le service reCaptcha pour "faire d'une pierre deux coups" selon le proverbe:
  • utiliser le captcha pour son but habituel: vérifier que celui qui veut commenter, écrire une contribution, etc... est bien un humain. Pour ceux qui sont encore perplexes, les détails de ce test de Turing automatisé sont abondants sur cette page de Wikipedia.
  • utiliser simultanément la conversion de l'image en texte faite par l'humain en information destinée à convertir un passage flou traité avec peu de fiabilité.

Comment ? Regardez bien les captchas de reCaptcha (cf ci-dessus): contrairement à d'autres, ils comportent 2 mots. Et donc, dans l'idée Google: l La transcription d'un des 2 mots est pour l'authentication à partir d'un mot connu et défini par le service, l'autre est la bitmap scannée (mais nettoyée du bruit numérique...) issue d'un mot "douteux" trouvé dans Google Books.

En saisissant les deux mots, l'utilisateur du site communautaire sert les 2 buts: il s'authentifie par le mot déjà connu d'un côté et il bosse un peu pour Google de l'autre.... Bien sûr, un même mot sera vérifié plusieurs fois pour "blinder" le processus avant de le confirmer à Google Books.

Avec 30 millions de captchas servis chaque jour par reCaptcha sur plus de 100'000 sites, Google recrute ainsi une myriade de travailleurs clandestins! Je charrie peut-être un peu avec le mot "clandestin" mais c'est pour la force de la métaphore... ;-) [Note pour les tire-au-flanc: on n'est bien sûr pas sûr à tous les coups que l'un des 2 mots servent vraiment à la reconnaissance. Il n'est donc pas possible de "saloper" le boulot en ne saisissant qu'un mot...]

[Précision utile de Gallypette: ce modèle de fonctionnement est le modèle originel de reCaptcha - créée par des chercheurs de Carnegie-Mellon - que Google rachète purement et simplement pour l'utiliser à son profit]

Le modèle est donc finalement à 2 niveaux:
  • Google offre un service d'authentification anti-spam gratuit à des sites communautaires du Web Squared
  • Il le fait payer (avec une vraie valeur business pour le géant de Mountain View...) par les utilisateurs du site....
Les 2 y gagnent sur notre dos finalement. Mais, puisqu'on peut finalement placer notre commentaire ultra-brillant sur ce site très en vue, c'est "win-win", non? ;-)

On avait les fourmis-taggueuses de del.icio.us. Maintenant on a les fourmis-OCR de Google!

C'est donc du crowdsourcing canonique ! Puisque sa définition est selon Wikipedia:. "le crowdsourcing consiste à utiliser la créativité, l'intelligence et le savoir-faire d'un grand nombre d'internautes, et ce, au moindre coût". Bon, en même temps, tant avec la Base de Données des Intentions que le PageRank, Google n'en est vraiment pas à son coup d'essai avec cette "technologie"....

PS: C'est aussi une forme améliorée du Mechanichal Turk d'Amazon!

Source: blog Media & Tech (par didier durand)

7 commentaires:

pierre fremaux a dit…

On a déjà bossé au black sur :
- la reconnaissance vocale de Google Voice (et Youtube) : en utilisant Google 411, Google récupère ainsi des millions de phonèmes utiles au traitement statistique des données vocales
- Google My Location : les téléphones GPS utilisant Google Maps remontaient les localisations des cellules opérateurs, permettant aux téléphones non GPS d'être localisés en cell ID
-Le trafic en direct : Google analyse la vitesse de mouvement des utilisateurs géolocalisés
- le PageRank comme tu le dis bien : les sites qui indiquent à Google l'intérêt d'un autre site avec l'hypertexte
- Google Image Labeler : on s'amuse à tagger des images, pour profiter à l'indexation dans Google images
- Gmail : l'amélioration de leur antispam
-et puis plus largement tous les sites à contenu généré par les utilisateurs, de Panoramio à Youtube...

vous en voyez d'autres?

d.durand a dit…

Bonjour Pierre,

Merci pour ces excellents compléments! La liste est finalement longue....

cordialement
didier

gallypette a dit…

C'est vraiment une nouveauté ça ?
Parce que j'ai toujours cru que c'était le model économique de reCaptcha.

d.durand a dit…

Bonjour Gallypette,

C'est très juste: je viens de vérifier (je n'y avais même jamais fait attention: reCaptcha était pour moi un simple service de captchas)

Je vais corriger (avec attribution)

TOMHTML a dit…

J'allais répondre la même chose que Pierre, il en a juste oublié un de taille : Google, le moteur de recherche. A chaque fois que vous cliquez sur un lien, vous indiquez indirectement à Google qu'il est pertinent pour votre recherche, et contribuez ainsi à améliorer leur algorithme.

d.durand a dit…

Salut TomHtml,

Le moteur Google est déjà inclus: ce que j'appelle la Base de Données des Intentions dans mon billet de départ. Cf le lien depuis ce morceau du texte pour t'en assurer.
a+
didier

cadeaux a dit…

Bonjour,
Je trouve votre blog très enrichissant, cela change de tout ce que l’on peut lire habituellement. Bonne continuation et merci.