Media & Tech: octobre 2009

jeudi, octobre 22, 2009

Twitter, Facebook sur Google, Bing: après l'exhaustivité, la fraîcheur via l'intelligence "artificielle artificielle"

Google et Bing (Microsoft) ont tous les 2 annoncés hier un accord pour intégrer l'intégralité du flot des tweets (i.e les messages Twitter) dans leurs index respectifs. Microsoft a en plus annoncé l'intégration du flot des éléments publics (un petit fragment de l'immense total...) d'informations générés par les 300 millions de Facebookers.

Au passage, c'est un deal payant pour les moteurs. Intéressant: la plupart des sociétés dépensent au total en milliards pour leur SEO afin de bien se faire bien indexer gratuitement par les moteurs. Twitter arrive lui (pour l'instant) à se faire payer! Ce n'est à mon avis que temporaire: les mastodontes plient devant l'enfant-star du moment mais à mon avis cela ne durera pas...

Sur le fond, qu'est que cela veut dire? Eh bien, à mon sens que l'on en est finalement à la deuxième phase majeure d'évolutions des moteurs:

à leur genèse, ils se sont battus (comme des chiffonniers....) comme des chiffonniers dans la dimension de l'espace pour atteindre l'exhaustivité en étant capable d'indexer tout le contenu publié sur Internet avant leur naissance ainsi que celui publié pendant qu'ils développaient. On est maintenant arrivé à des chiffres de 1'000 milliards de pages indexées: ce n'est peut-être pas l'exhaustivité parfaite mais il ne doit plus rester que quelques recoins inexplorés....
en parallèle, depuis longtemps, j'ai pu observé très clairement les progrès (de 4 mois à quelques minutes) de Google dans la dimension du temps: mes publications sont dans son index en quelques minutes. Il atteint cette rapidité seulement pour les sites comme les blogs équipés de RSS et pour une palette de sites de médias sélectionnés au sein du service Google News.

Mais, l'indexation intégrale du web en temps réel reste une illusion à ce jour ... et le restera sans doute pour toujours même quand on s'appelle Google et que l'on a 2 millions de machines pour ce faire.

Le concept des capteurs du Web Squared le prédit: ces senseurs avec "l'ombre informationnelle" qu'ils génèrent sur Internet à partir du monde réel publieront l'information toujours plus vite que les moteurs ne se "muscleront" pour l'ingurgiter.

Donc, le moteur autonome intégral en temps réel restera un mythe.

Il lui faut alors des "béquilles-échasses" pour marcher plus vite: et c'est qui ? Et bien, nous, les êtres humains qui allons finalement être mis à contribution en apportant la dimension de la détection en temps réel des sujets nouveaux (50 millions d'utilisateurs en veille permanente...) des sujets nouveaux et intéressants.

Nous allons donc collectivement être l'apport de puissance artificielle à cette intelligence articificielle qu'est un moteur. D'où mon titre! (CQFD)

Le format des tweets aide à cela:

détecter les urls injectées dans un tweet de 140 caractères est très aisé: on sait ainsi facilement où diriger les "robots-visiteurs" du moteur pour maximiser la pertinence.
de même, cette taille réduite impose la concision et des mots minimaux mais très bien choisis. Une analyse sémantique beaucoup plus simple: du pain béni pour un moteur....
avec les retweets, ces accélérateurs de bouche à oreille, , il est très facile de suivre l'émergence d'un sujet et son intérêt croissant.

[En synthèse, l'intérêt du deal dans les moteurs n'est pas nécessairement l'affichage direct des tweets mais les pépites qu'il récèle en termes de "pointeurs" pour mieux détecter les pages nouvelles intéressantes et les faire émerger au plus vite dans ses pages de résultats]

A court terme, Twitter fait des sous. C'est bien pour lui! Mais, ne scie-t-il pas la branche de son assise ? En livrant son flux aux "grands", il dévalorise massivement à moyen terme sa propre fonction de recherche et son service des" sujets chauds".

Pour conclure, ceux qui font le web, c'est finalement nous! N'a-t-on pas là une nouvelle incarnation de mon billet sur "nous bossons tous bénévolement au black pour Mountain View" ?

On devrait peut-être faire grève du tweet et revendiquer cet argent. C'est dans l'époque, non ?

Source: blog Media & Tech (par didier durand)

mardi, octobre 20, 2009

Google Adsense: taux de commission 2006-2009

Suite à mon précédent article sur le million de sites affiliés à Google Adsense, il semblait intéressant de mesurer l'évolution du taux de reversement (ou de commission = son complément à 1) utilisé par Google pour rémunérer les partenaires affiliés à son réseau "pay-per-click"

Il y a bientôt 5 ans, le New-YorkTimes le donnait à 78.5 %.

Eh bien, une analyse par mes soins de tous les documents enregistrés par Google auprès de la SEC, (commission de surveillance de la bourse américaine) montre que ce taux n'a pas évolué: d'une année sur l'autre, Google le maintient entre 75 et 80%.

Il semble juste qu'il ait même "fait une fleur" en l'augmentant au 2ème trimestre de cette année (le point d'orgue de la crise) au delà des 80% pour tenter de maintenir au maximum les montants absolus payés aux éditeurs. Avec 22 milliards d'économie en banque, c'est sûrement possible.... Et puis, si Google se considère toujours via Adsense comme le mécène des start-ups (avec plus de 5 milliards de dollars "restitués"), c'est bien quand tout va mal qu'il doit les aider ... surtout quand il se prépare à relancer sa croisade de l'acquisition.

Cette stabilité en pourcentage est bien sûr à mettre en parallèle des montants absolus qui croissent toujours (sauf peut-être cette année...) à la même vitesse que les revenus globaux du géant de Mountain View.

21-22% pour gérer tout l'administratif, recruter des annonceurs (hors d'atteinte de l'éditeur standard), les facturer, etc., cela me semble une commission honnête pour alimenter cette double Longue Traîne (annonceurs + éditeurs). Aussi votre avis?

Source: blog Media & Tech (par didier durand)

vendredi, octobre 16, 2009

Google Adsense: 1 million de sites affiliés!

Mise à jour du 09/02/2010:

Google confirme le million+ de sites affiliés: "In 2009, our AdSense partners, comprising over a million large and small publishers, earned over $5.2 billion through AdSense."

Billet original du 16/10/2009:

Pour les bons résultats de Google au 30 Septembre qui sort de la crise avec un trésor de guerre de 22 milliards de dollars avec lequel il va pouvoir reprendre sa "croisade de l'acquisition", voir l'article du Monde.

Je me concentrerai sur un seul chiffre (nouveau à ma connaissance) livré pendant la conférence de presse afférente: 1 million de sites sont partenaires du service publicitaire AdSense.

Ils servent donc en plus des sites propres de Google les 1.5 millions d'annonceurs qui utilisent Adwords, le service de régie publicitaire de Google qui permet la gestion de la publicité vers ces sites par les annonceurs.

Le revenu mensuel moyen pour ces sites affiliés est donc de 600 dollars (600 millions / mois / 1 million de sites).

Ce chiffre n'a finalement que très peu de sens: on est dans un phénomène de Longue Traîne et d'agrégation: il y une décroissance exponentielle des revenus par site.

En effet, un mastodonte comme AOL représentait 10% à lui seul il y a 4 ans: ce type de site tue la moyenne dès qu'on le retire du calcul même si l'ampleur de ce phénomène s'est sûrement atténuée dans le temps avec la croissance de Google.

Ces chiffres font certainement de Google la plus grande régie publicitaire du monde en termes de relations contractuelles avec des partenaires et des clients. C'est 100% certain si l'on admet le principe que chaque clic est une transaction indépendante, traitée en tant que telle entre un annonceurs et un éditeur: ce sont alors des milliards de transactions quotidiennes qui sont gérées...

PS: Je peux cependant confirmer cette décroissance exponentielle par l'expérience très directe de ce blog, affilié Adsense ! ... ;-)

Source: blog Media & Tech (par didier durand)

mercredi, octobre 14, 2009

Naca 1.2: support Oracle, Microfocus pour la migration Cobol -> Java

UPDATE 01-2012: Le projet NACA a donné naissance à Eranea, société dédiée à la migration 100% automatisée de grandes applications métier vers Java et Linux. Voir www.eranea.com ou email à contact@eranea.com pour plus d'informations
_______________________________________________________________________
Nous avons publié durant l'été la version 1.2 de notre framework de conversion 100% automatique de Cobol vers Java développé initialement lors de notre projet NACA de migration des applications Publicitas d'un mainframe IBM vers une (toute petite) ferme de serveurs Intel.

[Suivre les liens en tête de ce billet et voir cette présentation des Linux Days 2009 de Genève si vous voulez plus d'informations sur le sujet]

Depuis, la mise en Open Source de ces outils, nous avons allègrement dépassé le cap des 1'500 téléchargements et connaissons des tests pilotes voire des migrations avec nos outils déjà largement avancées sur 4 continents: seule l'Afrique nous manque à ce moment.

A l'occasion de ces divers projets, nous avons reçu:

des annonces de bugs que nous avons corrigés
des contributions externes que nous avons déjà (en partie) intégrées.
des mandats d'extension de nos outils qui nous ont permis d'en étendre les fonctions génériques avec l'autorisation par le commanditaire de les remettre à disposition de la communauté.

Quelques premiers feedbacks après la v1.2 nous ont fait produire une version 1.2.0.1 qui est celle que nous vous recommandons de télécharger à partir de maintenant (et d'ici quelques jours la v1.2.2 à laquelle nous mettons la dernière main).

Les grandes avancées depuis la V1.1 sont:

le support d'Oracle par la combinaison de 2 techniques: un transcodage automatique de certains ordres de la syntaxe DB2/UDB d'IBM vers la syntaxe Oracle associée à une mécanique d'extraction / remplacement des ordres DB2 par des ordres Oracle pour la partie la plus complexe des requêtes SQL. Ceux qui liront le code source verront que le support JDBC par Oracle est très limité voir médiocre ce qui nous a obligé à produire beaucoup de code spécifique additionnel pour supplanter les fonctions standards manquantes...
le support des formats de fichiers Microfocus pour les fichiers de données en plus du format propre à NACA. C'est très utile pour intégrer d'autres outils du marché (tris externes, etc...) qui respectent très souvent ce format. Toutes les options de format sont supportées y compris le traitement correct des fins de ligne (CR vs CR LF) dans tous les cas même si le fichier est traité sur une machine qui attend des fins de ligne inverses de celles où le fichier a été généré.
l'extension des options et structures lexicales supportées pour certains verbes Cobol comme MOVE, INSPECT, etc...
le support de nouveaux verbes Cobol: POWER, MODULO, SEARCH, NEXT SENTENCE, etc.
le support des clauses COPY de programmes et données imbriquées
support d'options de configuration du framework pour en augmenter la flexibilité en fonction de l'environnement du projet
beaucoup de nettoyage dans les structures des répertoires et l'organisation / nommage des fichiers afin de supprimer au maximum les spécificités du projet NACA interne initial.

Pour tous les détails précis, voir le fichier ChangeLog inclus dans le paquet de code source, téléchargeable via Google Code, nouveau repository officiel pour notre projet. Si vous êtes fan de techno, vous pourrez aussi lire les 65 pages de documentation technique très détaillée sur l'architecture de nos outils que nous avons aussi récemment publiées sur le wiki Google Code.

Merci d'avance pour le feedback suite à vos tests "en live": nous intégrerons avec plaisir vos contributions et corrigerons les bugs éventuellement découverts dans des versions ultérieures.

Les propositions de mandats et/ou de collaboration sont également bienvenues! ;-)

Source: blog Media & Tech (par didier durand)

Facebook: 30'000 serveurs et 80 milliards d'images

All Facebook, par son article, me permet de continuer à étendre l'analyse chiffrée de Facebook déjà publiée:

80 milliards d'images chargées sur le site par les utilisateurs depuis ces origines (on était à 10 milliards il y a un an). Flickr, pourtant supposé spécialiste et leader du domaine, vient juste de dépasser les 4 milliards...
600'000 de ces photos visualisées chaque seconde (à comparer avec les 30'000 requêtes à la seconde de Google...)
25 terabytes (i.e 25 millions de megabytes) de journaux quotidiens pour le traçage de l'activité des utilisateurs: Facebook se constitue aussi sa "Base de Données des Intentions"
tout cela géré par 30'000 serveurs (contre 10'000 il y a 18 mois - à nouveau à comparer aux 2+ millions de machines de Google)

J'avais donc été trop pessimiste sur les photos et les serveurs: Facebook fait beaucoup mieux sur le contenu avec beaucoup moins d'infrastructure (-50%) que ce que j'avais extrapolé.

Je reste à l'affût pour publier d'autres chiffres au fur et à mesure: cela m'aide à mieux "visualiser" la taille du mastodonte qu'est maintenant Facebook ....

Source: blog Media & Tech (par didier durand)

lundi, octobre 12, 2009

Google Books: la vision iconoclaste de l'utilisateur lambda

La toute récente tribune de Sergei Brin, fondateur de Google, dans le New-York Times est pour moi l'occasion de donner l'avis d'un utilisateur lambda du service Google Books.

C'est celle d'un "consommateur avide de culture" et d'informations: elle sera donc nécessairement perçue comme iconoclaste par les défenseurs des "producteurs de culture" qui combattent le géant de Mountain View par tous les moyens. Pour une brillante analyse et synthèse du point de vue de ces producteurs de culture, je vous conseille l'analyse d'Olivier: c'est détaillé et pointu, du lourd!

Mais, allons-y, du point de vue du candide:

"Avoir un accès efficace et exhaustif à toute l'information - sous toutes ses formes - disponible sur Terre" est mon idéal culturel.

C'est le dual évident de la mission que Google s'est affecté pour les 300 ans qui viennent. La numérisation des livres, la reconnaissance des textes et images qui y sont contenus, leur indexation pour venir ensuite les ajouter aux 1'000 milliards d'URLs qui existent déjà va donc pour moi dans le bon sens. Les 10 millions de livres déjà scannés par Google avec le concours des plus grandes librairies publiques sont un excellent dans cette direction.

En bon citoyen, je souhaite faire un accès "propre" à ces livres: il doit être correctement lucratif pour les auteurs et éditeurs de ces livres. Là aussi, Google me semble équitable selon les détails dans la FAQ du site Google Settlement:

il retire de son index les livres dont les propriétaires des droits se manifestent négativement
il restitue environ 2/3 des revenus publicitaires des revenus publicitaires générés lors des consultations en ligne aux ayant-droits. Il fait de plus amende honorable en payant un forfait rétro-actif pour les consultations antérieurs à l'accord en cours avec ces ayant-droits. Si les montants et taux de partage actuels ne sont pas équitables, laissons juste faire le temps pour que le curseur s'ajuste.

Mon accès à ces livres est d'ailleurs doublement propre puisque je génère nettement moins de CO2 via Google qu'avec ma voiture pour me rendre dans une bibliothèque

Donc, franchement, où est le problème?

Autour des livres du domaine public ? En les restituant gratuitement dans un format ouvert, Google ouvre lui-même la voie à des concurrents en leur évitant la lourde infrastructure de numérisation
Autour des livres "orphelins"? (sans ayant-droit connu mais encore protégés par droit d'auteur) Pour ceux-ci lesquels Google n'a personne avec qui partager. C'est 60% du patrimoine actuellement numérisé, donc une manne importante des fonds potentiellement générés: je suis sûr qu'en négociant encore un peu, Google pourrait finalement verser cet argent à une institution existante ou nouvelle qui pourvoirait à leur "bonne utilisation" dans un cadre culturel.
Autour du "prestige national de l'éducation culturelle": les pouvoirs publics et leur émanations comme la Bibliothèque ont débuté des initiatives similaires à celles de Google mais ont lamentablement échoué. Aigris et vexés, ils ne voient que les tribunaux au nom de "sauvegarde de la culture nationale" pour purger leur frustration car ils ne sont plus la source de l'éducation culturelle de leurs propres citoyens
autour de la victoire entrepreneuriale américaine sur le monde Internet qui se matérialise de plus en plus comme une hégémonie multiple: depuis le fameux flop Quaero, nous avons les signes très clairs de l'échec européen de ce domaine clef de la civilisation future.
autour de la protection de la sphère privée ? Google va maintenant savoir les livres que je consulte. C'est grave, Docteur ? il connaît de toute façon déjà toutes les pages que je consulte et pourquoi....

Ce dernier point est un leurre: il faut soit globaliser la question soit l'oublier pour les seuls livres. Sur les 2 premiers, je pense que les négociations à venir trouveront des solutions équitables.

Sur les 2 derniers points, je suis ok pour le tribunal comme moyen de freiner le leader trop hégémonique par ailleurs. Mais, franchement, si en parallèle, on ne se retrousse pas les manches pour le plagier dans tout ce qu'il fait de mieux sur le sujet avant de chercher à le dépasser alors toutes ces gesticulations et autres pantomimes juridiques ne servent à rien d'autres qu'à ce donner bonne conscience!....

Moi, d'un point de vue très égoiste (même si je peux comprendre le coup de colère des premiers concernés), pour lui assurer le meilleur avenir possible, je suis très heureux que mon fils ait désormais accès à travers Google Books à des millions et des millions de livres qui pourront à un moment l'aider dans ses études et sa vie à venir. Il n'aurait aucune chance de les découvrir sans pouvoir voyager aisément de l'une à l'autre aux quatre coins de la planète puisque 90% du patrimoine littéraire n'est plus disponible dans le commerce: maintenant, elles sont toutes à portée de clavier....

C'est de source américaine? Eh bien, tant pis: on s'en contentera en attendant de pouvoir faire un bon vieux cocorico patriotique !

En résumé, le monde est objectivement meilleur après Google Books (même si ces buts sont restent lucratifs) qu'avant pour le citoyen lambda que je suis alors pourquoi ne pas poursuivre sur cette voie? Les (pseudo-)menaces à long terme comme la ré-intermédiation intégrale de l'industrie du savoir et de l'information me laissent de marbre à ce moment.

Je ne suis pas googliophile ni atlantiste mais je crois à la théorie de la sélection selon Darwin. Mon souci actuel: ne pas" faire partie de la bonne espèce".....

PS: pour ne pas trop hérisser le poil aux anti-Google, je même pas parlé de l'action de préservation du patrimoine culturel mondial que l'on peut attribuer à Google Books comme le fait S. Brin dans son papier. Numériser les livres, c'est nom seulement les rendre accessibles mais c'est aussi les préserver en les mettant sous une forme imputrescible éternelle qui les préserve ainsi de leur inexorable destruction dans le temps (...sans même parler des incendies de bibliothèques comme ceux survenus à la bibliothèque d'Alexandrie)

Source: blog Media & Tech (par didier durand)

mardi, octobre 06, 2009

Acquisition Youtube: Google a consciemment payé 1 milliard de survaleur

Lors de l'acquisition de Youtube pour 1.65 milliard de dollars, Google a volontairement payé une survaleur de 1 milliard de dollars: Eric Schmidt, ceo de Google, estimait en effet le leader de la vidéo en ligne autour de 700 millions de dollars à l'époque.

E Schmidt a déclaré lors de son audience dans le (vieux) procès Viacom-Google sur les droits d'auteurs qu'il a demandé à son conseil d'administration à l'époque de payer cette survaleur de 150% à cause de la crainte d'une offre concurrente (Microsoft? Yahoo?) beaucoup plus élevée puisque le processus de vente était engagé et à cause d'un succès explosif de Youtube face au produit maison de Google, Google Video, défunt depuis.

Google est toujours déçu des maigres revenus de Youtube face à ses milliards mais est-ce si important pour l'instant?

la TV 2.0 est en train de naître via Internet et Youtube à ce moment si j'en juge au fait que les ados ne regardent déjà plus l'écran commun familial mais les vidéos Youtube sur l'écran de leur ordinateur
cette TV 2.0 va ainsi capturer une immense audience qu'elle gardera ensuite pour longtemps et qu'elle pourra monétiser quand l'énigme de cette monétisation sera résolue. Elle finira nécessairement par l'être même si les multiples expériences actuelles sont peu fructueuses.
Google a 19 milliards de dollars de cash en banque. Eponger quelques centaines de millions par an n'est alors pas un problème.

1 milliard de survaleur pour un générateur de pertes. C'est cher! Aujourd'hui oui mais on en reparle dans 5-7 ans quand la bascule vers la télévision UGC est accomplie....

Source: blog Media & Tech (par didier durand)

vendredi, octobre 02, 2009

Mark Zuckerberg, fondateur Facebook = 158ème plus riche américain avec 2 milliards de dollars

A 25 ans, Mark Zuckerberg, le fondateur de Facebook (qui sait rester humble) vaut 2 milliards de dollars sur la liste Forbes des 400 américains les plus riches dont il occupe la place 158 loin derrière Billl Gates qui mène toujours le bal avec 50 milliards.

Il possède encore environ 20% de sa société estimée donc à 10 milliards de dollars après l'investissement russe de cet été. (en baisse de 1/3 depuis la prise de participation Microsoft)

Il y a 1 an, il était n° 321. Donc la crise n'est pas pour tout le monde ... à condition de pouvoir exhiber de tels chiffres! Il en reste toujours le plus jeune membre.

Le cap des 300 millions d'utilisateurs et l'appropriation actuelle du graphe social mondial par sa société vont encore le faire grimper: on en reparle dans 12 mois.

Source: blog Media & Tech (par didier durand)