« Nous savions qu’Internet était vaste ». Jesse Alpert et Nissan Hajaj, 2 ingénieurs de l’équipe en charge de l’infrastructure de la recherche l’annoncent : Google a indexé 1 000 000 000 000 de pages.
Rappel historique: Google a été lancé en 1998 sous l’égide de l’Université de Stamford. Il annonce initialement 26 millions de pages indexées mises à jour mensuellement.
C’est en 2000 que Google a franchi le premier la barre du milliard de pages indexées, arborant alors fièrement sur sa home page ce chiffre symbolique. Fin 2005, à l’issue du jeu « qui a le plus gros index » avec son compagnon Yahoo!, la dernière information chiffrée faisait état de 20 milliards de pages recensées. Désormais il faut compter avec 1 trillion, soit 50 fois plus !
Une dimension insondable mais qui donne une vague idée du gigantisme du web et de la vitesse à laquelle il croît. Il est intéressant de noter que l’on reste assez loin de ce qu’envisagent Larry Page et Sergey Brin, à l’origine du moteur (Google: dérivé de Googol est un nombre inventé par le mathématicien Milton Sirotta composé du chiffre 1 suivi de cent zéros). A ce jour, nous n’en sommes « qu’à » 12 zéros.
Tous les contenus sont-ils référencés ?
Aujourd’hui, nous avons la quantité et la richesse des informations. Qu’en est-il vraiment de la qualité de l’indexation ? Nous sommes en effet loin d’un contenu exclusivement textuel, et l’on peut légitimement opposer une lacune que, jusqu’à présent ni Google ni les autres moteurs de recherche n’ont réussi à combler totalement, à savoir l’indexation des contenus riches. Et plus spécifiquement ceux faisant usage de la technologie Adobe Flash.

Rappelons-le, si cette technologie apporte des possibilités étendues concernant le rich media, elle est en revanche très mal référencée par les moteurs de recherche. La faute à ce qui représente en réalité sa force: une technologie propriétaire permettant un mix de mise en forme et de contenus, le tout assurant un rendu dynamique, mais hélas, sans aucun modèle de référence. Contraire aux modèles de référence du W3C, cette souplesse devient dès lors très difficile à lire par les robots d’indexation qui s’alignent sur ces mêmes recommandations très strictes.
Des contenus illisibles ?
De toutes les techniques de référencement naturel classiques, certaines pratiques permettent pourtant de mieux indexer un contenu Flash. Ce sont principalement des contournements via des scripts tiers qui permettent de dialoguer avec les robots d’indexation. Différentes méthodes existent et sont très utilisées. Mais en réalité, elles n’apportent pas une solution pérenne et native à l’évolution des besoins.
En effet, l’accroissement et la démocratisation des hauts débits permettent davantage de créativité et de possibilité d’interactions avec l’internaute. Les annonceurs l’ont bien compris et font largement appel à ces contenus pour séduire leurs cibles.
Face à ce potentiel théoriquement perdu, Adobe a annoncé avoir travaillé en collaboration avec Google et Yahoo ! pour mieux référencer ces contenus riches. Dans les faits Adobe a ouvert le code source d’une version de son flash player aux différents moteurs. Permettant dès lors à leurs robots de déterminer comment mieux lire les fichiers SWF, à la manière d’une page HTML classique.
Cette évolution est déjà applicable actuellement à Google (source : GoogleBlog). Yahoo! devrait suivre dans les semaines à venir avec la mise à jour de son algorithme. Pour autant, tout n’est pas gagné. La release de cette évolution étant trop récente, il nous faudra du temps et du recul pour en vérifier l’efficacité.

Nous pouvons néanmoins poser dès maintenant quelques hypothèses sur les critères prédominants de cette nouvelle donne :
Ce qui compte :
- Texte : à l’instar du web sémantique, les mots restent les seuls éléments intelligibles par les robots. En fonction de sa présence et sa densité au sein de l’animation, il va en déterminer l’importance.
- Liens : les liens permettent d’alimenter l’index de Google, mais également d’indiquer la pertinence d’un site dans son contexte.
- Les sites fullflash n’en bénéficieront pas : le robot se contentera mécaniquement de lire la page d’accueil du site (privilégier donc a minima un module flash par page html).
- Les sites dynamiques en bénéficieront partiellement : les résultats de recherche au sein d’un module de contenu dynamique seront affichés, mais ne redirigeront pas directement vers la section voulue. Charge à l’internaute de retrouver ce contenu.
Sur ce point, la construction interne du module Flash sera primordiale pour éviter cet écueil. Dès lors que le module est construit en groupe de clips paramétrés pour un accès direct à un type de contenu (à l’instar d’un plan de site), le robot pourra s’y retrouver et accéder directement au contenu initialement indexé. Dans le cas d’une construction sur un seul bloc ou plusieurs blocs non paramétrés, il sera plus difficile au robot de naviguer dans ce même module. Ne pas oublier que le robot est un simple lecteur de contenu. Il ne peut pas interagir avec ce qu’il indexe.
Ce que nous ne savons pas :
- Quid des images : n’étant pas appelées de la même manière que la méthode HTML, comment le robot distinguera-t-il et identifiera-t-il une image d’un contenu textuel sachant que le tout est embarqué dans un seul module ?
- Quid de la structure : c’est la grande inconnue de cette évolution. Comment le robot va-t-il déterminer la structure de la page et ses différents points d’entrée s’il n’en distingue pas la construction ?
- Quid des sources de données externes: les plupart des sites en flash sont alimentés en contenu par des fichiers externes (type XML) leur garantissant une capacité de mise à jour rapide. Les bots remonteront-ils jusqu’à ces fichiers pour en indexer le contenu ?
Ces points nous indiquent de nouvelles règles à prendre en compte a priori. L’idée sous jacente est la professionnalisation des expertises Flash et l’évangélisation des bonnes pratiques pour garantir un référencement optimal.
Aspects qui sont parfois loin d’être pensés en amont de la conception d’un module riche, faute de temps ou de connaissance. Désormais ils représentent un aspect réellement stratégique.
Pourquoi est-ce cependant une évolution majeure ?
Certes, par le passé, Adobe a déjà ouvert le code source de manière partielle à certaines organisations comme Mozilla. Pourtant cette étape est autrement plus importante car Adobe exhibe sa technologie, chèrement acquise en 2005 pour 3,4Mds$, àà des organismes à vocation commerciale. Preuve qu’Adobe a décidé de combler un gap en standardisant cette technologie, largement utilisée et pourtant trop peu visible.
Quels enjeux ?
Revenons-en à l’origine du problème : le référencement est un art trop peu maîtrisé dont les tenants sont assez mal perçus par les annonceurs. A tort. On a coutume de dire qu’au-delà de la seconde page de résultats, l’internaute est considéré comme perdu. Obtenir un bon référencement est donc primordial quand on est en quête de visibilité.
Dans ce contexte, face à la tendance d’ego-casting du « tout » et « tout de suite », le message doit être rapidement captable, compréhensible, mais avant tout délivrable.
Pour séduire un public toujours plus sélectif et exigeant, les initiatives de RIA (Rich Internet Application) se multiplient. Leur indexation qui est désormais optimisée va dans le sens d’une meilleure synergie entre l’expérience utilisateur et la quête de visibilité. Deux buts auparavant contradictoires et désormais potentiellement compatibles.
Pourtant pas sans arrière-pensées :
Si des contenus riches vont faire naturellement leur apparition en tête des classements de recherche, Adobe entend bien tirer parti de cette redistribution en se hissant comme la référence des contenus rich media. Un moyen de tuer Silverlight dans l’œuf ? Oui, mais pas uniquement. Plus que d’écraser le dernier né de Microsoft, ou de faire un geste altruiste envers les moteurs, c’est davantage pour argumenter sur sa propre technologie AIR, solution multi-technologique qu’Adobe promeut comme une option viable auprès des développeurs… mais qui fait largement appel à la technologie Flash.

Un moyen de préparer le terrain en somme.