Majeure 36. Google et au-delà

Au-delà de Google Les voies de l’intelligence collective

Partagez —> /

Le moteur Google n’est qu’une pièce parmi d’autres de la question ô combien plus vaste de la navigation et des modes de recherche sur Internet. Historiquement, il a eu un rôle majeur, car il a été le premier à intégrer les choix des internautes eux-mêmes dans les résultats de leurs requêtes, via les liens hypertexte qui pointent d’un site à l’autre. Il a également été l’un des pionniers de ce qu’on appelle le « cloud computing », distribuant dans le réseau de la toile les données et autres capacités technologiques auxquelles chaque internaute a accès. Le plus fameux des moteurs de recherche atteint pourtant ses limites aujourd’hui, d’abord à cause de sa position dominante. Ensuite, et surtout, à cause de choix qu’il partage avec l’instance de gouvernance du Web, le World Wide Web Consortium ou W3C (auquel il appartient au même titre que Yahoo ou Microsoft). Les standards du Web, en effet, évoluent peu, comme bloqués par les contraintes commerciales du « revenu par clic ». Que reste-t-il, dès lors, de ce chemin vers toujours plus « d’intelligence collective » qui a été l’un des carburants essentiels d’Internet ?
Pierre Lévy est à la fois philosophe et directeur de recherche, au Canada, d’un projet de « métalangage » permettant aux internautes de « coder le sens » et pas simplement les données. Bref, de mener des recherches mille fois plus fines dans l’océan du net. Au-delà de la (nécessaire) critique de Google, ne devient-il pas indispensable de mener aujourd’hui des recherches aux confluents de l’informatique et des sciences sociales afin d’augmenter ce potentiel d’intelligence que reste encore Internet ?
Libres échanges…Multitudes : Selon vous quelles ont été ou sont encore les principales qualités d’un moteur de recherche comme Google aujourd’hui ?

Pierre Lévy : La principale qualité de Google est de refléter, même si c’est d’une manière très grossière, l’intelligence collective des utilisateurs du Web. En effet, le succès de Google est bâti dès l’origine en 1998 sur l’algorithme de rangement des pages Web inventé par Larry Page et Sergey Brin. Selon cet algorithme, dont le nom est « PageRank », les sites Web correspondant à une requête sont rangés en fonction de la quantité de liens pointant vers les sites, en donnant un poids plus important aux liens venant des sites eux-mêmes les plus « pointés ». Cela revient à faire participer tous les internautes qui lancent des hyperliens sur le Web à la définition de l’ordre des réponses du moteur de recherche. Avant l’innovation de Page et Brin, on rangeait les réponses en fonction de la fréquence des termes recherchés dans les sites. En somme, les moteurs de recherche « pré-Google » étaient uniquement orientés documents. Google a été, de fait, le premier moteur de recherche à faire entrer la computation sociale dans son équation.
La seconde raison du succès de Google a été (et reste encore) son extraordinaire ambition computationnelle. L’idée folle, au départ, de l’entreprise était d’enregistrer automatiquement la totalité du Web dans une seule base de donnée, base de donnée sur laquelle on pourrait ensuite mener des calculs statistiques à très grande échelle. L’infrastructure technique de Google repose sur des dizaines d’immenses centres de calculs dispersés sur la planète, dont chacun concentre des centaines de milliers de serveurs à bas prix interconnectés par fibre optique et fonctionnant sous Linux. Ces centres sont directement connectés aux backbones d’Internet et consomment des quantités d’électricité phénoménales. La disponibilité de ces centres de calculs a poussé Google à proposer une foule de services de cloud computing : vos données, vos programmes, vos infrastructures de calcul ne sont plus dans vos ordinateurs, mais « quelque part dans le réseau », immédiatement disponibles par n’importe quelle connexion Internet. Le cloud computing, dont Google et Amazon sont les principaux pionniers, est certainement l’une des principales directions d’avenir de la cyberculture. La mémoire et le traitement d’information y deviennent ubiquitaires.

Multitudes : A l’inverse, quels sont ses défauts essentiels, ou du moins, ses limites les plus importantes aujourd’hui ?

P. L. : Je pense que le « défaut » est visible pour tout le monde. Il est assez inquiétant qu’une seule compagnie gère la plus grande partie de l’accès des internautes à la mémoire numérique mondiale, surtout si l’on s’avise que ses algorithmes sont des secrets commerciaux, donc opaques. De plus, Google a un accès direct aux données et aux activités de ses utilisateurs de cloud computing, y compris leurs comptes e-mail (gmail). L’ensemble de ces données sont principalement utilisées aujourd’hui à des fins de marketing, mais toutes les censures, manipulations commerciales et renseignements aux services secrets (américains, chinois ou autres) sont possibles.
Quant aux limites, il faut bien comprendre que Google n’est pas seul en cause. C’est l’ensemble de la recherche et du filtrage de l’information sur Internet qui en est aujourd’hui à sa préhistoire. Pour commencer, les recherches sont encore aujourd’hui faites principalement sur des chaînes de caractères (les « mots ») et non sur des concepts (qui peuvent s’exprimer de bien des manières). De plus, le caractère multilingue de la mémoire mondiale est géré avec bien des difficultés et les traductions automatiques sont notoirement de mauvaise qualité. Les algorithmes de recherche sont généralement les mêmes pour tout le monde, alors qu’on pourrait imaginer des modes de filtrage beaucoup plus « personnalisés ». Finalement, la valeur de l’information dépend d’un grand nombre de paramètres contextuels ou de « points de vue » et elle devrait pouvoir être calculée selon des jeux d’intelligence collective extrêmement variés. Ce dernier problème est à peine effleuré par les recherches contemporaines via des moteurs comme Google.

Multitudes : On entend de plus en plus parler de ce qu’on appelle le deep Web, à savoir le Web invisible, caché, celui des archives, bases et banques de données, mais aussi de certains types de portails et bibliothèques en ligne ou payantes, que les moteurs d’aujourd’hui ne couvriraient pas. Certes, Google indexe par exemple les fichiers « .pdf » ou « Excel », mais il semblerait qu’il serait très loin de couvrir en 2009 la totalité du Web dans son scannage mensuel et les réponses aux requêtes. Je me souviens d’ailleurs d’une étude de la société Bright Planet, il y a 8 ans, qui affirmait que les documents présentés sur le Web étaient en réalité plus de 500 fois ceux recensés dans les moteurs de recherche. Qu’en est-il aujourd’hui ?

P. L. : Je ne suis pas un spécialiste du « deep Web », mais comme les moteurs de recherche recueillent les données du Web en faisant suivre les liens par des automates, il est clair que : tout le contenu qui n’est pas hyperlié, et notamment le contenu des bases de données (même si ces bases sont accessibles par le Web) ne se retrouvera pas dans les réponses des moteurs de recherche… Mais votre évaluation est peut-être excessive. Par définition, la chose est très difficile à mesurer. Je pense, en suivant certains spécialistes actuels, que le rapport entre Web de surface et Web profond est de l’ordre de un (pour la surface) à cinquante ou cent (pour la profondeur), ce qui est déjà énorme !

Multitudes : Dans le texte que vous avez publié au printemps 2008 dans Multitudes, vous souligniez le problème que représentait ce « vrai pouvoir actif et centralisé (qui) est aujourd’hui détenu par les entreprises du World Wide Web Consortium (W3C), qui réunit Google, Yahoo, Microsoft et quelques autres », et vous expliquiez que ce Consortium bloquait l’évolution en l’orientant à leur profit. Pouvez-vous préciser cette critique et nous dire si elle reste tout autant d’actualité aujourd’hui qu’il y a un an ?

P. L. : Il faut bien comprendre que les grands financeurs du W3C ont pour principal objectif de rentabiliser leurs investissements et de rapporter le maximum de dividendes à leurs actionnaires, et non pas de développer l’intelligence collective de l’humanité. Si leurs objectifs passent par une augmentation de l’intelligence collective, tant mieux, ils ne sont pas contre a priori, bien sûr, sinon, tant pis ! Le résultat est une orientation de la recherche très axée sur ce qu’on appelle le « Click stream marketing », et donc le revenu par clic. Ce sont ces grandes entreprises qui ont le plus grand pouvoir d’orientation sur la définition des standards publiés par le W3C. Par ailleurs, les directions d’innovation restent basées sur :
les formats de données standardisés comme HTML ou XML ;
les systèmes et inférences logiques inspirés de l’Intelligence artificielle, basés sur des « ontologies » exprimées dans ces mêmes formats standard (dans le domaine informatique, les ontologies sont essentiellement des hiérarchies de classes et de sous-classes de concepts ainsi que des réseaux formels de relations entre classes, les concepts restant exprimés en langues naturelles) ;
les méthodes d’analyse statistique à grande échelle, dont Google s’est fait une spécialité.
À mon sens, le problème, c’est que les directions de recherche alternatives ou complémentaires à ces modes d’innovation standard sont implicitement exclues, y compris dans les départements d’informatique des universités.

Multitudes : Est-ce seulement possible de faire autrement ?

P. L. : Sur le plan mathématique, il faudrait sans doute explorer d’autres formalismes que ceux de la logique et des statistiques. Même si la théorie des graphes est de plus en plus utilisée, il reste encore beaucoup de travail à faire de ce côté, pour ne pas parler de ce qui serait une topologie ou une géométrie sociales du sens. Je travaille moi-même avec un mathématicien (Andrew Roczniak) sur un « groupe de transformation » complexe, capable de représenter les phénomènes d’intelligence collective.

Multitudes : Y a-t-il des orientations de recherche plus ou moins bloquées du côté de ceux qui incarnent aujourd’hui la gouvernance du net ? Y aurait-il des tabous sur ce sujet de l’évolution des moteurs de recherche ?

Le plus grand tabou pèse probablement sur l’invention de nouveaux systèmes symboliques tirant parti de la puissance de calcul et de la mémoire pratiquement infinie, aujourd’hui, offerte aux internautes. On fait comme si la boîte à outils symboliques dont nous avons besoin pour les siècles qui viennent ne devait rien contenir d’autre que les langues naturelles et les systèmes de signes développés par la culture avant l’existence d’une mémoire mondiale numérisée ubiquitaire.
Finalement, de nouveaux modes de computation sociale et d’organisation de l’intelligence collective émergent de l’activité spontanée des internautes. Les « start-up » et les grandes compagnies surfent sur la vague, mais la recherche en sciences humaines et sociales se contente de suivre et d’observer, avec toujours un peu de retard, plutôt que d’innover en travaillant main dans la main avec la recherche en informatique. Et, je n’évoque même pas ici l’obscurantisme anti-technique si puissant en France, y compris dans les milieux de la recherche en sciences humaines.
Ces directions de recherche, complémentaires de celles qui sont aujourd’hui au premier plan, devraient se mettre au service d’une gestion participative et trans-culturelle des connaissances orientées vers le développement humain plutôt que de servir d’étroites finalités « marketing ».
Mais je ne voudrais pas seulement me livrer au sport national français qui consiste à critiquer les Américains et les entreprises capitalistes. Je me suis fait traiter de tout en France (notamment dans les milieux « de gauche ») parce que je parlais d’intelligence collective dans le cyberespace dans mon livre de 1994 [[Pierre Lévy, L’intelligence collective, Paris, La Découverte, 1994., alors que la chose est devenue aujourd’hui une évidence largement partagée. De même, mon livre de 2002 [[Pierre Lévy, Cyberdémocratie, Paris, Odile Jacob, 2002. sur la cyberdémocratie et l’explosion de la liberté de parole sur le Web s’est fait traîner dans la boue par les journalistes français. Sans doute, certains d’entre eux étaient des lecteurs de Virilio, de Finkielkraut et de Wolton, alors que tout un chacun s’extasie aujourd’hui sur le Web 2.0 et le rôle des médias sociaux dans l’élection d’Obama… À quelques rares exceptions près (Serres, De Rosnay, Moulier-Boutang, Stiegler), l’institution intellectuelle française, prisonnière de son exclusive passion critique, me semble largement « aveugle au futur ».

Multitudes : Il semblerait que le W3C et Google en particulier travaillent sur le Web sémantique et des outils adaptés à ce type de Web… Pourriez-vous nous rappeler ce qu’est le Web sémantique et nous dire ce qu’il en est de cette évolution vers le Web sémantique et des outils adaptés ?

P. L. : Un des symptômes les plus révélateurs des limites du prétendu « Web sémantique » est son récent changement de nom. Tim Berners-Lee et son équipe parlent aujourd’hui de « Web des données ». L’idée principale est que le Web actuel est principalement un « Web des documents », ces documents étant connectés par des hyperliens. La finalité du Web des données est de réaliser une intégration de la mémoire mondiale à un niveau plus abstrait que celui des documents : le niveau des données à partir desquelles les documents sont, de plus en plus, produits automatiquement. Le format RDF (Ressource Description Framework), correspondant à cette vision, permet de décomposer la description des informations sur le Web en ensembles de triplets :

1) le sujet, soit la ressource à décrire, par exemple un texte et son adresse URL (Uniform Resource Locator) ;

2) la propriété, par exemple « l’auteur du texte », représenté aussi par une adresse URL ;

3) l’objet, par exemple « Madame Dupont » ou « L’étude des nouveaux types de culture de courgettes », éventuellement aussi représenté par un URL.
Ensuite, les ensembles de triplets RDF peuvent s’assembler en graphes complexes et faire l’objet de calculs logiques automatiques.

La finalité plus ou moins explicite du Web des données est de transformer Internet en une seule base de donnée virtuelle par l’intermédiaire du codage en format RDF de tous ses documents, ou plutôt de toutes ses données, même si on sait qu’il existera toujours une foule de bases de données réelles différentes.
Les ontologies exprimées dans le langage OWL (Ontology Web Language), c’est-à-dire, pour simplifier de manière un peu outrancière les relations entre idées et concepts que l’on retrouve sur Internet, permettent en outre de réaliser des « raisonnements automatiques » sur des ensembles de données codées en RDF, ces données correspondant au domaine de connaissance ou de pratique particulier qui est décrit par une ontologie.

Multitudes : Qu’apporte de plus ce Web des données, par rapport au Web tel que nous le connaissons aujourd’hui ?

P. L. : Il est censé rendre la navigation (autrement dit le « surf » et donc le travail de recherche), à la fois plus facile, plus pertinente et plus complète, sans pour autant permettre de fouiller dans l’intégralité du « deep Web » dont nous parlions auparavant.

Multitudes : Concrètement, notamment pour Google, est-ce déjà une réalité ? Naviguons-nous sans le savoir dans ce Web des données ?

P. L. : Les technologies du Web des données, puisqu’on ne parle de moins en moins de Web sémantique, sont de plus en plus adoptées pour le codage de données scientifiques par les organismes de recherche, mais aussi dans les entreprises pour la gestion décloisonnée de l’information. On commence également à voir apparaître des applications commerciales pour le grand public sur le Web (par exemple le site Twine.com). L’approche de Google est très pragmatique : tant que les calculs statistiques sur le contenu des pages Web satisfont les utilisateurs, on ne se lance pas dans le Web des données, mais dès lors que les techniques du Web des données donnent des résultats commerciaux intéressants, on s’en sert.

Multitudes : Vous affirmez que la limite du Web sémantique ou plutôt faudrait-il dire maintenant du Web des données, c’est qu’il ne permet pas de « coder le sens », pourriez-vous nous clarifier cette idée ?

P. L. : Il s’agit évidemment d’un problème très complexe qu’il est difficile de traiter de manière exhaustive et précise dans un entretien de cette nature. Disons que l’informatique a fait un grand progrès lorsque l’on a réussi à coder les images en binaire (les pixels), ce qui a permis de traiter automatiquement les images et a ouvert la voie à la photo et à la vidéo numériques, aux logiciels de production de dessins animés ou de jeux vidéo, ainsi qu’à tous les Photoshop  possibles et imaginables. De même, il existe aujourd’hui plusieurs formats de codage numérique de la musique qui ont ouvert la voie à des méthodes informatisées de composition, d’échantillonnage, de mixage, de synthèse, d’enregistrement et d’échange (au grand dam des éditeurs !). J’insiste sur le fait que le codage numérique universel de l’image et du son peut accommoder n’importe quelle tradition visuelle ou musicale et que ce codage a ouvert la voie à de multiples mixités, voire à de nouvelles traditions. Il ne s’agit en rien d’une uniformisation stérilisante, bien au contraire. Eh bien ! Je cherche, dans la même veine, un codage numérique du sens, dont l’effet pourrait être une extraordinaire augmentation de la puissance d’expression et d’interprétation entre les mains des internautes et de leurs intelligences collectives.

Multitudes : Autrement dit, quelle est la limite du Web d’aujourd’hui et au-delà du Web des données à laquelle vous vous attaquez ?

P. L. : En simplifiant, tout ce que l’on a aujourd’hui, c’est un codage numérique des caractères (alphabétiques ou autres) grâce à la norme unicode dite « utf8 », ainsi qu’un codage numérique de certaines relations logiques entre certaines chaînes de caractères (les ontologies du Web des données). Ce que je propose, c’est un système universel de codage des idées et concepts indépendant des langues naturelles, comme les pixels sont indépendants des styles visuels et la norme mp3 est indépendante du langage musical utilisé.

Multitudes : Mais qu’est-ce que cela nous apporterait de plus ?

P. L. : Un tel système universel de codage des idées et concepts donnerait un fondement sémantique aux ontologies et il leur permettrait de communiquer beaucoup plus facilement qu’elles ne le font aujourd’hui. Il contiendrait de manière intrinsèque une représentation formelle (calculable automatiquement) des relations entre les concepts, à différents niveaux de complexité. De plus, il s’agirait d’un métalangage ouvert, permettant l’ajout à l’infini de nouveaux concepts et de nouvelles relations entre concepts. En somme, il s’agirait de construire un Web des concepts (ou un Web des métadonnées), au-dessus du Web des données, et pas du tout contre le Web des données, bien entendu. Il ne faut pas oublier non plus qu’une immense quantité de métadonnées ne sont pas organisées par des ontologies. Je pense notamment aux « tags » produits spontanément par les internautes sur leurs blogs, sur des applications comme Flickr, Delicious ou YouTube, ou bien encore aux « hashtags » utilisés sur Twitter. Si ces tags spontanés, c’est-à-dire ces sortes d’étiquettes de définition des contenus, étaient codés comme je le propose, ils deviendraient traduisibles automatiquement dans toutes les langues (via un dictionnaire collaboratif) et permettraient des modes de recherche, de navigation, de filtrage, de synthèse informationnelle et de coordination des intelligences collectives inimaginables aujourd’hui.

Multitudes : Vous travaillez vous-même, en tant que chercheur au Canada, sur un langage, IEML, « Information Economy Meta Language », qui pourrait justement palier à certaines limites, de moteurs de recherche comme Google, mais aussi de ce Web des données. Pourriez-vous nous en dire quelques mots ?

P. L. : IEML est précisément une première tentative dans la direction que je viens d’indiquer. J’ai d’abord pensé ce métalangage comme une sorte de système de coordonnées d’un espace abstrait, que j’appelle l’espace sémantique, dans lequel se déploient les phénomènes de l’intelligence collective humaine.

Multitudes : Pourriez-vous préciser votre idée, notamment au travers de ce que vous appelez l’intelligence collective humaine ?

P. L. : Mon intuition fondamentale est qu’il existe une « nature » (fractale, hypercomplexe) de l’intelligence collective que nous pouvons maintenant explorer et cartographier dynamiquement, puisque nous avons une mémoire mondiale techniquement unifiée (alimentée par les flux de données et de métadonnées de chacun) et une immense puissance de calcul décentralisée à notre disposition. Tout ce qui nous manque est le système symbolique unificateur (sans être uniformisant !) adéquat à cette visée. L’intelligence collective humaine est une nature (unique, universelle), mais c’est une nature infinie dans ses virtualités de diversité qualitative, de différenciation évolutive et de complexification. De plus, chaque zone de l’espace sémantique infini, qui contient l’intelligence collective, est en puissance un point de vue interprétatif original sur l’ensemble: tous les points sont des centres virtuels. IEML essaye de traduire cette vision dans un dispositif pratique.

Multitudes : Vous en êtes où ?

P. L. : L’objectif est que ce métalangage puisse être utilisable dans quelques années. Je ne suis pas pressé, il m’importe surtout que les fondations soient solides. La finalité ultime de l’espace sémantique ouvert par IEML est de permettre aux processus d’intelligence collective de se représenter à eux-mêmes et de favoriser ainsi une conscience réflexive de l’intelligence collective humaine telle qu’elle se déroule et se complexifie spontanément dans le cyberespace. On imagine aisément les répercussions sur le développement humain…
IEML permettra de distinguer les informations en fonction de leur contenu et de leur situation dans le document : balise de début, balise de fin, etc.
La base de la théorie mathématique est posée, mais pas encore publiée. Un noyau lexical a été construit à partir duquel il devient possible de faire croître par la collaboration le dictionnaire multilingue. Un parseur (c’est-à-dire un outil d’analyse syntaxique) en cours de construction permettra de passer automatiquement d’une représentation cursive à une représentation binaire et à une forme XML compatible avec Internet et ses évolutions les plus récentes.
Une base de donnée orientée IEML est en cours de test, des outils de traduction semi-automatique de tags et d’ontologies vers IEML sont en cours de conception… [[ Pour en savoir plus sur l’IEML : [http://www.ieml.org/->http://www.ieml.org/

Multitudes : Pouvez-vous nous donner une idée de l’ampleur du projet ?

P. L. : Le groupe de recherche sur IEML est restreint mais international. Je travaille aujourd’hui avec des équipes françaises (Labo paragraphe de Paris-8), coréenne (université INHA), brésilienne (PUC Sao Paulo) et américaine (Michel Biezunski et Steve Newcomb, qui sont des chercheurs et consultants indépendants). Un livre à paraître chez Hermes-Sciences est prévu, en français d’abord, puis une traduction anglaise est envisagée.
Je sais parfaitement que tout cela : ces recherches sur de nouvelles dimensions de l’intelligence collective, bien au-delà d’un moteur comme Google, semblent à beaucoup de l’utopie fumeuse voire de la science-fiction. Mais j’ai appris depuis longtemps à ne pas me fier à l’opinion…

Propos recueillis par Ariel Kyrou.