w 24 Aujourd’hui, si les chiffres correspondant aux informations numériques disponibles ont de quoi donner le tournis, ils soulèvent aussi une question essentielle : celle de la difficile analyse de ces masses de données considérables et en perpétuelle expansion. Professeur d’informatique et membre du Laboratoire d’informatique de Grenoble (LIG) 1, Marie-Christine Rousset appartient à cette communauté de scientifiques qui tente de structurer le flot ininterrompu de données circulant sur la Toile : « Les pages que nous consultons tous les jours appartiennent au Web textuel qui regroupe des milliards de documents reliés entre eux, explique-t-elle. Pour autant ces pages ne peuvent pas être exploitées comme une véritable base de connaissances car elles ont été conçues pour être lisibles par des êtres humains et non par des machines. » Autrement dit, un moteur de recherche comme Google, dans lequel nous formulons une requête, se contente de proposer une liste de milliers de documents correspondant à cette demande. Il laisse ensuite à l’usager le fastidieux travail d’investigation destiné à identifier la réponse la plus pertinente à sa requête. Or face à l’accroissement vertigineux des documents disponibles sur le Net, de tels modèles risquent d’être rapidement submergés par le f lot d’informations à gérer. Quelle est l’alternative ? Faire évoluer le réseau actuel vers un Web des données : « Cette approche se fonde sur l’association de métadonnées aux adresses URL qui identifient les pages Web. Elle vise à casser la complexité du Web actuel, en structurant l’information sur Internet de | L’enquête cnrs I LE JOUrnAL Une jungle à défricher © labRI 08 08 Une cartographie des communications entre 20.000 ordinateurs réalisée au Labri. ©mItSENSEable Citylab 06 url. Sigle de UniformResource Locator : il s’agit d’une chaîne de caractères qui permet de localiser une page ou un site sur le Web. © DeUSCoNSortIUm 04 La visualisation, source d’interprétation La profusion de données dont disposent les chercheurs n’est pas toujours un avantage. En effet, plus les données disponibles sont nombreuses, plus il devient compliqué de les interpréter. Au Laboratoire bordelais de recherche en informatique (Labri) 1, David Auber et son équipe s’efforcent donc d’améliorer la lisibilité de ces masses de données grâce à des méthodes de visualisation analytique. « La démarche consiste à appliquer des outils mathématiques de type algorithmes sur ces données brutes pour faire ressortir les informations les plus pertinentes », explique le chercheur. Les données provenant des cours de la Bourse, de systèmes de communications, des processus chimiques du métabolisme cellulaire, de réseaux géographiques ou sociaux peuvent ainsi être traduites sous forme de métaphores visuelles. Ces représentations doivent permettre aux chercheurs d’analyser de manière ©o.h.beaUChesne/SCIeNCe metRIxDoNNéeSDeSCoPUS 07 05 rapide et efficace la structure de ces masses d’informations. Car si l’évolution exponentielle des capacités de calcul numérique a permis de générer des quantités de données considérables au cours des dix dernières années, les facultés d’analyse de notre cerveau n’ont pas suivi la même évolution. « Notre mémoire à court terme ne nous permet pas d’analyser simultanément plus de sept éléments distincts », souligne David Auber. Moyen efficace de résoudre cette contradiction, le principe de la visualisation analytique – via des interfaces d’aides à l’analyse de données – pourrait ainsi rapidement devenir incontournable. 1.Unité CNRS/Universitébordeaux-1/Universitébordeaux- Segalen/IPG COntAct : David Auber > david.auber@labri.fr |