CNRS Le Journal n°269 nov/déc 2012
CNRS Le Journal n°269 nov/déc 2012
  • Prix facial : gratuit

  • Parution : n°269 de nov/déc 2012

  • Périodicité : trimestriel

  • Editeur : CNRS

  • Format : (215 x 280) mm

  • Nombre de pages : 44

  • Taille du fichier PDF : 8,5 Mo

  • Dans ce numéro : La déferlante des octets

  • Prix de vente (PDF) : gratuit

Dans ce numéro...
< Pages précédentes
Pages : 24 - 25  |  Aller à la page   OK
Pages suivantes >
24 25
w 24 Aujourd’hui, si les chiffres correspondant aux informations numériques disponibles ont de quoi donner le tournis, ils soulèvent aussi une question essentielle : celle de la difficile analyse de ces masses de données considérables et en perpétuelle expansion. Professeur d’informatique et membre du Laboratoire d’informatique de Grenoble (LIG) 1, Marie-Christine Rousset appartient à cette communauté de scientifiques qui tente de structurer le flot ininterrompu de données circulant sur la Toile : « Les pages que nous consultons tous les jours appartiennent au Web textuel qui regroupe des milliards de documents reliés entre eux, explique-t-elle. Pour autant ces pages ne peuvent pas être exploitées comme une véritable base de connaissances car elles ont été conçues pour être lisibles par des êtres humains et non par des machines. » Autrement dit, un moteur de recherche comme Google, dans lequel nous formulons une requête, se contente de proposer une liste de milliers de documents correspondant à cette demande. Il laisse ensuite à l’usager le fastidieux travail d’investigation destiné à identifier la réponse la plus pertinente à sa requête. Or face à l’accroissement vertigineux des documents disponibles sur le Net, de tels modèles risquent d’être rapidement submergés par le f lot d’informations à gérer. Quelle est l’alternative ? Faire évoluer le réseau actuel vers un Web des données : « Cette approche se fonde sur l’association de métadonnées aux adresses URL qui identifient les pages Web. Elle vise à casser la complexité du Web actuel, en structurant l’information sur Internet de | L’enquête cnrs I LE JOUrnAL Une jungle à défricher © labRI 08 08 Une cartographie des communications entre 20.000 ordinateurs réalisée au Labri. ©mItSENSEable Citylab 06 url. Sigle de UniformResource Locator : il s’agit d’une chaîne de caractères qui permet de localiser une page ou un site sur le Web. © DeUSCoNSortIUm 04 La visualisation, source d’interprétation La profusion de données dont disposent les chercheurs n’est pas toujours un avantage. En effet, plus les données disponibles sont nombreuses, plus il devient compliqué de les interpréter. Au Laboratoire bordelais de recherche en informatique (Labri) 1, David Auber et son équipe s’efforcent donc d’améliorer la lisibilité de ces masses de données grâce à des méthodes de visualisation analytique. « La démarche consiste à appliquer des outils mathématiques de type algorithmes sur ces données brutes pour faire ressortir les informations les plus pertinentes », explique le chercheur. Les données provenant des cours de la Bourse, de systèmes de communications, des processus chimiques du métabolisme cellulaire, de réseaux géographiques ou sociaux peuvent ainsi être traduites sous forme de métaphores visuelles. Ces représentations doivent permettre aux chercheurs d’analyser de manière ©o.h.beaUChesne/SCIeNCe metRIxDoNNéeSDeSCoPUS 07 05 rapide et efficace la structure de ces masses d’informations. Car si l’évolution exponentielle des capacités de calcul numérique a permis de générer des quantités de données considérables au cours des dix dernières années, les facultés d’analyse de notre cerveau n’ont pas suivi la même évolution. « Notre mémoire à court terme ne nous permet pas d’analyser simultanément plus de sept éléments distincts », souligne David Auber. Moyen efficace de résoudre cette contradiction, le principe de la visualisation analytique – via des interfaces d’aides à l’analyse de données – pourrait ainsi rapidement devenir incontournable. 1.Unité CNRS/Universitébordeaux-1/Universitébordeaux- Segalen/IPG COntAct : David Auber > david.auber@labri.fr
N°269 I novembre-décembre 2012 L’enquête | 25 w ©m. Rienecker,m. Suarez, R. Gelaro, J.bacmeISter, R.todlING,l. TakaCS,e.lIU, S. Pawson,m.bosilovICh, S. Schubert, Gi-KoNGkIm, NASA/GoDDaRD ; vISUalization:t. SchINDler, NASA/GoDDaRD/UmbC manière à pouvoir accéder plus simplement à la connaissance », résume Marie- Christine Rousset. Un web PLUs performant Cette évolution est déjà en marche au travers du W3C, le consortium international qui veille au respect des normes sur le Web. Certains embryons de ce Web, qualifié de « sémantique » car il permet aux machines de comprendre la signification de l’information circulant sur la Toile, existent déjà. Mais, faire du Web sémantique un modèle universel reste une tâche ardue. « Greffer des algorithmes d’interrogation sur une base de données centralisée est une chose, commente la scientifique du LIG, mais y parvenir à l’échelle de cette gigantesque Le calcUL intensif à livre ouvert Dans le domaine du calcul haute performance ou HPC (« Hight performance computing ») , les États-Unis restent le leader incontesté. Sur les 500 supercalculateurs les plus puissants existant sur la planète en 2012, ils en concentrent en effet 252, soit près de la moitié de la puissance réelle disponible, qui atteint désormais 120 pétaflops (PFlops) 1. La France regroupe, elle, 22 de ces 500 supercalculateurs, pour une puissance totale de 6,4 PFlops. L’Hexagone se classe ainsi au 6 e rang mondial en termes de puissance dédiée au calcul intensif. Au sein du CNRS, le Centre de calcul de l’IN2P3 est un acteur majeur du calcul intensif via le développement de grilles informatiques destinées aux expériences du LHC ainsi qu’à des applications biomédicales 04 La simulation de l’Univers dans le cadre du projet Deus générera plus de 150 Po de données 05 L’étude du climat (ici, l’humidité atmosphérique le 17 juin 1993) nécessite de manipuler des masses de données colossales qui devraient atteindre le yettaoctet en 2020. 06 Représentation des maladies de 7,2 millions d’Américains et de leurs relations entre elles, issue du Massachussets Institute of Technology. 07 Cette carte, réalisée par Olivier Beauchesne, représente des collaborations scientifiques entre 2005 et 2009. et industrielles. De son côté, le Comité d’orientation pour le calcul intensif (Cocin) du CNRS a publié, en 2012, un livre blanc dressant une cartographie des pratiques de l’institution scientifique dans ce domaine. « Au CNRS le calcul intensif concerne plus de 2 500 chercheurs et enseignants-chercheurs, ce qui en fait l’une des plus importantes communautés pluridisciplinaires en Europe », souligne Michel Daydé, directeur du Cocin et coauteur de ce rapport. Or les besoins grandissants de cette communauté en matière de HPC ne sont pas toujours satisfaits par les allocations d’heures, que ce soit sur les centres nationaux ou via sur les appels à projets européens. « Pour répondre à cette demande, la poursuite de la montée en puissance des supercalculateurs 09 entité décentralisée qu’est le web ne relève pas d’un simple problème d’amélioration technologique ! » Ces dernières années, un domaine scientifique a vu ses pratiques complètement bouleversées par les avancées technologiques : la recherche biomédicale. « Le volume d’information provenant de l’imagerie biomédicale s’est considérablement accru, avec le passage au tout-numérique, au cours des dix dernières années », témoigne Johan Montagnat, directeur de recherche CNRS au laboratoire Informatique, signaux systèmes de Sophia Antipolis (I3S) 2 et coordonnateur, dans le cadre de Mastodons, du projet Credible, destiné à fédérer les données et les connaissances en imagerie biomédicale éparpillées au sein de plusieurs établissements hospitaliers sur le territoire français. Fédérer les données « La stratégie consistant à centraliser des masses de données médicales sera tôt ou tard limitée par les capacités de stockage disponible, justifie Johan Montagnat. De plus, la multiplication des instruments d’acquisition de données au sein des établissements hospitaliers rend inévitable la distribution de celles-ci sur différents sites de stockage. » Mais cette logique fédérative se heurte à des difficultés techniques. implantés sur le territoire devra être couplée à une urbanisation des infrastructures de calcul et de données, intégrant à la fois HPC, grilles de calcul, cloud et grands centres de données », analyse Michel Daydé. Une stratégie que le Cocin préconise de mettre en place tant à l’échelon national qu’européen. 1.Un superordinateur « pétaflopique » est capable de réaliser un million de milliards d’opérations en virgule flottante par seconde. COntAct : Michel Daydé > michel.dayde@cnrs-dir.fr 09 Le supercalculateur Curie est capable d’effectuer jusqu’à 2 millions de milliards d’opérations à la seconde et de stocker l’équivalent de 7 600 ans de fichiers de musique. Il est situé à Bruyères-le-Châtel dans l’Essonne. En effet, il s’agit de faire converger deux types de données : des données brutes (images, résultats de traitements…) et des données dites « symboliques », provenant de la description des premières : contexte d’acquisition des données brutes, caractéristiques anatomiques ou pathologiques extraites d’une image, etc. « L’un des principaux défis du projet Credible consiste à mettre au point une représentation sémantique de ces données symboliques dans le but de leur attribuer une signification scientifique », poursuit le chercheur. Ainsi harmonisées, ces bases de données, d’ordinaire très hétérogènes, pourraient alors être regroupées dans une même étude clinique, d’envergure nationale voire internationale. L’analyse, à une telle échelle, des ressources biomédicales fournirait aux chercheurs un moyen inédit pour répondre aux défis de santé auxquels ils se heurtent encore aujourd’hui. Pour éviter la noyade dans l’océan numérique des grandes masses de données, il faut recourir à des experts : les spécialistes en fouille de données. Partant des bases de données à l’état brut, ils sont chargés de faire remonter à la surface les connaissances qu’elles renferment. « Ce travail algorithmiquement difficile revient à parcourir un damier constitué de millions de lignes et de colonnes pour y repérer une poignée de motifs répétés », explique ©C.FRésillon/CNRS Photothèque



Autres parutions de ce magazine  voir tous les numéros


Liens vers cette page
Couverture seule :


Couverture avec texte parution au-dessus :


Couverture avec texte parution en dessous :