CNRS Le Journal n°250 novembre 2010
CNRS Le Journal n°250 novembre 2010
  • Prix facial : gratuit

  • Parution : n°250 de novembre 2010

  • Périodicité : trimestriel

  • Editeur : CNRS

  • Format : (215 x 280) mm

  • Nombre de pages : 44

  • Taille du fichier PDF : 6,3 Mo

  • Dans ce numéro : Jusqu'où ira l'informatique ?

  • Prix de vente (PDF) : gratuit

Dans ce numéro...
< Pages précédentes
Pages : 26 - 27  |  Aller à la page   OK
Pages suivantes >
26 27
©cErn ; M.DEParDIEu/InsErM ©c.LEBEDInsky/InrIa w 26 10 11 12 10 11 certaines expériences, comme les collisions de particules ou le décryptage du génome, produisent d’importants volumes de données qu’il faut pouvoir trier et analyser. 12 L’étude des données scientifiques nécessite parfois de très gros moyens de calcul ainsi que la mise en réseau de machines, ici le projet grid 5000. des réseaux pour caLcuLer Les grilles informatiques sont des infrastructures virtuelles constituées d’un ensemble d’ordinateurs ou de grappes de PC géographiquement éloignés mais fonctionnant en réseau. Apparues voici quelques années sous l’impulsion de la physique des particules, elles permettent aux chercheurs et aux industriels d’accéder à moindre coût à d’importants moyens de calcul | L’enquête cnrs I LE JOUrnAL dans des domaines aussi variés que l’ingénierie, l’étude des maladies neurodégénératives ou la biochimie. En France, l’Institut des grilles du CNRS, dirigé par Vincent Breton, fédère depuis trois ans l’activité dans ce domaine. Aux côtés de la Grid 5000, un outil spécifiquement dédié à la recherche dans le secteur des grilles, il met à la disposition des scientifiques et des industriels une grille de production rassemblant une vingtaine de milliers de processeurs disséminés dans une vingtaine de centres du CNRS, du CEA et d’universités. Le 24 septembre dernier, ce dispositif déjà conséquent a franchi une étape supplémentaire avec la création par plusieurs organismes de recherche et universités 1 du GIS (Groupement d’intérêt scientifique) France Grilles, dont le but cOntAct : Vincent Breton > vincent.breton@idgrilles.fr est de coordonner le déploiement d’une infrastructure de grille d’envergure nationale, puis de l’intégrer dans une grille européenne. Avec un objectif chiffré, annonce Vincent Breton, qui a été nommé à sa tête : « Doubler les ressources et le nombre d’utilisateurs d’ici à 2015. » 1.cEa,conférencedes présidentsd’université (cPu),cnrs,Inra, Inria,Inserm,renater etministèredela recherche. derniers devront être sélectionnés en temps réel par des algorithmes spécialisés. « Ce sont typiquement des algorithmes d’apprentissage, où l’ordinateur, au fur et à mesure qu’il est confronté à de nouvelles données à conserver ou à rejeter, accomplit sa tâche de mieux en mieux », explique Michel Beaudouin-Lafon, dont l’unité collabore avec le Laboratoire de l’accélérateur linéaire 4 d’Orsay, sur la fouille de données d’accélérateurs. une démarche empirique Mais les physiciens des particules ne sont pas les seuls à manipuler d’importantes quantités de données. Ainsi, l’équipe de Pascal Poncelet, en partenariat avec une équipe de l’Inserm, a développé un algorithme capable de caractériser les gènes impliqués dans différentes catégories de tumeurs du sein à partir de données de patients (informations génétiques, âge, poids, taille de la tumeur, traitement, devenir du malade…). « Il offre aux cliniciens des informations sur les évolutions possibles d’une tumeur », ajoute le chercheur. De même, l’équipe d’Amedeo Napoli, dans un projet en collaboration avec des astronomes, a mis au point des logiciels de fouille afin d’explorer des données sur des étoiles, dans le but de relever des caractéristiques ou des associations qui auraient pu échapper à un opérateur humain. La fouille de données accomplit-elle pour autant des miracles ? Pas exactement. Car la discipline, qui a émergé à la fin des années 1980, est encore dans sa prime jeunesse. Conséquence, les chantiers sont légions. Pour Michel Beaudouin- Lafon, « la plupart des démarches sont aujourd’hui empiriques. On ajuste des paramètres à la main et, lorsque cela fonctionne, on ne sait pas très bien pourquoi. Or, dans beaucoup de cas, il n’existe pas de critère quantitatif pour juger de la qualité d’informations extraites d’une base de données. Cela est laissé à l’appréciation des spécialistes du domaine ». Et Amedeo Napoli de renchérir : « Il y a encore beaucoup de travail à faire pour appréhender les très gros volumes. Actuelle ment, on peut gérer quelques milliers
n°250 I nOvEmbrE 2010 L’enquête | 27 w d’objets possédant quelques centaines d’attributs. Mais au-delà, on est confronté aux limites physiques des machines. » Pour pallier cette difficulté, deux approches complémentaires sont possibles. Tout d’abord, là où une seule machine ne suffit pas, on peut faire travailler en parallèle plusieurs ordinateurs. C’est le principe de la grille (lire l’encadré cicontre), poussé à l’extrême au LHC, qui dispose de 50 000 PC dispatchés dans différents centres de recherche à travers le monde, afin d’analyser l’équivalent des 3 millions de DVD de données dont les scientifiques disposeront au terme de l’expérience. Autre option, le supercalculateur, tel celui dont dispose depuis 2008 l’Institut du développement et des ressources en informatique scientifique (Idris) du CNRS, à Orsay 5. Un monstre informatique capable de réaliser 207 milliers de milliards de calculs par seconde sur des nombres à virgule. « Dans certains cas, typiquement la simulation d’armes nucléaires ou celle de la météo, il est difficile de morceler les données. Le superordinateur reste donc la solution », complète Michel Beaudouin-Lafon. 13 L’application substance grise utilisée sur la plateforme Wild sert à comparer simultanément les reconstructions 3D des cerveaux de 64 patients. La gestion du facteur humain Cependant, développer des ordinateurs ne suffit pas. De fait, à l’autre bout de la chaîne d’un processus de fouille se trouve un utilisateur humain. Se pose donc la question de la meilleure façon de lui présenter le résultat d’une recherche. Il suffit pour comprendre la problématique de penser à Google : le programme peut faire remonter plusieurs milliers d’adresses pour une requête, mais ne peut en afficher qu’une dizaine à l’écran. Comme le regrette Michel Beaudoin-Lafon, « c’est dommage de bénéficier d’algorithmes sophistiqués pour faire remonter de l’information et de ne pas être capable de la présenter de façon correcte ». Pour ce faire, le Laboratoire de recherche en informatique a mis au point une plateforme d’un nouveau genre, baptisée Wild. 800 000 petaoctets, c’est l’estimation du volume mondial de données numériques en 2009. Les experts s’attendent à une croissance de 45% par an d’ici à 2020. 13 Concrètement, un mur tapissé de 32 écrans d’ordinateurs représentant 130 millions de pixels et qui permet d’appréhender en un coup d’œil d’importantes quantités d’information. « Nous travaillons avec huit laboratoires du plateau de Saclay sur ce projet », indique Michel Beaudouin-Lafon. En neurosciences, Wild permet d’afficher 64 IRM de cerveaux, « ce qui présente un avantage indéniable lorsqu’il s’agit d’identifier une pathologie alors même que l’on observe une variabilité importante parmi les cerveaux sains », poursuit l’informaticien. De même, en astrophysique, certains observatoires fournissent désormais des images dont la taille excède largement celle d’un écran. Pour visualiser ces images en entier à leur résolution maximale, des outils tel que Wild font la différence. « Je suis convaincu que ce type d’approche est amené à se développer, dans la recherche, mais aussi dans le monde industriel, conclut Michel Beaudoin-Lafon. Tout simplement parce que les données ne cessent d’augmenter, et les questions que l’on veut leur poser sont de plus en plus complexes et mal définies. » Bref, il s’agit ni plus ni moins que d’éviter à la société de l’information de crouler sous son propre poids ! 1.unitécnrs/universitéhenri-Poincaré/universiténancy-II/Inria. 2.unitécnrs/universitéParis-sud-XI. 3.unitécnrs/universitéMontpellier-II. 4.unitécnrs/universitéParis-sud-XI. 5.Lire « Lecnrss’offreunsupercalculateur », Le journal du CNRS,n°218,mars2008,p.34-35. cOntActs : michel Beaudouin-Lafon > michel.beaudouin-lafon@lri.fr amedeo napoli > amedeo.napoli@loria.fr pascal poncelet > pascal.poncelet@lirmm.fr ©c.frésILLon/cnrsPhotothèquE



Autres parutions de ce magazine  voir tous les numéros


Liens vers cette page
Couverture seule :


Couverture avec texte parution au-dessus :


Couverture avec texte parution en dessous :