©cErn ; M.DEParDIEu/InsErM ©c.LEBEDInsky/InrIa w 26 10 11 12 10 11 certaines expériences, comme les collisions de particules ou le décryptage du génome, produisent d’importants volumes de données qu’il faut pouvoir trier et analyser. 12 L’étude des données scientifiques nécessite parfois de très gros moyens de calcul ainsi que la mise en réseau de machines, ici le projet grid 5000. des réseaux pour caLcuLer Les grilles informatiques sont des infrastructures virtuelles constituées d’un ensemble d’ordinateurs ou de grappes de PC géographiquement éloignés mais fonctionnant en réseau. Apparues voici quelques années sous l’impulsion de la physique des particules, elles permettent aux chercheurs et aux industriels d’accéder à moindre coût à d’importants moyens de calcul | L’enquête cnrs I LE JOUrnAL dans des domaines aussi variés que l’ingénierie, l’étude des maladies neurodégénératives ou la biochimie. En France, l’Institut des grilles du CNRS, dirigé par Vincent Breton, fédère depuis trois ans l’activité dans ce domaine. Aux côtés de la Grid 5000, un outil spécifiquement dédié à la recherche dans le secteur des grilles, il met à la disposition des scientifiques et des industriels une grille de production rassemblant une vingtaine de milliers de processeurs disséminés dans une vingtaine de centres du CNRS, du CEA et d’universités. Le 24 septembre dernier, ce dispositif déjà conséquent a franchi une étape supplémentaire avec la création par plusieurs organismes de recherche et universités 1 du GIS (Groupement d’intérêt scientifique) France Grilles, dont le but cOntAct : Vincent Breton > vincent.breton@idgrilles.fr est de coordonner le déploiement d’une infrastructure de grille d’envergure nationale, puis de l’intégrer dans une grille européenne. Avec un objectif chiffré, annonce Vincent Breton, qui a été nommé à sa tête : « Doubler les ressources et le nombre d’utilisateurs d’ici à 2015. » 1.cEa,conférencedes présidentsd’université (cPu),cnrs,Inra, Inria,Inserm,renater etministèredela recherche. derniers devront être sélectionnés en temps réel par des algorithmes spécialisés. « Ce sont typiquement des algorithmes d’apprentissage, où l’ordinateur, au fur et à mesure qu’il est confronté à de nouvelles données à conserver ou à rejeter, accomplit sa tâche de mieux en mieux », explique Michel Beaudouin-Lafon, dont l’unité collabore avec le Laboratoire de l’accélérateur linéaire 4 d’Orsay, sur la fouille de données d’accélérateurs. une démarche empirique Mais les physiciens des particules ne sont pas les seuls à manipuler d’importantes quantités de données. Ainsi, l’équipe de Pascal Poncelet, en partenariat avec une équipe de l’Inserm, a développé un algorithme capable de caractériser les gènes impliqués dans différentes catégories de tumeurs du sein à partir de données de patients (informations génétiques, âge, poids, taille de la tumeur, traitement, devenir du malade…). « Il offre aux cliniciens des informations sur les évolutions possibles d’une tumeur », ajoute le chercheur. De même, l’équipe d’Amedeo Napoli, dans un projet en collaboration avec des astronomes, a mis au point des logiciels de fouille afin d’explorer des données sur des étoiles, dans le but de relever des caractéristiques ou des associations qui auraient pu échapper à un opérateur humain. La fouille de données accomplit-elle pour autant des miracles ? Pas exactement. Car la discipline, qui a émergé à la fin des années 1980, est encore dans sa prime jeunesse. Conséquence, les chantiers sont légions. Pour Michel Beaudouin- Lafon, « la plupart des démarches sont aujourd’hui empiriques. On ajuste des paramètres à la main et, lorsque cela fonctionne, on ne sait pas très bien pourquoi. Or, dans beaucoup de cas, il n’existe pas de critère quantitatif pour juger de la qualité d’informations extraites d’une base de données. Cela est laissé à l’appréciation des spécialistes du domaine ». Et Amedeo Napoli de renchérir : « Il y a encore beaucoup de travail à faire pour appréhender les très gros volumes. Actuelle ment, on peut gérer quelques milliers |