©DataGIF/CNRS © Gallery Stock/plaINPICtURe w 22 La révoLUtion du big data dans les sciences humaines et sociales 01 01 L’ère numérique a facilité pour les chercheurs l’accès à l’information, autrefois dispersée dans les bibliothèques. Christine Collet. Elles sont partout et sont élaborées, commercialisées et consommées comme n’importe quel produit manufacturé. » Ces grandes masses de données sont devenues un tel enjeu économique, industriel et scientifique que les gouvernements et les entreprises investissent massivement dans le domaine. Aux États-Unis, le président Barack Obama a dévoilé en mars un plan Big Data allouant 200 millions de dollars à la recherche dans ce domaine (« Big Data Research and Development Initiative »). De son côté, l’Europe a inscrit la gestion des contenus numériques dans ses priorités pour la fin du 7 e programme-cadre de recherche et de développement technologique. En France, Unité de mesure de base 1 o L’écheLLe des octets Une page de texte Un morceau de musique Octet Kilo–octet Mégaoctet ko Mo 1000 octects 1000 ko | L’enquête cnrs I LE JOUrnAL Un film de 2 heures 30 ko 5 Mo 1 Go « Les grandes masses de données ont révolutionné le travail des spécialistes des sciences humaines et sociales. » Bertrand Jouve, mathématicien et directeur adjoint scientifique à l’Institut des sciences humaines et sociales du CNRS (INSHS), voit dans le Big Data une belle opportunité pour ses pairs. « Grâce aux bases de données en ligne, nous avons désormais aisément accès à une somme de connaissances qu’il nous fallait trouver dans les bibliothèques souvent dispersées… Et les enquêtes sur Internet ont facilité le travail, des sociologues par exemple. » Mais son enthousiasme ne lui fait pas oublier les difficultés auxquelles sont confrontés les utilisateurs. « Le problème réside le plus souvent dans le traitement des informations brutes, Gigaoctet Go 1000 Mo les Investissements d’avenir se sont aussi emparés du sujet. Un programme de 25 millions d’euros est consacré aux technologies d’exploitation des très grands volumes de données. un défi pour les scientifiques « Le Big Data constitue un défi scientifique considérable qui nécessite des travaux aussi bien en ingénierie que dans les sciences fondamentales », explique Mark 6 millions de livres (presque la moitié du catalogue de la BNF) 1 To Téraoctet To 1000 Go explique-t-il. Si ces dernières n’ont pas été récoltées par le chercheur lui-même, comment savoir ce qu’elles ont subi avant d’être intégrées à la base de données ? » Pour Sihem Amer-Yahia, il s’agit là d’un gros écueil du Big Data. « Le traitement des données brutes constitue souvent une boîte noire à laquelle personne n’a vraiment accès. Or on sait déjà que certaines manipulations assez courantes dans ce domaine peuvent supprimer une grosse partie des informations. » L’avènement des grandes masses de données et du tout-numérique soulève d’autres interrogations moins techniques. « Le Big Data implique nécessairement des réflexions épistémologiques, note Sandra Laugier, directrice adjointe Une pile de DVD de la hauteur de la tour Montparnasse 1 Po Pétaoctet Po 1000 To Toutes les informations produites jusqu’à 2003 Exaoctet Eo 1000 Po scientifique à l’INSHS. Qu’est-ce que cela signifie d’avoir accès à plus de connaissances qu’un esprit humain ne peut en concevoir ? Quelles conséquences cette exhaustivité qu’on ne contrôle pas a-t-elle sur notre rapport au savoir ? » Se posent également les questions de la propriété des données, des droits d’utilisation, du droit à l’oubli, de l’éthique… Autant de sujets auxquels les chercheurs en sciences humaines et sociales doivent s’atteler, en coopération avec d’autres disciplines, pour le bénéfice des citoyens et, peut-être, contre la mainmise des intérêts privés. Contacts : Bertrand Jouve > Bertrand.jouve@cnrs-dir.fr Sandra Laugier > sandra.laugier@cnrs-dir.fr Asch, chargé de mission pour les mathématiques et le calcul numérique à la Direction générale pour la recherche et l’innovation du ministère de l’Enseignement supérieur et de la Recherche. Face à ce constat, la Mission pour l’interdisciplinarité du CNRS a lancé cette année le défi Mastodons (lire encadré p. 21). L’idée est de soutenir des projets interdisciplinaires afin d’identifier où sont les verrous dans la gestion des grandes masses de données La totalité des données enregistrées en 2011 Zettaoctet Zo 1000 Eo La NSA se dote pour 2013 d’un datacenter de 300 000 m² 5 Eo 1,8 Zo 1 Yo Yottaoctet Yo 1000 Zo |