vie de la BnF La Bibliothèque nationale de France collecte le web français et offre à ses lecteurs la possibilité de consulter des archives remontant à 1996. En prise directe avec les évolutions du web, les équipes chargées du dépôt légal numérique rassemblent minutieusement la matière sur laquelle travailleront les futurs chercheurs. Le 8 avril dernier, alors que Le Monde annonce la fermeture prochaine de sa plateforme d’hébergement de blogs, un vent d’inquiétude souffle sur Twitter. Les blogueurs qui bénéficient de ce service, offert depuis 2004 aux abonnés numériques du quotidien, craignent de voir leurs billets disparaître. Certains s’interrogent sur les conséquences de la migration de leur blog vers une nouvelle solution d’hébergement, d’autres s’enquièrent des conditions d’archivage de leur production en ligne auprès de la BnF. Ainsi alerté, le service en charge du dépôt légal numérique a contacté Le Monde pour mettre en place une collecte d’urgence des quelque 6 000 blogs hébergés par sa plateforme. Un dépôt légal pas tout à fait comme les autres Cette nécessaire réactivité à l’actualité et aux évolutions des pratiques en ligne constitue l’une des particularités du dépôt légal du web, instauré par la loi Dadvsi de 2006 dans la lignée de ses illustres prédécesseurs. Mais si les livres, journaux et autres documents imprimés, multimédias ou audiovisuels font l’objet d’un dépôt obligatoire, le web peut difficilement être appréhendé de 26 I c h r on i que s de l a bnf nº86 Archiver le web d’aujourd’hui la même manière. De fait, contrairement aux autres dépôts légaux, celui du web ne se fixe pas pour objectif l’exhaustivité mais la représentativité – ce qui explique que, sur les quelque 400 blogs d’abonnés encore actifs au moment de l’annonce du Monde, une cinquantaine seulement faisait l’objet d’un archivage complet par la BnF. Autre différence : si le dépôt légal du livre, comme son nom l’indique, impose aux éditeurs de déposer leurs productions, celui du web est opéré directement par la Bibliothèque, sans que ni les producteurs ni les hébergeurs de contenus n’aient de démarche à effectuer. De Bilal Hassani à Michel Serres Pour garantir la représentativité des archives recueillies, la BnF associe trois modalités de collecte. La collecte « large » consiste à recueillir, une fois par an, un vaste échantillon du web français. Effectuée par un robot, celle-ci a permis en 2018 de recueillir 2 milliards d’URL émanant de près de 6 millions de domaines. Des collectes « ciblées », plus fréquentes, s’appuient sur une sélection de sites choisis par la BnF. Enfin, une veille quotidienne permet de collecter des « actualités éphémères » pour saisir pour les générations de demain Sur les serveurs de la salle machine de la BnF, des milliers de téraoctets de données attendent les chercheurs de demain. les répercussions d’un événement sur le web et les réseaux sociaux : l’incendie de Notre-Dame, Bilal Hassani à l’Eurovision, les « gilets jaunes » ou encore la mort de Michel Serres ont ainsi fait l’objet d’opérations visant des sites, des comptes Twitter ou des hashtags. Pour les chercheurs du futur Pour l’heure, la matière rassemblée dans les Archives de l’internet est accessible dans les salles de lecture de la BnF et d’une vingtaine d’établissements partenaires en France. Encore peu connues du grand public, ces archives servent déjà de source principale à différents projets de recherche menés par des sociologues, des linguistes ou encore des historiens. Mais comme le rappelle Alexandre Chautemps, chef du service du Dépôt légal numérique, « le principal public des Archives de l’internet est représenté par les historiens de demain et d’après-demain ». Sur les serveurs de la BnF, des milliers de téraoctets de données qui auront alors disparu de la surface du web attendent les chercheurs du futur. o Mélanie Leroy-Terquem Délégation à la Communication |