Mémoire numérique : une amnésie programmée ? Compte-rendu

Le jeudi 16 mai, les Rencontres du Café des Techniques au Musée des Arts et Métiers ont consacré une séance à la question des archives numériques. WebArchivists était dans le public, et voici un compte-rendu des échanges. Il existe aussi une vidéo sur le site du Musée.

Photos de famille, documents administratifs, articles de presse ou les giga, téra, voire pétaoctets de données issus des « Big Data »… Que laisserons-nous aux générations futures ? Alors que notre mémoire a inexorablement migré vers le numérique, nous prenons tout juste conscience de la fragilité de ce patrimoine immatériel. 

Si l’information numérique se recopie sans erreur pratiquement à l’infini, aucun support ne peut actuellement garantir la conservation de l’information au-delà de quelques années. Mauvaise manip ou bug du disque dur, obsolescence des matériels et logiciels, vieillissement spontané des supports… notre mémoire n’est plus gravée dans le marbre. Tout objet numérique abandonné à lui-même risque d’être définitivement perdu. Contraint par sa faible espérance de vie, il semble donc condamné à migrer sans cesse vers de nouveaux supports.

Caractérisé par la volatilité de ses données nativement numériques, l’archivage du web constitue un nouvel enjeu pour préserver la mémoire du XXe et XXIe siècles. À l’ère de « l’infobésité », l’impossible exhaustivité nous oblige à anticiper les besoins des historiens de demain… Comment garantir la pérennité des informations numériques ? Quelles sont les technologies les plus prometteuses pour garantir cet archivage à long terme ? Entre amnésie et hypermnésie, comment éviter que notre mémoire vive se transforme en mémoire vide ?

Avec la participation de :

Jean Carrive, responsable du groupe de recherches audiovisuelles, département recherche d’Ina EXPERT
Marie-Anne Chabin, professeur associé au Cnam, secrétaire général du Club des responsables de politiques et projets d’archivage
Franck Laloë, directeur de recherche émérite au CNRS, président du GIS-SPADON (Groupement d’Intérêt Scientifique sur les Supports Pérennes d’Archivage des Données Numériques)
Clément Oury, chef du service du dépôt légal numérique à la BNF

Compte-rendu

Clément Oury rappelle que l’idée d’archive est à la fois la force et la faiblesse de la mémoire du web. Ce « fatras » deviendra source pour étudier société plus tard. Il existe toujours un temps de latence entre l’invention d’un nouveau support et la conscience patrimoniale qui va venir le recueillir. Il rappelle que les pionniers de l’archivage Web (la fondation Internet Archive au premier chef) ont été assez rapides, mais ont commencé leur action patrimoniale près de 5 ans avant la naissance du Web.

La BNF, elle, commence ses premières collectes du Web français en 2002 à l’occasion des élections législatives et présidentielles ; la loi rattrape ensuite le besoin patrimonial en 2006 (Dépôt Légal du Web, dont le décret n’est formalisé qu’en 2011). Sur le plan technique, il s’agit d’une meute de robots (des « internautes automatiques ») qui récupèrent les sites .fr (la mission est de collecter l’intégralité du Web français) grâce à un accord avec l’AFNIC (registre qui attribue les noms de domaines en .fr). Ceci se fait à la manière des technologies des moteurs de recherche sauf qu’ici il ne s’agit pas de ne garder que l’information la plus récente mais de récupérer le site par strates temporelles. Certains médias journalistiques sont ainsi collectés tous les jours (Le Monde, Médiapart…). Pour les sites français et contenus Web français qui ne sont pas sous .fr, il est plus difficile d’archiver, sauf par une sélection « à la main ».

Les stocks d’archive à la BNF et à l’INA ne sont pas destinés à la consultation en ligne grand public ; ils sont d’abord destinés à un public de personnels et de chercheurs (et autres personnes accréditées). Par contre, ce sont des établissements de dernier recours : chaque individu a un droit de consultation s’il peut prouver qu’il ne peut le faire ailleurs ; idem pour la conservation.

Franck Laloë explique que le rapport du GIS recommande de faire une sélection ; il considère que toutes les informations n’ont pas la même valeur. Il met en avant l’archivage de données numériques dans des grands centres de recherche scientifique comme le CNES ou le CERN, dont les données, très difficiles à recueillir ou à générer dans le processus expérimental sont cruciales à conserver dans le temps (pour analyse des résultats, vérification des preuves…). Il rappelle à cette occasion que les données numériques dépassent de beaucoup les données des archives Web.

En termes de techniques de préservation on peut parler d’archivage actif ou passif. L’archivage actif consiste à mettre des données sur de grands serveurs (disque durs ou bandes magnétiques) ; comme les données vieillissent et périclitent, il faut constamment les mesurer et les recopier sur des supports neufs. « Les gens sérieux préservent leurs données en 3 endroits dans le monde ». Il est intéressant de constater que la recopie est parfois meilleure que l’original : des codes de correction d’erreur vérifient constamment que les données sont identiques (taux de 10 moins 13, tellement faible que difficile à imaginer). L’archivage passif, lui, consiste à écrire sur un support qui conserve l’information. Laloë signale que l’avant-garde dans ce domaine consiste à graver les données dans des disques en verre qui ressemblent à des Cds ou DVDs mais coûtent 150 euros pièce.

Marie-Anne Chabin fait part de son expérience d’expertise auprès des entreprises. Son travail consiste à aider à prendre du recul face au « tsunami numérique » et à l’infobésité. Dans un contexte d’inflation des donnés, le problème de sélection se pose à tous les niveaux si l’on cherche la pérennisation des données ; c’est un des nouveaux problèmes cruciaux pour l’industrie. Les volumes sont énormes, mais aussi proportionnels aux besoins en mémoire de notre époque. Une des premières sélections possibles est de cibler la redondance (les nombreuses versions d’un même document par exemple), les informations inutiles, ou celles dont l’utilité se périme au bout d’un certain temps. Elle se prononce en faveur d’une « destruction raisonnée ». Un des grands problèmes est l’explosion de la messagerie électronique, qui supporte des communications qui peuvent n’avoir aucune valeur, qui n’ont n’ont aucun intérêt dans le temps, et peuvent même être parfois toxiques. Il existerait une inféodation à la technologie : on écrit n’importe quoi, et donc on se retrouve avec des messages qui n’auraient pas dû être produits. Un autre grand problème est l’émiettement des informations, et les données non structurées, qui peut entraîner une mauvaise interprétation a posteriori. Pour l’historien, il peut être bon de conserver des informations conservées, mais sans contexte, qu’en faire ?

3 type de données à conserver selon M-A. Chabin :

  • patrimoniales par défaut : procès verbal, publications majeures. Ce qui représente l’engagement de la responsabilité et des sources pour la mémoire collective ;
  • documents de gestion et confidentiels, mais qui doivent être triés par des professionnels (échantillons représentatifs, corpus pour l’histoire) ;
  • données de particuliers, support d’un sens de la mémoire chez les individus.

Dans le public : Qu’en est-il de la conservation des œuvres artistiques ou littéraires produites sur Internet ?

C. Oury : la BNF a un programme d’identification et d’archivage systématique des blogs littéraires par des équipes spécialisées dans la littérature contemporaine. Idem pour le net art, mais plus difficile à cause de l’interactivité.

J. Carrive : il existe un Dépôt Légal pour les jeux vidéos à la BNF. Il y a aussi un programme de recherche sur la musique contemporaine (restituer l’œuvre, pas son interprétation mais son processus de création avec les matériaux d’origine).

Dans le public : L’IRCAM s’est rendu compte récemment qu’ils ne peuvent plus lire leur programme de musique sérielle, à cause d’un problème d’obsolescence logicielle ; ne pense-t-on pas trop à court terme ?

M-A. Chabin : C’est précisément le but d’une solution par processus de migrations successives comme on le fait pour les données numériques scientifiques : on veille sur les supports sans arrêt, et on migre sur un nouveau support quand nécessaire. Le projet InterPARES travaille sur l’idée que l’on ne pourra pas conserver un document numérique mais seulement la manière de le restituer ; donc on n’aura jamais le même support, mais des supports successifs, selon un processus itératif et permanent de conservation des données.

C. Oury : à la BNF, on tente l’émulation, par exemple sur les premiers logiciels pédagogiques (T05). Mais il est vrai qu’à terme, il faudra se demander si on ne doit pas émuler les émulateurs (créer une couche supplémentaire pour les faire tourner).

Dans le public : A propos de l’authenticité des documents : quel est le document authentique dans un processus d’ubiquité et de copie ? Comment conserver l’authenticité du document et être certain qu’il n’est pas modifié dans le temps ?

J. Carrive : la notion d’original perd de son sens.

F. Laloé : la copie peut être meilleure que l’original en terme de support , mais on ne parle pas ici de contenu. Le problème de l’authenticité, distinct de celui de l’original, est essentiel ; il est indépendant du support, sauf dans le cas des techniques de gravure dans le verre, où l’on obtient une copie parfaite.

M-A. Chabin : Pour les documents numériques, le code civil reconnaît officiellement l’écrit émis sous forme électronique depuis la loi du 13 mars 2000 au même titre que sur papier. Le moyen de l’authentifier reste les algorithmes de signature, qui sont aussi un moyen de contrôle… Pour l’archivage, les normes internationales recommandent la préservation des traces qui signifient que rien n’a changé sur le fichier. Le décret du 10 août 2005 permet d’acheter un immeuble avec acte notarial numérique.

J. Carrive : L’empreinte digitale permet la représentation unique d’un document vidéo (par extraction de pixels sur l’original), et donc de prouver qu’une copie est bien le même document (authenticité), mais ne permet pas de trouver l’original.

Dans le public : quel est le coût ? M. Laloë a dit que c’était cher ; le contribuable doit-il payer pour conserver des documents inutiles ? N’est-ce pas une perte sèche ? On devrait peut-être cerner des indicateurs comme la fréquence de consultation ou l’utilité d’un document.

M-A. Chabin : s’il faut bien sélectionner pour une destruction raisonnée, il faut faire attention à ne pas le faire au motif de la fréquence de consultation de certains documents ; on peut se rendre compte 50 ans plus tard qu’il manque un document crucial pour réparer un pont.

J. Carrive : Il y a certes un aspect industriel (qu’est-ce qui va être utile / rentable) mais il y a aussi un aspect patrimonial. L’INA a la double casquette : c’est un centre de fonds radio et télé (commercialisation de films) mais aussi une mission de service public (Dépôt Légal). Qui décide de ce qui est intéressant ? Ce qui est cher, c’est moins le document que l’annotation (fabrication des métadonnées, données de description). A l’INA, il y a 10 documentalistes pour 1 technicien. On stocke tout mais on documente seulement une sélection.

C. Oury : pour le patrimoine Web le plus précieux en termes patrimoniaux (ancien et rare), ce qu’on appelle « les incunables du Web » (1996-2002), cela ne représente rien en termes d’espace et donc de coût de stockage (fichiers très légers). Il faut en effet faire attention à ne pas utiliser le critère d’utilité ou de fréquence de consultation des documents, car ce serait biaiser la documentation du temps présent pour le futur historien.

Par exemple, la littérature considérée au début du 20ème siècle comme une littérature de qualité (publiée par les « grands éditeurs ») était très positive et optimiste dans son regard sur la société ; or, c’est la littérature dite « de gare », une vision pessimiste, qui permettent les meilleures analyses sur l’époque de l’avant Première Guerre Mondiale.

Autre exemple : quand les nouvelles équipes du Web de l’Elysée sont arrivées avec la dernière élection, ils se sont débarrassés de toutes les photos de N. Sarkozy, au motif qu’elles étaient des supports de communication pas intéressants pour l’histoire, ce qui est une erreur. Heureusement, avant de le faire ils se sont assurés que la BNF avait des archives du site. Même la mémoire de l’Etat est fragile. On n’a pas réagi assez vite au moment de l’élection présidentielle de 2005 alors qu’elle a été la première à avoir un écho important sur le Web, donc on a raté son archivage.

Encore un exemple : pourquoi archiver les pages Facebook au moment des dites « révolutions arabes » ? Cela permet à l’historien de demain d’avoir les sources des activités de mobilisation ou de communication et non pas seulement l’opinion de la presse sur le sujet d’actualité.

Dans le public : Quels sont les rapports avec les entreprises informatiques de type Google : aide à l’archivage ou influence négative ?

C. Oury : La BNF est membre de l’IIPC (International Internet Preservation Consortium) qui associe des bibliothèques et institutions d’archives nationales et universités pour des recherches communes sur les techniques d’archivage numérique. Elle collabore aussi avec l’Open Planets Foundation, qui travaille avec des sociétés privées comme Microsoft, pour l’émulation des logiciels de bureautique. Pour les matériaux patrimoniaux du DLWeb, elle travaille seulement avec des institutions nationales.

J. Carrive : L’INA a des partenariats avec des entreprises de moteurs de recherche pour améliorer recherche audiovisuelle.

Dans le public : A l’échelle globale, doit-on vraiment faire une sélection ? Avec l’agglomération de masses de données (big data), on peut établir des corrélations entre des données qui n’ont pas l’air de faire sens.

C. Oury : aucun corpus n’est exhaustif, même dans le big data. Il s’agit d’ailleurs de données d’usages : on rêve, à partir de l’extraction de l’activité sur le Web et de l’analyse des interactions, d’avoir une image parfaite de l’état de la société. Mais il y a toujours des biais, et donc il est important de savoir comment le corpus a été constitué, délimité, documenté, pour faire connaître ces biais, et c’est ce sur quoi porte l’effort des équipes du Dépôt Légal du Web. La recherche historique reste d’ailleurs toujours possible à partir de corpus très limités.

M-A. Chabin : D’accord avec l’idée qu’à partir des données élémentaires on peut trouver des informations là où d’autres ne l’ont pas vu. Mais trop de mémoire étouffe : élaguer permet une liberté. De toutes façons, les historiens reprocheront toujours de pas avoir assez gardé.

Dans le public : Quid des droits ? Est-ce que cela ne pose pas problème à propos des formats des logiciels pour les émulateurs ? Ou encore : que fait-on des sites considérés comme hors la loi (données illégales) ?

C. Oury : en termes de droits, la BNF a un mandat légal : le Dépôt Légal du Web est considéré comme une exception au droit d’auteur, et on ne peut empêcher la collecte des contenus. Mais il ya une contrepartie : les contenus ne sont pas remis en ligne, on ne peut les consulter que localement. Pour les sites interdits, c’est même chose. Pour la question des émulateurs, on travaille avec Microsoft Research ; sans ça on ne pourrait pas émuler des logiciels de Microsoft sans autorisation.

Dans le public : quel serait alors le support le plus pérenne ? Un papier qui puisse durer plus de 1000 ans ?

M-A. Chabin : Le parchemin est très résistant : cela pourrait d’ailleurs relancer l’agriculture ! Plus sérieusement, il y a le carré de quartz développé par Hitachi pour la conservation des données.

F. Laloé : Le GIS prospecte un laboratoire d’optique à Bordeaux qui développe un laser permettant d’écrire des points dans le cœur du verre. Mais il est difficile de convaincre les industriels de s’intéresser à quelque chose qui n’existe pas sur le marché. Les disques en verre évoqués plus tôt restent trop chers.

Join the discussion