Démarrer un projet d’archivage web : par où commencer ? Les conseils d’Abbie Grotke (Library of Congress)

Cet article est la traduction d’un extrait de l’article “Web Archiving at the Library of Congress” par Abbie Grotke, qui dirige l’équipe d’archivage web au Bureau des initiatives stratégiques, au sein de la Bibliothèque du Congrès. Elle a été impliquée dans des projets de numérisation à la Bibliothèque du Congrès depuis plus de 13 ans, d’abord en tant que spécialiste de la conversion numérique avec le programme American Memory. Depuis 2002, elle a été impliquée dans les activités de l’archivage du web LC, et elle gère actuellement diverses activités de collecte et d’archivage web. Elle est également co-président du National Digital Stewardship Alliance Content Working Group.

Son article explique de façon très limpide les débuts des archivages web et en décortique les principaux enjeux. L’extrait que nous avons choisi de vous présenter reprend les conseils d’Abbie sur les prérequis d’un projet d’archivage web. “Vous être intéressé par l’archivage du web et à la préservation de son contenu sur le web, mais vous ne savez pas par où commencer? Voici quelques-unes des choses que vous pouvez envisager…

1. Déterminer les ressources qui sont disponibles pour l’archivage du Web : 

De quels experts disposez-vous ? Les conservateurs ou bibliothécaires sont nécessaires pour choisir un contenu, mais l’expertise technique est aussi indispensable pour une grande partie du travail. Est-ce que cette équipe pourrait travailler à temps plein ou à temps partiel? Une fois que vous aurez tous ces éléments, vous pourrez estimer le nombre de personnes disponibles et le temps nécessaire à votre projet.

2. Déterminer une approche pour la capture de contenu :

De nombreuses organisations qui débutent dans ce type d’archivage prennent souvent la décision d’externaliser certains aspects du travail, sauf si il y a des membres du personnel techniquement pointus disponibles pour gérer les étapes, ainsi qu’une infrastructure en place pour stocker de grandes quantités de données. L’externalisation ou la collaboration entre plusieurs projets permet aux organisations de gagner en expérience et d’en savoir plus tout en mettant en place des infrastructures internes pour gérer les projets en interne archivage du web plus efficacement.

3. Identifier les outils qui peuvent aider à la sélection ou la gestion de workflow :

Il existe un certain nombre d’outils d’archivage et de services disponibles pour aider à gérer les différents processus tels que la nomination d’URL, les permissions d’accès aux sites, le crawling des pages, l’examen de la qualité et la description. L’IIPC est une excellente ressource pour en apprendre davantage sur ce que les autres organisations utilisent pour différents processus d’archivage.

4. Examiner les politiques de sélection existantes :

Si l’archivage du Web ne peut pas être couvert par les politiques actuelles de votre organisation, alors la sélection est essentielle pour donner un sens à votre projet et le promouvoir auprès de votre organisation. Identifiez et définissez les thèmes, sujets ou types de sites que vous allez archiver. Cela peut vous aider à concentrer l’activité, ce qui est particulièrement important si les ressources sont limitées.

5. Connaitre vos droits  :

Renseignez-vous sur les autorisations que vous pourrez avoir, car ce que vous pourrez archiver dépendra beaucoup de la politique de votre organisation. Faites appel à des avocats et anticiper les droits d’accès ainsi que les autorisations requises pour l’analyse de contenu. Enfin, familiarisez-vous avec robots.txt - car ceci pourrait avoir une incidence sur les résultats de votre exploration.

6. Surveiller et effectuer des examens de qualité :

L’archivage du Web est un processus fluide. Les URLs changent et disparaissent, la technologie web devient plus complexe, et les politiques changent avec le temps. Il est important de réévaluer ce qui est recueilli au cours du temps pour s’assurer que le contenu actuel des sites web est toujours à la portée de votre projet et que vos robots fonctionne toujours avec les nouvelles normes et formats.

7. Ne pas négliger l’importance de l’accès à vos archives web :

L’accès aux informations pour les chercheurs est parfois reléguée aux arrière-pensées, car on peut être tenter par la frénésie de capturer très vite le contenu avant qu’il ne disparaisse, sans forcément penser aux questions d’accès à ce contenu archivé. Mais si vous commencez un nouveau programme, anticipez la façon dont les chercheurs pourront avoir accès à vos archives Web. Est-ce que les sites archivés doivent être catalogués? Est-ce que les utilisateurs pourront simplement faire de la recherche ou directement parcourir les sites? Comment les archives web seront intégrées (ou non) dans vos collections numériques actuelles?

L’article original est disponible ici : http://www.infotoday.com/cilmag/dec11/Grotke.shtml 

Join the discussion