WebArchivists

Réflexions et projets sur l'archivage du web, la préservation de données et le reste...

  • Accueil
  • À propos
  • Vision
  • Projets
  • Liens
October 2010: Welcome on our new website! We hope you’ll enjoy it.

Démarrer un projet d’archivage web : par où commencer ? Les conseils d’Abbie Grotke (Library of Congress)

Par Chloé le 4 décembre 2011

Cet article est la traduction d’un extrait de l’article «  Web Archiving at the Library of Congress » par Abbie Grotke, qui dirige l’équipe d’archivage web au Bureau des initiatives stratégiques, au sein de la Bibliothèque du Congrès. Elle a été impliquée dans des projets de numérisation à la Bibliothèque du Congrès depuis plus de 13 ans, d’abord en tant que spécialiste de la conversion numérique avec le programme American Memory. Depuis 2002, elle a été impliquée dans les activités de l’archivage du web LC, et elle gère actuellement diverses activités de collecte et d’archivage web. Elle est également co-président du National Digital Stewardship Alliance Content Working Group.

Son article explique de façon très limpide les débuts des archivages web et en décortique les principaux enjeux. L’extrait que nous avons choisi de vous présenter reprend les conseils d’Abbie sur les prérequis d’un projet d’archivage web. « Vous être intéressé par l’archivage du web et à la préservation de son contenu sur le web, mais vous ne savez pas par où commencer? Voici quelques-unes des choses que vous pouvez envisager…« 

1. Déterminer les ressources qui sont disponibles pour l’archivage du Web : 

De quels experts disposez-vous ? Les conservateurs ou bibliothécaires sont nécessaires pour choisir un contenu, mais l’expertise technique est aussi indispensable pour une grande partie du travail. Est-ce que cette équipe pourrait travailler à temps plein ou à temps partiel? Une fois que vous aurez tous ces éléments, vous pourrez estimer le nombre de personnes disponibles et le temps nécessaire à votre projet.

2. Déterminer une approche pour la capture de contenu :

De nombreuses organisations qui débutent dans ce type d’archivage prennent souvent la décision d’externaliser certains aspects du travail, sauf si il y a des membres du personnel techniquement pointus disponibles pour gérer les étapes, ainsi qu’une infrastructure en place pour stocker de grandes quantités de données. L’externalisation ou la collaboration entre plusieurs projets permet aux organisations de gagner en expérience et d’en savoir plus tout en mettant en place des infrastructures internes pour gérer les projets en interne archivage du web plus efficacement.

3. Identifier les outils qui peuvent aider à la sélection ou la gestion de workflow :

Il existe un certain nombre d’outils d’archivage et de services disponibles pour aider à gérer les différents processus tels que la nomination d’URL, les permissions d’accès aux sites, le crawling des pages, l’examen de la qualité et la description. L’IIPC ( www.netpreserve.org ) est une excellente ressource pour en apprendre davantage sur ce que les autres organisations utilisent pour différents processus d’archivage.

4. Examiner les politiques de sélection existantes :

Si l’archivage du Web ne peut pas être couvert par les politiques actuelles de votre organisation, alors la sélection est essentielle pour donner un sens à votre projet et le promouvoir auprès de votre organisation. Identifiez et définissez les thèmes, sujets ou types de sites que vous allez archiver. Cela peut vous aider à concentrer l’activité, ce qui est particulièrement important si les ressources sont limitées.

5. Connaitre vos droits  :

Renseignez-vous sur les autorisations que vous pourrez avoir, car ce que vous pourrez archiver dépendra beaucoup de la politique de votre organisation. Faites appel à des avocats et anticiper les droits d’accès ainsi que les autorisations requises pour l’analyse de contenu. Enfin, familiarisez-vous avec robots.txt ( www.robotstxt.org )- car ceci pourrait avoir une incidence sur les résultats de votre exploration.

6. Surveiller et effectuer des examens de qualité :

L’archivage du Web est un processus fluide. Les URLs changent et disparaissent, la technologie web devient plus complexe, et les politiques changent avec le temps. Il est important de réévaluer ce qui est recueilli au cours du temps pour s’assurer que le contenu actuel des sites web est toujours à la portée de votre projet et que vos robots fonctionne toujours avec les nouvelles normes et formats.

7. Ne pas négliger l’importance de l’accès à vos archives web :

L’accès aux informations pour les chercheurs est parfois reléguée aux arrière-pensées, car on peut être tenter par la frénésie de capturer très vite le contenu avant qu’il ne disparaisse, sans forcément penser aux questions d’accès à ce contenu archivé. Mais si vous commencez un nouveau programme, anticipez la façon dont les chercheurs pourront avoir accès à vos archives Web. Est-ce que les sites archivés doivent être catalogués? Est-ce que les utilisateurs pourront simplement faire de la recherche ou directement parcourir les sites? Comment les archives web seront intégrées (ou non) dans vos collections numériques actuelles?

L’article original est disponible ici : http://www.infotoday.com/cilmag/dec11/Grotke.shtml 

Publié dans Dossiers | Tags abbie grotke, library of congress, projet d'archivage web | Répondre

Ateliers de l’INA sur le Dépôt Légal du Web et son archivage

Par Chloé le 12 octobre 2011

Le mois prochain vont démarrer les ateliers de l’INA sur les différents médias contenus du web et leurs archivages. Ces 8 sessions auront lieu tous les vendredis de 14h30 à 17h30 à l’Ina, de novembre jusqu’à juin.

La direction scientifique des ateliers est assurée par Louise Merzeau, Maître de conférence en information et communication, et Audrey Baneyx, responsable de l’infocentre de Sciences-Po. Pour plus d’informations, faites un tour sur leur site.

Adresse de l’Ina : Centre Pierre Sabbagh, salle Cognacq-Jay, 83-85 rue de Patay 75013 PARIS

Vous pourrez bientôt retrouver toutes les dates de ce séminaire sur notre calendrier des évènements, prochainement mis en ligne.

Publié dans Actualité | Tags atelier, conférence, INA | Répondre

[BnF] Vidéo sur l’archivage du Web et la coopération internationale

Par Chloé le 8 octobre 2011

A l’occasion de l’assemblée générale du consortium international pour la préservation d’Internet (IIPC) en mai 2011 à laquelle a participé la BnF, une vidéo a été réalisée qui permet de découvrir les enjeux de l’archivage du Web.

(Article original disponible sur Les Actualités de la BnF)

Web Archiving and the IIPC – French from Abbey Potter on Vimeo.

Publié dans Actualité | Tags BNF, video | Répondre

Une étude sur les initiatives d’archivage du web dans le monde

Par Hans le 29 octobre 2010

L’archive du web portugais conduit actuellement une enquête pour analyser les efforts d’archivage du web dans le monde.

Les 3 questions sont :

  • Quel est le nom de votre initiative d’archivage du web (merci d’indiquer si vous souhaitez rester anonyme) ?
  • Quelle quantité de données avez-vous archivé (nombre de fichiers, espace disque occupé) ?
  • Combien de personnes travaillent sur votre archive web (en personnes / mois) ?

Tout commentaire additionnel est le bienvenu.

Envoyez vos réponses (en anglais) à l’aide de ce formulaire.

Si des résultats substantiels sont obtenus, ils feront l’objet d’une publication. Ces données pourront servir à enrichir notre projet de carte du monde des archives web, aussi nous encourageons tous les responsables de projets d’archivage web à répondre à cette enquête.

Nous vous tiendrons bien entendu au courant de la publication des résultats.

Publié dans En vrac | Tags archivage du web, enquête, recherche | Répondre

WebArchivists au Mozilla Drumbeat Festival

Par Hans le 26 octobre 2010

Nous serons présents au Mozilla Drumbeat Festival, la semaine prochaine à Barcelone.

Mozilla Drumbeat Festival 2010 Barcelona

Suite à la discussion autour d’un projet Drumbeat sur la portabilité des données personnelles, nous allons partager nos recherches sur le projet DoaB. Nous espérons rencontrer des développeurs, concepteurs et utilisateurs potentiels afin d’échanger nos points de vue sur le sujet.

Si vous souhaitez nous rencontrer, n’hésitez pas à nous contacter en laissant un commentaire ci-dessous ou sur twitter.

Publié dans Rendez-vous | Tags données personnelles, événement, Mozilla Drumbeat, portabilité des données | Répondre

Session de formation à l’Archivage Web

Par Baptiste le 13 juin 2010

Bonjour, voici un message que nous avons reçu de la part de la fondation European Archive :

La Fondation European Archive organise une session de formation de deux jours sur l’Archivage du Web à Paris les 14 et 15 Octobre 2010.

Cette formation présentera un panorama complet des méthodes d’archivage web pour les bibliothécaires, archivistes et techniciens en charge de l’archivage web.

Pour plus de renseignements :  http://service.europarchive.org/confluence/display/PU/Web+Archiving+Training+Session

Nous pensons que cette formation de deux jours peut être réellement intéressante. Julien Masanès le directeur de la fondation nous avait gracieusement reçu à l’époque où nous débutions notre projet et nous avait laissé entrevoir la complexité du sujet et la maîtrise avec laquelle il en parle.

À ne pas louper !

Publié dans Rendez-vous | Tags European Archive, événement, formation | Répondre

CR : Drumbeat / Breizh Entropy Congress

Par Baptiste le 18 avril 2010

Bonjour à toutes et à tous.

Nous voici de retour sur Paris après une journée passée au Breizh Entropy Congress. Nous sommes vraiment ravis de nous être déplacés, ça a été l’occasion de faire des rencontres, de découvrir des choses diverses et variées (de l’atelier lockpicking à la confection d’une lyre médiévale). Lire la suite de « CR : Drumbeat / Breizh Entropy Congress »

Publié dans Rendez-vous, WebArchivists | Tags Breizh Entropy Congress, compte-rendu, Drumbeat, événement, Mozilla Drumbeat | Répondre

Webarchivists, Drumbeat et Breizh Entropy Congress.

Par Baptiste le 8 avril 2010

Bonjour à toutes et à tous.

On reprend du service après une longue période bien calme. J’aurai bientôt l’occasion de vous expliquer où en est l’association Webarchivists et quels sont nos projets, le site devrait évoluer prochainement pour refléter les changements qui ont eu lieu ces derniers temps. Mais tout d’abord, place à l’actualité.

Mozilla lance en ce moment une plateforme appelée Drumbeat, qui se veut à la fois être un support pour projets libres et une façon d’évangéliser la philosophie libriste au sein du grand public. De fait, ça nous intéresse beaucoup, chez Webarchivists. C’est pourquoi on a décidé de s’investir un peu dans la promotion de cette initiative et nous aurons donc l’occasion de donner une conférence débat, dans le cadre de la manifestation Breizh Entropy Congress, qui prendra place à Rennes les 15, 16 et 17 avril prochains. Lire la suite de « Webarchivists, Drumbeat et Breizh Entropy Congress. »

Publié dans Rendez-vous, WebArchivists | Tags Breizh Entropy Congress, Drumbeat | Répondre

Dossier : sauvegardez votre compte Gmail

Par Hans le 23 juillet 2009

wafileCet article, qui est mon premier sur ce blog collectif, va faire le point sur les différentes solutions d’archivage personnel vous permettant de sauvegarder votre compte Gmail.

Le service d’e-mail de Google n’étant plus en version bêta depuis le début du mois, il est donc désormais considéré comme stable. Mais on se rappelle des deux heures et demi d’inaccessibilité en février dernier, et les disparitions d’e-mails rapportées en 2007… Sur Gmail, comme sur tout autre service en ligne stockant vos données personnelles, il est de votre ressort de préserver celles-ci en les sauvegardant régulièrement.

Et nous allons le voir, dans le cas de Gmail, la tâche est relativement aisée.

Lire la suite de « Dossier : sauvegardez votre compte Gmail »

Publié dans Dossiers | Tags archivage personnel, données personnelles, Gmail, portabilité des données | 5 réponses

Bienvenue sur WebArchivists

Par Baptiste le 3 mars 2009

Un premier article en guise d’inauguration pour ce blog qui, nous l’espérons, vous permettra de découvrir ou d’aborder sous un autre angle l’archivage du web.

Nous tenterons de vous faire partager la grande aventure du projet webarchivists, en publiant régulièrement des éléments sur l’avancée du projet. Nous espérons que vos commentaires et votre participation permettront d’aiguiller les nombreux choix techniques et graphiques qui nous attendent.

Nous souhaitons que cet espace soit réellement un lieu d’échange, tout d’abord car nous avançons un peu en terrain inconnu, ensuite car c’est l’idée que nous nous faisons du projet, participatif, tourné vers les utilisateurs, et surtout parce que nous sentons que notre objectif est très actuel, sans doute avez-vous déjà été confronté à la disparition d’un site que vous aimiez, d’un service que vous utilisiez…

Nous choisissons d’ouvrir ce blog à toute personne qui souhaiterait publier un billet concernant l’archivage d’internet, ou l’un des nombreux sujets qui s’y rapportent – technologies de stockage, archivistique, formats ouverts, droit d’auteur et dépôt légal… Aussi, n’hésitez pas à entrer en contact avec nous !

À très vite, donc, pour la suite de l’aventure webarchivists.

La team WA.

Publié dans WebArchivists | Tags webarchivists | Répondre

Recherche

@webarchivists sur Twitter

  • Archiving Human Rights on the Web : Video For Change http://t.co/zzcmtrnB 1 week ago
  • http://t.co/Z02wp3dE: La BNE lleva a cabo su primera recolección selectiva de la web española. http://t.co/yVDTT3sk 1 week ago
  • Nice SOPA Blackout archive by @archiveitorg : http://t.co/KKuQD8ye 2 weeks ago
  • PeteSearch: What the Sumerians can teach us about data http://t.co/mD447sau 2 weeks ago
  • "Sacrificing web history on the altar of instant", ou le problème du manque d'archives web pr la recherche rétro-active http://t.co/BamywyY8 2 weeks ago
  • More updates...

Langues

  • English
  • Español
  • Deutsch
  • Français

WebArchivists (WA) est une association sans but lucratif.
Le contenu de cette page, sauf indication contraire, est mis à disposition sous licence Creative Commons BY-NC-SA.

Propulsé par WordPress, habillé par Hybrid et hébergé par Typhon.

  • English
  • Español
  • Deutsch
  • Français