WebArchivists

Réflexions et projets sur l'archivage du web, la préservation de données et le reste...

  • Accueil
  • À propos
  • Vision
  • Projets
  • Liens
October 2010: Welcome on our new website! We hope you’ll enjoy it.

Notre visite à l’Atelier du Dépôt légal du web – INA (17 février 2012)

Par Baptiste le 19 février 2012

Webarchivists était à l’atelier du Dépôt Légal du Web « Archives web et approches disciplinaires » ! Un peu plus d’une vingtaine de personnes étaient présentes, l’INA étant très largement représenté.

Le sujet du jour portait sur les archives web (« Web et disciplines : à chacun son archive »). Quatre intervenants provenant de domaines de recherche différents ont pu nous faire profiter d’autant de points de vues : sociologique, linguistique, archivistique et historique (vous retrouverez la liste détaillée de tous les intervenants sur le site des ateliers ).

Parmi les nombreuses références et explications, nous avons retenu :

Pour la partie sociologique :

- les ouvrages de M. Bernard Conein.

- les archives individuelles et communautaires des machinimas, et l’intention de patrimonialisation qu’elles comportent.

- la double validation de la parole sur le web, avec le fait que nous pensons d’abord ce que nous écrivons, puis nous validons notre écrit pour le rendre public. Les réseaux et outils nous permettant de lire les phrases tapées par un utilisateur au fur et  à mesure de l’écriture sont très rares (exemple : le jeu « There« , développé en 2001). L’effet de censure automatique que nous vivons lorsque nous écrivons sur le web est très prononcé, et peut entraver l’étude sociologique de ses utilisateurs.

Pour la partie historique :

- Les historiens ont tendance à faire preuve de défiance à l’égard d’Internet : l’expert n’est pas identifiable et les sources sont difficiles à fiabiliser (ordre, stabilité, autorité).

- Les bibliographies basées sur des sites internet se retrouvent désuètes très rapidement, du fait de liens rompus ou non renouvelés.

Pour la partie linguistique :

- La mise en œuvre de test TAL (Traitement automatique des languages) s’appuie parfois sur le web en tant que corpus (WaC = Web as corpus, http://wacky.sslmit.unibo.it/doku.php), mais pourrait être potentiellement un atout dans l’archivage de ces corpus ainsi constitués.

- un plugin Firefox très pratique pour identifier les mots-clés, sujets, personnes, pays etc… associés à une page web : « ClearForest Gnosis »

Bien entendu, il ne s’agit là que de points qui ont particulièrement retenu notre attention et par conséquent ne représentent pas en totalité l’atelier et les débats qui ont lieu en fin de séance. Nous avons beaucoup apprécié l’accueil, la qualité des interventions et les slides qui ont pu être présentées. Seule remarque que nous aurions voulu suggérer : des métiers concernés et impliqués dans l’archivage du web ont été mentionnés, comme l’historien, l’archiviste, le bibliothécaire, le chef de produit TAL, le sociologue… mais personne n’a mentionné le veilleur, qui pourtant travaille quotidiennement aussi sur les sources web et est tout autant concerné par la fiabilité et la conservation de ce corpus varié et mouvant qu’est le web.

Une dernière information, l’atelier concernant le data-journalisme et les nouvelles formes de journalisme en général à l’heure du web, a été reprogrammé au 11 mai, même heure, 14h30 – 17h30 !

 

 

 

Publié dans Rendez-vous | Tags archivistique, atelier, bernard conein, INA, machinima, semantic web, sociologie, TAL, veille | Répondre

Démarrer un projet d’archivage web : par où commencer ? Les conseils d’Abbie Grotke (Library of Congress)

Par Chloé le 4 décembre 2011

Cet article est la traduction d’un extrait de l’article «  Web Archiving at the Library of Congress » par Abbie Grotke, qui dirige l’équipe d’archivage web au Bureau des initiatives stratégiques, au sein de la Bibliothèque du Congrès. Elle a été impliquée dans des projets de numérisation à la Bibliothèque du Congrès depuis plus de 13 ans, d’abord en tant que spécialiste de la conversion numérique avec le programme American Memory. Depuis 2002, elle a été impliquée dans les activités de l’archivage du web LC, et elle gère actuellement diverses activités de collecte et d’archivage web. Elle est également co-président du National Digital Stewardship Alliance Content Working Group.

Son article explique de façon très limpide les débuts des archivages web et en décortique les principaux enjeux. L’extrait que nous avons choisi de vous présenter reprend les conseils d’Abbie sur les prérequis d’un projet d’archivage web. « Vous être intéressé par l’archivage du web et à la préservation de son contenu sur le web, mais vous ne savez pas par où commencer? Voici quelques-unes des choses que vous pouvez envisager…« 

1. Déterminer les ressources qui sont disponibles pour l’archivage du Web : 

De quels experts disposez-vous ? Les conservateurs ou bibliothécaires sont nécessaires pour choisir un contenu, mais l’expertise technique est aussi indispensable pour une grande partie du travail. Est-ce que cette équipe pourrait travailler à temps plein ou à temps partiel? Une fois que vous aurez tous ces éléments, vous pourrez estimer le nombre de personnes disponibles et le temps nécessaire à votre projet.

2. Déterminer une approche pour la capture de contenu :

De nombreuses organisations qui débutent dans ce type d’archivage prennent souvent la décision d’externaliser certains aspects du travail, sauf si il y a des membres du personnel techniquement pointus disponibles pour gérer les étapes, ainsi qu’une infrastructure en place pour stocker de grandes quantités de données. L’externalisation ou la collaboration entre plusieurs projets permet aux organisations de gagner en expérience et d’en savoir plus tout en mettant en place des infrastructures internes pour gérer les projets en interne archivage du web plus efficacement.

3. Identifier les outils qui peuvent aider à la sélection ou la gestion de workflow :

Il existe un certain nombre d’outils d’archivage et de services disponibles pour aider à gérer les différents processus tels que la nomination d’URL, les permissions d’accès aux sites, le crawling des pages, l’examen de la qualité et la description. L’IIPC ( www.netpreserve.org ) est une excellente ressource pour en apprendre davantage sur ce que les autres organisations utilisent pour différents processus d’archivage.

4. Examiner les politiques de sélection existantes :

Si l’archivage du Web ne peut pas être couvert par les politiques actuelles de votre organisation, alors la sélection est essentielle pour donner un sens à votre projet et le promouvoir auprès de votre organisation. Identifiez et définissez les thèmes, sujets ou types de sites que vous allez archiver. Cela peut vous aider à concentrer l’activité, ce qui est particulièrement important si les ressources sont limitées.

5. Connaitre vos droits  :

Renseignez-vous sur les autorisations que vous pourrez avoir, car ce que vous pourrez archiver dépendra beaucoup de la politique de votre organisation. Faites appel à des avocats et anticiper les droits d’accès ainsi que les autorisations requises pour l’analyse de contenu. Enfin, familiarisez-vous avec robots.txt ( www.robotstxt.org )- car ceci pourrait avoir une incidence sur les résultats de votre exploration.

6. Surveiller et effectuer des examens de qualité :

L’archivage du Web est un processus fluide. Les URLs changent et disparaissent, la technologie web devient plus complexe, et les politiques changent avec le temps. Il est important de réévaluer ce qui est recueilli au cours du temps pour s’assurer que le contenu actuel des sites web est toujours à la portée de votre projet et que vos robots fonctionne toujours avec les nouvelles normes et formats.

7. Ne pas négliger l’importance de l’accès à vos archives web :

L’accès aux informations pour les chercheurs est parfois reléguée aux arrière-pensées, car on peut être tenter par la frénésie de capturer très vite le contenu avant qu’il ne disparaisse, sans forcément penser aux questions d’accès à ce contenu archivé. Mais si vous commencez un nouveau programme, anticipez la façon dont les chercheurs pourront avoir accès à vos archives Web. Est-ce que les sites archivés doivent être catalogués? Est-ce que les utilisateurs pourront simplement faire de la recherche ou directement parcourir les sites? Comment les archives web seront intégrées (ou non) dans vos collections numériques actuelles?

L’article original est disponible ici : http://www.infotoday.com/cilmag/dec11/Grotke.shtml 

Publié dans Dossiers | Tags abbie grotke, library of congress, projet d'archivage web | Répondre

Ateliers de l’INA sur le Dépôt Légal du Web et son archivage

Par Chloé le 12 octobre 2011

Le mois prochain vont démarrer les ateliers de l’INA sur les différents médias contenus du web et leurs archivages. Ces 8 sessions auront lieu tous les vendredis de 14h30 à 17h30 à l’Ina, de novembre jusqu’à juin.

La direction scientifique des ateliers est assurée par Louise Merzeau, Maître de conférence en information et communication, et Audrey Baneyx, responsable de l’infocentre de Sciences-Po. Pour plus d’informations, faites un tour sur leur site.

Adresse de l’Ina : Centre Pierre Sabbagh, salle Cognacq-Jay, 83-85 rue de Patay 75013 PARIS

Vous pourrez bientôt retrouver toutes les dates de ce séminaire sur notre calendrier des évènements, prochainement mis en ligne.

Publié dans Actualité | Tags atelier, conférence, INA | Répondre

[BnF] Vidéo sur l’archivage du Web et la coopération internationale

Par Chloé le 8 octobre 2011

A l’occasion de l’assemblée générale du consortium international pour la préservation d’Internet (IIPC) en mai 2011 à laquelle a participé la BnF, une vidéo a été réalisée qui permet de découvrir les enjeux de l’archivage du Web.

(Article original disponible sur Les Actualités de la BnF)

Web Archiving and the IIPC – French from Abbey Potter on Vimeo.

Publié dans Actualité | Tags BNF, video | Répondre

Une étude sur les initiatives d’archivage du web dans le monde

Par Hans le 29 octobre 2010

L’archive du web portugais conduit actuellement une enquête pour analyser les efforts d’archivage du web dans le monde.

Les 3 questions sont :

  • Quel est le nom de votre initiative d’archivage du web (merci d’indiquer si vous souhaitez rester anonyme) ?
  • Quelle quantité de données avez-vous archivé (nombre de fichiers, espace disque occupé) ?
  • Combien de personnes travaillent sur votre archive web (en personnes / mois) ?

Tout commentaire additionnel est le bienvenu.

Envoyez vos réponses (en anglais) à l’aide de ce formulaire.

Si des résultats substantiels sont obtenus, ils feront l’objet d’une publication. Ces données pourront servir à enrichir notre projet de carte du monde des archives web, aussi nous encourageons tous les responsables de projets d’archivage web à répondre à cette enquête.

Nous vous tiendrons bien entendu au courant de la publication des résultats.

Publié dans En vrac | Tags archivage du web, enquête, recherche | Répondre

WebArchivists au Mozilla Drumbeat Festival

Par Hans le 26 octobre 2010

Nous serons présents au Mozilla Drumbeat Festival, la semaine prochaine à Barcelone.

Mozilla Drumbeat Festival 2010 Barcelona

Suite à la discussion autour d’un projet Drumbeat sur la portabilité des données personnelles, nous allons partager nos recherches sur le projet DoaB. Nous espérons rencontrer des développeurs, concepteurs et utilisateurs potentiels afin d’échanger nos points de vue sur le sujet.

Si vous souhaitez nous rencontrer, n’hésitez pas à nous contacter en laissant un commentaire ci-dessous ou sur twitter.

Publié dans Rendez-vous | Tags données personnelles, événement, Mozilla Drumbeat, portabilité des données | Répondre

Session de formation à l’Archivage Web

Par Baptiste le 13 juin 2010

Bonjour, voici un message que nous avons reçu de la part de la fondation European Archive :

La Fondation European Archive organise une session de formation de deux jours sur l’Archivage du Web à Paris les 14 et 15 Octobre 2010.

Cette formation présentera un panorama complet des méthodes d’archivage web pour les bibliothécaires, archivistes et techniciens en charge de l’archivage web.

Pour plus de renseignements :  http://service.europarchive.org/confluence/display/PU/Web+Archiving+Training+Session

Nous pensons que cette formation de deux jours peut être réellement intéressante. Julien Masanès le directeur de la fondation nous avait gracieusement reçu à l’époque où nous débutions notre projet et nous avait laissé entrevoir la complexité du sujet et la maîtrise avec laquelle il en parle.

À ne pas louper !

Publié dans Rendez-vous | Tags European Archive, événement, formation | Répondre

CR : Drumbeat / Breizh Entropy Congress

Par Baptiste le 18 avril 2010

Bonjour à toutes et à tous.

Nous voici de retour sur Paris après une journée passée au Breizh Entropy Congress. Nous sommes vraiment ravis de nous être déplacés, ça a été l’occasion de faire des rencontres, de découvrir des choses diverses et variées (de l’atelier lockpicking à la confection d’une lyre médiévale). Lire la suite de « CR : Drumbeat / Breizh Entropy Congress »

Publié dans Rendez-vous, WebArchivists | Tags Breizh Entropy Congress, compte-rendu, Drumbeat, événement, Mozilla Drumbeat | Répondre

Webarchivists, Drumbeat et Breizh Entropy Congress.

Par Baptiste le 8 avril 2010

Bonjour à toutes et à tous.

On reprend du service après une longue période bien calme. J’aurai bientôt l’occasion de vous expliquer où en est l’association Webarchivists et quels sont nos projets, le site devrait évoluer prochainement pour refléter les changements qui ont eu lieu ces derniers temps. Mais tout d’abord, place à l’actualité.

Mozilla lance en ce moment une plateforme appelée Drumbeat, qui se veut à la fois être un support pour projets libres et une façon d’évangéliser la philosophie libriste au sein du grand public. De fait, ça nous intéresse beaucoup, chez Webarchivists. C’est pourquoi on a décidé de s’investir un peu dans la promotion de cette initiative et nous aurons donc l’occasion de donner une conférence débat, dans le cadre de la manifestation Breizh Entropy Congress, qui prendra place à Rennes les 15, 16 et 17 avril prochains. Lire la suite de « Webarchivists, Drumbeat et Breizh Entropy Congress. »

Publié dans Rendez-vous, WebArchivists | Tags Breizh Entropy Congress, Drumbeat | Répondre

Bienvenue sur WebArchivists

Par Baptiste le 3 mars 2009

Un premier article en guise d’inauguration pour ce blog qui, nous l’espérons, vous permettra de découvrir ou d’aborder sous un autre angle l’archivage du web.

Nous tenterons de vous faire partager la grande aventure du projet webarchivists, en publiant régulièrement des éléments sur l’avancée du projet. Nous espérons que vos commentaires et votre participation permettront d’aiguiller les nombreux choix techniques et graphiques qui nous attendent.

Nous souhaitons que cet espace soit réellement un lieu d’échange, tout d’abord car nous avançons un peu en terrain inconnu, ensuite car c’est l’idée que nous nous faisons du projet, participatif, tourné vers les utilisateurs, et surtout parce que nous sentons que notre objectif est très actuel, sans doute avez-vous déjà été confronté à la disparition d’un site que vous aimiez, d’un service que vous utilisiez…

Nous choisissons d’ouvrir ce blog à toute personne qui souhaiterait publier un billet concernant l’archivage d’internet, ou l’un des nombreux sujets qui s’y rapportent – technologies de stockage, archivistique, formats ouverts, droit d’auteur et dépôt légal… Aussi, n’hésitez pas à entrer en contact avec nous !

À très vite, donc, pour la suite de l’aventure webarchivists.

La team WA.

Publié dans WebArchivists | Tags webarchivists | Répondre

Recherche

@webarchivists sur Twitter

  • Les réseaux sociaux feront aussi partie des sites archivés par la BnF #elections2012 http://t.co/1vceF4bI 2 weeks ago
  • " Digital history will have to be written in drips and drabs" | TechCentral http://t.co/haV6gF8O 2 weeks ago
  • Internet Memory Foundation : News : Workshop at the IIPC 2012 General Assembly : Leveraging Web Archives Research http://t.co/S46rp6h6 2 weeks ago
  • Digital Preservation Is Cultural Literacy - The Huffington Post http://t.co/xKT0XkCA 3 weeks ago
  • Z/Z/Z/ – Archiving film, animation and videogame image analysis / interview with @Daniel_Rehn and Sarah Caluag) http://t.co/xtgVSrba 3 weeks ago
  • More updates...

Langues

  • English
  • Español
  • Deutsch
  • Français

WebArchivists (WA) est une association sans but lucratif.
Le contenu de cette page, sauf indication contraire, est mis à disposition sous licence Creative Commons BY-NC-SA.

Propulsé par WordPress, habillé par Hybrid et hébergé par Typhon.

  • English
  • Español
  • Deutsch
  • Français