Archivage de page web : Sauvegarder les informations partagées sur internet


Guide / lundi, février 18th, 2019

Internet a lancé une ère sans précédent de partage de connaissances, de créativité, d’innovation et de connexion. Certaines informations collectées par les institutions ne sont d’ailleurs disponibles que sur la toile. Les pages Web sont pourtant très dynamiques et changent constamment. L’archivage sur www archive-nl permet de réaliser des captures en temps réel du contenu de ces sites pour assurer leur sauvegarde.

Enregistrer tout le contenu d’une page web

Les captures d’écran peuvent suffire à rappeler rapidement à quoi ressemble une page Web. Des images telles que des captures d’écran peuvent toutefois être facilement modifiées et manipulées. Elles ne peuvent donc pas être utilisées comme preuve. De plus, les captures d’écran sont statiques. Il ne peut y avoir aucune interaction avec la page. Cela inclut le défilement, le survol et les clics sur des liens. Vous ne pouvez même pas établir à quelles pages Web les liens sur la page se rapportent.

Les archives Web enregistrent quant à elle l’intégralité du contenu d’une page Web. Cela inclut le code source HTML, les images incorporées, les feuilles de style ou la source JavaScript. Lors de la lecture, l’utilisateur peut interagir avec la page archivée. Il peut cliquer sur des liens pour explorer le site auquel la page Web était connectée.

Il faut aussi noter que les archives Web publiques sont créées et stockées par des organisations d’archives indépendantes. L’une des plus populaires à ce titre est Internent Archive. Il y a donc lieu d’espérer que le contenu de ces archives Web n’a pas été altéré ni manipulé de façon malveillante.

Modifications nécessaires sur la page d’origine

L’archivage d’une page Web est très différent de celui d’un objet physique ou même d’un fichier statique tel qu’un PDF. Les pages Web sont devenues de plus en plus complexes au fil des ans. Beaucoup d’entre elles sont chargées de centaines ou de milliers d’images, de feuilles de style et de ressources JavaScript. Ces derniers peuvent inclure des publicités et des suivis.

Ces ressources JavaScript sont exécutées par les navigateurs Web. Bon nombre de leurs interactions ne peuvent pas être capturées par toutes les archives Web. La nature incorporée et liée du HTML complique sérieusement la relecture directe de pages Web archivées. L’archivage appelle ainsi à quelques transformations de la page Web d’origine. Cela inclut la réécriture des liens et des emplacements des ressources incorporées.

A lire aussi : Les 5 meilleurs sites Internet Archive Wayback Machine.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *