Subscriptions
for enrichment
15 october 2014 | La Revue POLYTECHNIQUE 08/2014 | Research

L’archivage d’un patrimoine culturel millénaire

Des archives comptant parmi les plus anciennes et les plus complètes du monde sont en voie de numérisation. Ce projet, préservant ce patrimoine, va fournir un système de navigation virtuelle à travers l’histoire vénitienne. La Fondation Lombard Odier devient partenaire financier du projet Venice Time Machine, lui donnant ainsi une impulsion décisive.

Un héritage culturel de plus d’un millénaire sera transformé en archives numériques ouvertes. Cette opération va non seulement préserver ce patrimoine mais également fournir un exceptionnel outil virtuel de navigation à travers l’histoire vénitienne. Nommé Venice Time Machine, ce projet réunit des chercheurs de l’EPFL et de l’université Ca’Foscari en Italie, chargés de développer l’infrastructure et les technologies nécessaires pour convertir en un gigantesque système d’information l’énorme quantité de manuscrits administratifs des archives d’Etat vénitiennes.
 
 
Aujourd’hui, à Venise, la Fondation Lombard Odier a décidé de rejoindre le projet en tant que partenaire financier. Elle a sélectionné Venice Time Machine pour son association exemplaire de l’art, de l’histoire et de la science. Elle soutiendra les chercheurs dans leurs efforts pour le développement des outils de numérisation et d’exploitation des données.
Le projet a été lancé il y a une année dans le cadre d’un partenariat avec l’université Ca’Foscari et les archives d’Etat portant sur les humanités numériques. Il a, à ce jour, impliqué plus d’une centaine de chercheurs et d’étudiants. Ceux-ci ont œuvré d’arrache-pied pour développer son infrastructure générale, trier et regrouper les archives en fonction de leur format, ainsi que pour définir une chaîne de travail adaptée à la numérisation de masse. Venice Time Machine est soutenu par un comité international composé d’experts renommés, issus des universités de Stanford, Columbia, Princeton et Oxford. Ces experts supervisent les efforts menés pour faire de ce projet un outil fondamental dédié à l’étude de l’histoire de Venise, ancien empire méditerranéen.
 
 
L’héritage - 80 kilomètres de documents interconnectés
Les archives d’Etat vénitiennes contiennent une énorme quantité de documents rédigés à la main, dans des langues datant de l’époque médiévale, jusqu’au XXe siècle. Ces archives occupent quelque 80 km de rayonnages, où repose un millénaire de documents administratifs, allant de certificats de décès et de déclarations d’impôts, à des cartes géographiques et des plans urbanistiques. Ces pièces sont souvent très délicates et parfois dans un état de conservation préoccupant.
La quantité, la diversité et la précision des documents de l’administration vénitienne sont uniques dans l’histoire du monde occidental. Recouper cette masse d’informations permet de reconstituer des pans entiers du passé de la cité, tels que des biographies complètes, les dynamiques politiques, voire même l’apparence de certains bâtiments ou de quartiers. «Ces documents sont intriqués de manière complexe, de sorte qu’une fois que l’on croise leurs références, on peut leur faire raconter une histoire beaucoup plus riche», explique Raffaele Santoro, directeur des archives d’Etat de Venise. «Tous les documents que nous avons ici sont en quelque sorte interconnectés».
 
La vision - Venice Time Machine dans le Cloud
Les historiens du monde entier doivent se déplacer personnellement à Venise pour consulter un nombre restreint de documents. Sera-t-il possible à l’avenir d’accéder à ces archives depuis n’importe quel ordinateur? Pourrons-nous les parcourir en utilisant des mots-clés extraits de manière automatique, sachant que la plupart sont écrites à la main? Pourra-t-on croiser les données de plans architecturaux de différentes périodes pour recomposer l’image des rues et des canaux vénitiens, tels qu’ils étaient il y a des centaines d’années?
Avec le projet Venice Time Machine, les archives trouveront sur la toile une nouvelle existence virtuelle. Le passé de la cité sera réactualisé, que ce soit par la reconstitution d’arbres généalogiques et d’organisations sociales d’autrefois, ou par la possibilité de visualiser son développement urbain. La numérisation de tous ces trésors ouvrira également de nouveaux champs de recherches. «Ce projet nous permet d’étudier des sujets jusque-là pratiquement inaccessibles», explique Dorit Raines, historienne de l’université Ca’Foscari, qui a entrepris de parcourir et recouper quelque 300’000 testaments, afin de retracer l’histoire de la propriété des biens précieux à travers les siècles.
 
Analyse de la structure d’une page
 
Reconnaissance de mots similaires dans une page

 
La technologie - Les données massives au service des archives
De nombreux défis technologiques doivent être relevés pour convertir cet exceptionnel héritage culturel en archives numériques. Il s’agit d’établir une chaîne de travail optimale pour une reconnaissance au plus juste des millions de documents. Pratiquement, la numérisation de masse implique non seulement de scanner systématiquement tous les anciens manuscrits, mais aussi de trouver le moyen de traiter automatiquement différents styles d’écriture et d’analyser plusieurs langues - dont le latin -, qui ont sensiblement évolué au fil du temps.
Compte tenu de l’énorme quantité d’informations en présence, des techniques de gestion, d’extraction et de classification de données massives sont donc essentielles. C’est pourquoi ce projet a été conçu. Les algorithmes de reconnaissance automatique de textes sont continuellement adaptés et améliorés au fur et à mesure que la numérisation avance et que s’enrichit la banque de données sur les Vénitiens et leurs lieux de vie.
«Le but est de transformer tous ces dossiers en une base numérique du passé, explique Frédéric Kaplan, professeur à l’EPFL et responsable du projet. «La bonne nouvelle, c’est que la masse de données ne représente pas un problème, mais au contraire une partie de la solution».
 

L’héritage de l’Archivio di Stato
Les archives d’Etat de Venise représentent 80 km environ de rayonnages remplis de documents administratifs, témoignant de la vie de la cité durant un millier d’années. Il s’agit notamment de certificats de décès, de testaments, de déclarations d’impôts, de plans architecturaux, de projets urbanistiques, de cartes, de guides de voyages, de traités de paix, etc. Le projet Venice Time Machine entend s’intéresser en priorité à la quantité massive d’information à disposition et aux liens existant entre les documents. Les archives d’Etat abritent de nombreux trésors d’exception. En voici quelques exemples:
  • Le document le plus ancien date du IXe siècle: il s’agit du testament d’une femme qui lègue trente paniers d’olives à ses successeurs.
  • Une carte du XIVe siècle montre les plans d’irrigation de la ville, qui prévoient de détourner l’écoulement d’eau douce de la mer, de sorte à maintenir sa salinité et la protéger des dangereux microbes aquatiques.
  • Un dessin dépeint l’attaque menée par les Vénitiens au XVIIe siècle contre les Ottomans à Athènes, qui avait malencontreusement abouti à la destruction du Parthénon.
  • Des centaines de milliers de lettres, rédigées par des ambassadeurs vénitiens en déplacement à l’étranger, témoignent des intrigues politiques, religieuses et royales en Europe et en Orient.
  • Un document écrit par Galilée, alors professeur de mathématiques à l’université de Padoue, demande un soutien financier au Sénat vénitien pour développer le télescope, dont il décrit les multiples usages.
  • Un traité, signé par Napoléon, met un terme à la République vénitienne.
Plans d’irrigation du XIVe siècle
 
Document manuscrit par Galilée
 
La numérisation grâce à la reconnaissance de texte
 
1. Le scan
Les documents papier sont transformés en images numériques de haute résolution, grâce à des scanners. Mais pour traiter des types de documents si différents et à une vitesse acceptable, une sorte de machine bien particulière est nécessaire. C’est pourquoi l’EPFL collabore avec des industriels pour développer une unité de scannage robotisée et semi-automatisée, capable de copier mille pages environ par heure. Plusieurs de ces installations seront réalisées, afin de créer une chaîne de numérisation efficace et spécifiquement adaptée aux documents anciens. Les chercheurs explorent également une autre solution, qui permettrait de scanner des livres entiers sans tourner la moindre page. Cette technique utilise le rayonnement synchrotron de rayons X, produit par un accélérateur de particules.
 
2. La transcription
La complexité et l’hétérogénéité des manuscrits font du travail de transcription une tâche ardue. Pour le compte de Venice Time Machine, des scientifiques travaillent à de nouveaux algorithmes capables de transformer des images en mots. Chaque page est divisée en sous-images, qui sont à leur tour comparées à d’autres sous-images, puis classées selon la forme des mots qu’elles contiennent. Ainsi, chaque fois qu’un nouveau mot est transcrit, il permet à des millions d’autres d’être reconnus dans la base de données.
 
3. Le traitement de texte
Le fil des mots est ensuite assemblé en phrases par un outil de traitement de texte. Pour cette étape, on utilise, entre autres, des algorithmes s’inspirant du domaine de l’analyse des structures de protéines, spécialisée dans l’identification de motifs récurrents.
 
4. Relier les données
Tous les documents des archives vénitiennes sont potentiellement liés les uns aux autres. Et c’est précisément ce qui fait leur véritable richesse. Plusieurs mots-clés relient différents types de documents, facilitant ainsi les recherches. Le recoupement d’imposantes quantités de données permet d’organiser l’information dans d’immenses graphiques de données interconnectées. Les mots-clés présents dans les phrases sont reliés les uns aux autres dans des graphiques, permettant ainsi de recouper une grande quantité d’informations et d’en faire émerger de nouvelles.
 
Pour les générations futures
La Fondation Lombard Odier est fière de rejoindre le projet Venice Time Machine en tant que partenaire financier. Ce soutien s’inscrit dans le cadre du programme «Fondation Lombard Odier – EPFL venture fund », dont le but est d’initier, de financer et de développer des initiatives stratégiques ambitieuses de l’Ecole. «Ce projet fait écho à notre histoire et à ce que nous souhaitons transmettre aux générations futures en tant qu’institution fondée en 1796», déclare Thierry Lombard, président de la fondation. «Il fait œuvre de pionnier dans le domaine des données massives et offre des opportunités extraordinaires et significatives pour notre civilisation». Selon le président de l’EPFL, Patrick Aebischer, «cette collaboration est née d’une envie partagée de rendre hommage à la mémoire, passée ou à venir, grâce à la numérisation et à la gestion des données de masse».
 
À propos de la Fondation Lombard Odier
Depuis sa création à Genève en 1976, Lombard Odier a eu pour vocation première de préserver et de faire fructifier les biens et les valeurs qui lui sont confiés, afin de les transmettre aux générations futures. La Fondation est une institution d’utilité publique, membre de l’association SwissFoundations et de l’European Foundation Center.
Sa longue tradition d’engagement philanthropique se prolonge aujourd’hui avec ses partenaires. L’accent est mis sur l’innovation à travers des collaborations privilégiées avec des institutions clés comme l’EPFL pour le monde de la recherche, l’ICRC pour l’humanitaire, ventura kick pour l’émergence de nouveaux talents et technologies ou le WWF pour le développement durable.
 

Fondation Lombard Odier
Mara de Monte, cheffe du projet
Tél.: 022 709 15 04
m.demonte@lombardodier.com
 
EPFL
Frederic Kaplan, directeur du projet
Tél.: 021 693 02 53
frederic.kaplan@epfl.ch
 
Université Ca’ Foscari
Federica Ferrarin, responsable communication
Tél.: +39 041 234 81 18
comunica@unive.it