Fiche n° 7. Le 27 décembre 2006Bernard Coüasnon. Archivage numérique des documents anciens. Nouveaux systèmes d’accès aux documents manuscrits numérisés. In Pérenniser le document numérique, Séminaire INRIA, Amboise, 2-6 octobre 2006, p. 147-170.
RésuméBernard Coüasnon présente des outils de recherche s’appuyant sur la reconnaissance de documents et l’annotation collective. Des plates-formes sont déjà mises en œuvre, quelques unes sont décrites dans l’article.
En premier lieu, le constat est fait que les services d’archives traitent une masse de documents indexés, catalogués, souvent manuscrits qui représentent un nombre de pages important, des millions de pages à compulser pour trouver l’information ce qui est fastidieux comparativement à internet où l’accès à l’information est immédiat. Leur contenu ne peut pas être décrit manuellement car c’est un travail trop coûteux en personnel et en temps.
Par ailleurs, le nombre de lecteurs dans les salles de lecture des archives est en constante augmentation allant jusqu’à poser des problèmes de place. De plus, un document papier est consultable uniquement par une personne et à la condition qu’il soit en bon état.
Donc des campagnes de numérisation pour le préservation numérique des documents, une diffusion via le web, un accès simultané et un feuilletage virtuel ont été réalisées. Mais le
problème d’accès au contenu du document reste identique par rapport au document original.
C’est pour cela que de nouveaux outils pour accéder aux documents à partir de leur contenu sont créés. Une précision cependant, des systèmes génériques de reconnaissance de documents sont définis ensuite on les adapte à chaque nouveau type de document, en définissant une description du type de document à l’aide du langage EPF sinon cela serait beaucoup trop onéreux. Il n’existe pas encore un système qui permettent cette reconnaissance sur des documents pour lesquels plusieurs difficultés existent ces documents sont loin d’être identiques, ils sont dégradés, une partie des informations qu’ils contiennent n’est pas communicable à la date de la campagne de numérisation et doit être cachée. Chaque type de document demande donc un système de reconnaissance. DMOS est une méthode générique de reconnaissance de structures de documents s’appuyant sur EPF, un langage grammatical de description de documents structurés. Grâce à ce langage, il est possible de décrire un document graphiquement et syntaxiquement, voire sémantiquement, puis à partir de cette description, de produire automatiquement un nouveau système de reconnaissance adapté.
Pour cela il faut associer des informations que l’on appelle des annotations, qui sont une indexation permettant de sélectionner automatiquement des documents à partir de leur contenu, aux images des documents.
Les annotations représentent le contenu du document. Il existe deux types d’annotations :
- les annotations géométriques décrivent la structure de la page ou localisent l’information dans la page. Il faut que le document soit structuré comme par exemple les formulaires, les tableaux ou les textes organisés en paragraphe,
- les annotations textuelles qui peuvent être faites automatiquement par une reconnaissance de documents et d’écriture manuscrite ou alors collectivement sur internet grâce à la participation des lecteurs au cours de leur consultation.
La production automatique d’annotations est nécessaire car l’utilisation de l’OCR n’est pas possible car l’information contenue dans les documents est manuscrite, non uniforme, le vocabulaire est hétéroclite, non choisi, non indexé et les documents sont abîmés ou tâchés.
La production d’annotation manuelles collectives est réalisée par les lecteurs au cours de leur consultation. Les annotations saisies permettent un accès direct à l’information, chaque lecteur peut comparer les informations contenues avec le document numérisé. Il n’est pas utile de vérifier, de valider ces annotations. Ce qui est la différence essentielle avec le dépouillement systématique qui doit être exhaustif, contenir le minimum d’erreurs, dont l’ information recueillie est contenue dans une base de données qui ne donne pas accès au document lui-même et dont la vérification et la validation représentent un travail très lourd.
Ces annotations collectives peuvent être soit réalisées en interne, soit par des lecteurs sélectionnés, soit par tout lecteur internaute. De plus elles sont organisées et systématiques ou aléatoires au fur et à mesure de la consultation des lecteurs.
En ce qui concerne le matériel, la plate-forme a besoin d’une architecture classique : un serveur web (Apache) avec un serveur de servlet (Tomcat). Un servlet Java accède à une base de données relationnelle (PostGreSQL) pour stocker les annotations et les envoie au client (une applet Java fonctionnant dans un navigateur).
Cela permet une lecture du document et des annotations en cours de consultation.
La structure d’annotations autorisée est fixée par une DTD (document type definition).
Un administrateur donne différents droits au lecteur : ajout/modification de ses propres annotations, modification/suppression des annotations des autres, etc. Dans une démarche d’annotation plus systématique, la plate-forme permet au lecteur de rechercher des pages non encore annotées.
Cela conduit à une recherche structurée ou plein texte sur l’ensemble des annotations ou sur celles produites par un lecteur. On peut aussi indiquer la communicabilité des documents, mettre un masque pour les informations confidentielles par exemple pour les informations médicales.
D’autre part, il est possible de tester en salle de lecture des Yvelines un nouveau type d’ordinateur, il s’agit d’un poste de lecteur orienté stylo : en plus des différentes fonctionnalités d’un poste normal il possède un écran plat posé sur un bureau sur lequel on peut annoter avec un stylo numérique.
Plusieurs exemples d’application pour des documents d’archives sont présentés sous forme de copies d’écran : registres paroissiaux et d’état civil, registres matricules (recrutement militaire) et des travaux de recherche sont en cours sur les listes nominatives de recensement de population, l’état civil et les journaux anciens. Les patronymes manuscrits qui sont l’information la plus souvent recherchée, sont représentés sous forme de graphèmes
Lors d’une recherche sur un nom, la recherche s’effectue sur les graphèmes les plus proches.
Toutes ces annotations vont servir aux autres lecteurs.
CommentaireCet article m’a intéressé parce qu’il traite d’un problème récurrent dans les services d’archives qui est l’accès au contenu de tous ces documents numérisés. Ce qui est remarquable avec les outils décrits précédemment est leur capacité à traiter de très gros volumes de données ou de texte. Je pense que cela pourrait faire un sujet de stage.
Quelques questions me viennent à l’esprit :
- est-ce que les systèmes créent leur propre index de noms propres ?
- quel est leur coût ?