Citelle et documentation numérique

dimanche 31 décembre 2006

-
-
Figoblog
http://www.figoblog.org
Un blog sur Internet, la bibliothéconomie et la confiture de figues
-
Bonnes fêtes 2.0
http://www.figoblog.org/document1621.php
Tout savoir sur RSS

vendredi 29 décembre 2006

8.Nouveaux outils et documents audiovisuels : les innovations du web sémantique

Fiche n° 8. Le 28 décembre 2006

TRONCY Raphaël. Nouveaux outils et documents audiovisuels : les innovations du web sémantique. In Spécial image et audiovisuel. Documentaliste – Sciences de l’infomration, vol. 42, n° 6, décembre 2005, p. 392 à 404.

Résumé
Le web sémantique constitue à présent un cadre de référence pour concevoir des outils et des méthodes permettant d’instrumenter les documents pour les publier, les transmettre et les exploiter sur le web. Il permettra à terme une plus grande précision dans les requêtes et les réponses, l’échange et le partage des ressources.
Le web sémantique c’est avant tout des langages et des outils permettant de représenter formellement de la connaissance afin que la machine ait accès au sens des documents. En utilisant divers logiciels l’utilisateur doit pouvoir afficher le document mais aussi accéder à son contenu grâce à la dotation d’annotations pour les ressources documentaires. On doit donc créer des documents structurés par des langages qui permettront d’exprimer la connaissance, et de décrire des relations entre les connaissances.

La difficulté de décrire le contenu des images est compensé par les documentalistes qui utilisent un langage documentaire, ils peuvent donc automatiser certaines descriptions surtout car ils connaissent leur contexte d’utilisation ce qui leur permet de retrouver l’image recherchée mais le lecteur qui n’a pas cette connaissance la trouvera rarement.

Actuellement les professionnels de l’information de l’audiovisuel veulent bénéficier des fonctionnalités proposées par le web sémantique, surtout que les technologies mises en œuvre dans le web sémantique sont réellement ouvertes : il st toujours possible d’ajouter des propriétés à une ressource, qu’elle ait été créée par nous ou non. Son utilisation est possible par le langage RDF (1) qui permet le partage de l’information entre humains et machines et le langage OWL (2) qui permet de définir des ontologies sur le web. Les ontologies fournissent le vocabulaire propre à un domaine de connaissance et fixent le sens des concepts (ou classes) et des relations (ou propriétés) entre ceux-ci permettent de modéliser les connaissances d’un domaine pour une certaine communauté.

(1) RDF ( Resource Description Framework) est un langage fondé sur les notions de ressources et de relations entre ressources. Un triplet exprime une relation p entre un sujet s et un objet o. Il peut être utilisé internationalement pour annoter des documents écrits dans des langages non structurés ou comme une interface pour des documents écrits dans des langages déjà structurés, des bases de données par exemple. Les documents RDF peuvent être consultés hors ligne et il n’y a plus de liens cassés, comme il peut y en avoir avec le web actuel. Les termes utilisés en format RDF sont modélisés, classés et décrits dans une ontologie.

(2) Le langage OWL ( Ontology Web Language) compatible avec RDF permet de représenter les ontologies. Il a pour but d’étendre RDF en décrivant plus précisément les ressources utilisées pour étiqueter les graphes. Pour cela, il fournit un mécanisme permettant de spécifier les classes dont les instances sont des ressources, mais aussi des propriétés.

Tout langage d’ontologie est basé sur le fait de signifier l’appartenance d’un objet à une catégorie, de déclarer la relation de généralisation entre catégories et de typer des objets reliés par une relation. Ce langage est simple ou complexe selon que l’on définira les relations utilisées simples ou complexes. C’est aussi un langage ouvert qu’il sera possible d’enrichir avec une autre ontologie.

Les langages du web sémantique sont utilisables dans la pratique documentaire dont celle de la description des images. Ils ont comme objectif principal de représenter de la connaissance sur le web de manière à ce que les machines puissent plus facilement comprendre et manipuler l’information qui y est présente
Le Dublin Core est un vocabulaire (ou une ontologie) minimal(e) pour l’indexation des pages web avec quinze champs auxquels on associe des valeurs qui peuvent être libres ou contrôlées par des formats de données bien définis par exemple le RFC 3066 pour le nouveau codage des langues.
Visual Resource Association (VRA) est une organisation réunissant de nombreuses universités américaines, galeries et instituts d’arts. Elle a développé une ontologie pour décrire à la fois les œuvres d’art et leur représentation visuelle. La version actuelle (3.0) fournit un ensemble de dix-sept descripteurs qui peuvent être précisés par des attributs, pour décrire les deux types d’entité que sont l’œuvre et l’image
Simple Knowledge Organization System (SKOS) a pour objectif de fournir un modèle et le vocabulaire permettant de représenter la structure et le contenu de schémas conceptuels tels que des thésaurus, des schémas de classification, des glossaires, des terminologies spécialisées ou tout autre type de vocabulaire contrôlé. SKOS permet de définir des concepts et de les relier entre eux en utilisant des propriétés de nature différentes se rapportant au champ lexical, au contexte ou l’appartenance à une collection.

Un premier exemple d’application est la description d’une collection d’images représentant des peintures célèbres d’un musée : l’ontologie définie par VRA est utilisée pour distinguer l’œuvre physique (la peinture) de sa représentation image. Les informations générales sont décrites à l’aide de propriétés VRA, mais elles auraient pu tout aussi bien l’être en utilisant les métadonnées définies par le Dublin Core. Les valeurs de certaines propriétés renvoient également à d’autres vocabulaires contrôlés.
Le deuxième exemple concerne l’accès par le grand public au patrimoine audiovisuel public. Le système proposé doit pouvoir faire le lien entre le contenu audiovisuel et sa description.
Les documentalistes indexent les documents audiovisuels avec un langage documentaire ce qui pose problème à l’utilisateur qui va utiliser un langage libre. La norme MPEG-7 apporte un ensemble de descripteurs dont les valeurs permettent de décrire des caractéristiques physiques audiovisuelles, un ensemble de schémas de descriptions qui permettent d’organiser les descripteurs dans des modèles pour les objets multimédias et un langage de définition des descriptions qui permet d’encoder le tout. Pourtant tous les besoins de descriptions ne sont pas pris en compte dans ce modèle par exemple pour décrire la structure d’un document. De plus la sémantique de ces descripteurs doit être exprimé dans un langage formel et utilisable par la machine pour véritablement permettre la manipulation du contenu multimédia par les machines. Il est donc nécessaire de combiner les langages MPEG-7 et OWL pour produire des descriptions de documents audiovisuels. L’ontologie de l’audiovisuel permet ainsi de normaliser le sens des termes couramment utilisés pour décrire la structure et la mise en forme de ces documents. Les concepts sont ensuite formalisés et leur sémantique est accessible dans un système informatique.

Commentaire
Les exemples décrits dans cet article facilitent la compréhension de termes théoriques. L’important est d’appréhender ces notions de relations, d’entités, de catégories ce qui devrait accroître les possibilités de recherche simples mais surtout complexes ou de manipulation des documents audiovisuels ou autres avec le web sémantique.

mercredi 27 décembre 2006

6.L’accès aux catalogues des bibliothèques à l’âge des bibliothèques numériques et des moteurs de recherche : écarts, perturbations, mutation ?

fiche de lecture n° 4. Le 20 octobre 2006

Dominique Lahary. L’accès aux catalogues des bibliothèques à l’âge des bibliothèques numériques et des moteurs de recherche : écarts, perturbations, mutation ? In Les bibliothèques numériques, 2005, p. 87 à 105.

Résumé :
Dans une bibliothèque, l’usager va le plus souvent, accéder à l’information par la recherche dans les rayonnages, ensuite par une demande auprès du personnel, en dernier lieu par le recours au catalogue. Ce dernier est passé du stade imprimé et diffusé sur un territoire défini dont la mise à jour était difficile, au catalogue sur fiche dont l’accès à distance n’était plus possible mais cela facilitait la mise à jour. De plus l’important étant de trouver l’information, ces catalogues papier permettaient une recherche approximative plus aisée malgré les défauts que pouvaient représenter les restrictions des notices descriptives ou des accès.

L’informatisation des catalogues souvent en mode web, a été réalisé de façon uniforme dans les bibliothèques. Après moultes études comparatives sur le net, un catalogue informatisé devait reprendre la classification de la bibliothèque qui est en fait sur place, le classement dans les rayonnages. Il faut proposer un outil de recherche ressemblant au classement dans les rayonnages par thèmes en plus de la recherche classique par titre, auteurs , mots-matières.
Par ailleurs, le lecteur ne doit pas avoir à traduire sa question en langage documentaire. Il faut qu’il indique comme dans le cas des moteurs de recherche un ou plusieurs mots pour lesquels il aura un certain nombre de réponses. Les logiciels libres et commerciaux ont d’ailleurs évolués dans ce sens. Ce groupe de travail reconnaît ne pas avoir trouvé le système sans défaut car il reste encore plusieurs difficultés dont notamment la rapidité d’utilisation pour les internautes qui souhaitent avoir leur réponse en « deux clic ». Elle a permis de se rendre compte que les interrogations en langage naturel ne correspondait pas à l’indexation en langage documentaire ce qui conduit à des réponses trop nombreuses ou inexistantes. Entre ces deux maux le bruit et le silence : quel est celui recherché par l’usager ? Les catalogues informatisés ont apporté quelques avantages en cas de réponses multiples, elles sont classées par ordre de pertinence, la recherche peut être le résultat du croisement de plusieurs critères, d’une recherche sur plusieurs champs simultanément et d’approximation phonétique, d’un accès à distance sans limitation géographique par contre le défaut le plus important est la restriction de la recherche par hasard.

Commentaires :
Les sujets de discussion, de réflexion induits par cet article portent sur la notion de rapidité, d’urgence dans les services culturels, tous les organismes ont-ils les moyens matériels, en personnel pour évoluer vers l’informatisation, la suppression des catalogues papier est-elle indispensable pour que les lecteurs aillent vers l’informatique, tout le monde a-t-il la capacité d’utiliser l’ordinateur, doit-on demander aux utilisateurs de revenir avec une personne sachant manipuler l’ordinateur, est-ce aux personnels responsables de l’accueil du public de se transformer en formateur pour un public très divers ?
D’autre part, la mise sur internet des catalogues, des répertoires a fait augmenter le nombre des consultations sur place, parmi le public certains ne savaient pas où trouver l’information dans les catalogues papier. L’interrogation simultanée des catalogues de plusieurs organismes est rendue possible par des systèmes innovants. Un surcroît d’activité est due aux personnes qui ne sachant pas bien utiliser les fonctionnalités de leur ordinateur, téléphonent pour obtenir de l’aide d’un personnel pas toujours formé. Par contre un gain de temps et une facilité de travail sont perceptibles car les fiches ne doivent plus être tenues à jour, ni saisies en plusieurs exemplaires, ni rangées dans les différents tiroirs auteurs, mot-matières. Ces notices peuvent même être récupérer sur le site de la BNF. Reste un point primordial, le budget que les collectivités sont prêtes à allouer pour l’informatisation qui ne représente pas seulement le coût des postes mais aussi le développement d’un réseau informatique performant et un suivi adéquat.

Voir aussi fiche de lecture de Doriane : http://bdandagry.wordpress.com/2006/11/26/5-dominique-lahary-l%e2%80%99acces-aux-catalogues-des-bibliotheques-a-l%e2%80%99age/

7.Nouveaux systèmes d’accès aux documents manuscrits numérisés

Fiche n° 7. Le 27 décembre 2006

Bernard Coüasnon. Archivage numérique des documents anciens. Nouveaux systèmes d’accès aux documents manuscrits numérisés. In Pérenniser le document numérique, Séminaire INRIA, Amboise, 2-6 octobre 2006, p. 147-170.

Résumé
Bernard Coüasnon présente des outils de recherche s’appuyant sur la reconnaissance de documents et l’annotation collective. Des plates-formes sont déjà mises en œuvre, quelques unes sont décrites dans l’article.
En premier lieu, le constat est fait que les services d’archives traitent une masse de documents indexés, catalogués, souvent manuscrits qui représentent un nombre de pages important, des millions de pages à compulser pour trouver l’information ce qui est fastidieux comparativement à internet où l’accès à l’information est immédiat. Leur contenu ne peut pas être décrit manuellement car c’est un travail trop coûteux en personnel et en temps.
Par ailleurs, le nombre de lecteurs dans les salles de lecture des archives est en constante augmentation allant jusqu’à poser des problèmes de place. De plus, un document papier est consultable uniquement par une personne et à la condition qu’il soit en bon état.
Donc des campagnes de numérisation pour le préservation numérique des documents, une diffusion via le web, un accès simultané et un feuilletage virtuel ont été réalisées. Mais le
problème d’accès au contenu du document reste identique par rapport au document original.
C’est pour cela que de nouveaux outils pour accéder aux documents à partir de leur contenu sont créés. Une précision cependant, des systèmes génériques de reconnaissance de documents sont définis ensuite on les adapte à chaque nouveau type de document, en définissant une description du type de document à l’aide du langage EPF sinon cela serait beaucoup trop onéreux. Il n’existe pas encore un système qui permettent cette reconnaissance sur des documents pour lesquels plusieurs difficultés existent ces documents sont loin d’être identiques, ils sont dégradés, une partie des informations qu’ils contiennent n’est pas communicable à la date de la campagne de numérisation et doit être cachée. Chaque type de document demande donc un système de reconnaissance. DMOS est une méthode générique de reconnaissance de structures de documents s’appuyant sur EPF, un langage grammatical de description de documents structurés. Grâce à ce langage, il est possible de décrire un document graphiquement et syntaxiquement, voire sémantiquement, puis à partir de cette description, de produire automatiquement un nouveau système de reconnaissance adapté.

Pour cela il faut associer des informations que l’on appelle des annotations, qui sont une indexation permettant de sélectionner automatiquement des documents à partir de leur contenu, aux images des documents.
Les annotations représentent le contenu du document. Il existe deux types d’annotations :
- les annotations géométriques décrivent la structure de la page ou localisent l’information dans la page. Il faut que le document soit structuré comme par exemple les formulaires, les tableaux ou les textes organisés en paragraphe,
- les annotations textuelles qui peuvent être faites automatiquement par une reconnaissance de documents et d’écriture manuscrite ou alors collectivement sur internet grâce à la participation des lecteurs au cours de leur consultation.

La production automatique d’annotations est nécessaire car l’utilisation de l’OCR n’est pas possible car l’information contenue dans les documents est manuscrite, non uniforme, le vocabulaire est hétéroclite, non choisi, non indexé et les documents sont abîmés ou tâchés.

La production d’annotation manuelles collectives est réalisée par les lecteurs au cours de leur consultation. Les annotations saisies permettent un accès direct à l’information, chaque lecteur peut comparer les informations contenues avec le document numérisé. Il n’est pas utile de vérifier, de valider ces annotations. Ce qui est la différence essentielle avec le dépouillement systématique qui doit être exhaustif, contenir le minimum d’erreurs, dont l’ information recueillie est contenue dans une base de données qui ne donne pas accès au document lui-même et dont la vérification et la validation représentent un travail très lourd.
Ces annotations collectives peuvent être soit réalisées en interne, soit par des lecteurs sélectionnés, soit par tout lecteur internaute. De plus elles sont organisées et systématiques ou aléatoires au fur et à mesure de la consultation des lecteurs.
En ce qui concerne le matériel, la plate-forme a besoin d’une architecture classique : un serveur web (Apache) avec un serveur de servlet (Tomcat). Un servlet Java accède à une base de données relationnelle (PostGreSQL) pour stocker les annotations et les envoie au client (une applet Java fonctionnant dans un navigateur).
Cela permet une lecture du document et des annotations en cours de consultation.
La structure d’annotations autorisée est fixée par une DTD (document type definition).
Un administrateur donne différents droits au lecteur : ajout/modification de ses propres annotations, modification/suppression des annotations des autres, etc. Dans une démarche d’annotation plus systématique, la plate-forme permet au lecteur de rechercher des pages non encore annotées.
Cela conduit à une recherche structurée ou plein texte sur l’ensemble des annotations ou sur celles produites par un lecteur. On peut aussi indiquer la communicabilité des documents, mettre un masque pour les informations confidentielles par exemple pour les informations médicales.
D’autre part, il est possible de tester en salle de lecture des Yvelines un nouveau type d’ordinateur, il s’agit d’un poste de lecteur orienté stylo : en plus des différentes fonctionnalités d’un poste normal il possède un écran plat posé sur un bureau sur lequel on peut annoter avec un stylo numérique.

Plusieurs exemples d’application pour des documents d’archives sont présentés sous forme de copies d’écran : registres paroissiaux et d’état civil, registres matricules (recrutement militaire) et des travaux de recherche sont en cours sur les listes nominatives de recensement de population, l’état civil et les journaux anciens. Les patronymes manuscrits qui sont l’information la plus souvent recherchée, sont représentés sous forme de graphèmes
Lors d’une recherche sur un nom, la recherche s’effectue sur les graphèmes les plus proches.
Toutes ces annotations vont servir aux autres lecteurs.

Commentaire
Cet article m’a intéressé parce qu’il traite d’un problème récurrent dans les services d’archives qui est l’accès au contenu de tous ces documents numérisés. Ce qui est remarquable avec les outils décrits précédemment est leur capacité à traiter de très gros volumes de données ou de texte. Je pense que cela pourrait faire un sujet de stage.
Quelques questions me viennent à l’esprit :
- est-ce que les systèmes créent leur propre index de noms propres ?
- quel est leur coût ?

lundi 18 décembre 2006

8.Etat civil et registres paroissiaux des Archives départementales de Yvelines

Conditions d’évaluation
Evaluation faite 18 décembre 2006, avec un micro-ordinateur équipé de windows xp et le navigateur internet explorer version 6.

Présentation de la collection
Nom de la collection : Etat civil et registres paroissiaux des Archives départementales de Yvelines
URL : http://img-dad.cg78.fr/bin/Asp_Archives/anummain.asp
Domaine : généalogie
Responsables/collaborateurs : Archives Départementales des Yvelines
Chronologie du projet : 1997-2003
Objectifs de la collection : Permettre la consultation des actes d’état civil et des tables décennales en ligne
Public visé : tout public

Organisation intellectuelle de la collection
Description du fonds : 2,4 million de pages numérisées d’après des microfilms d’état civil pour des actes du XVIème au XIXème siècle et de tables décennales jusqu’au début du vingtième siècle pour les communes des Yvelines et de quelques unes de l’ancienne Seine et Oise au gré des limites territoriales.
Présentation du fonds et qualité des textes introductifs : bonne présentation du choix des documents numérisées mais qui pourrait être complété par un historique de l’état civil.
Cohérence de la sélection documentaire : oui car ce sont les actes d’état civil même si certaines vues des microfilms ont un lien indirect (les curés des paroisses ont parfois laissé leurs propres annotations).
Base de donnée commune ou propre : propre
Indexation : liste d'autorité
Métadonnées internes ou externes : métadonnées externes
Modes d’interrogation de la base : Sur la gauche de l’écran, la fenêtre « critères de recherche » permet une interrogation par nom de commune, liée a une deuxième fenêtre d’interrogation qui permet de trouver une commune avec l’initiale ou les premières lettres de son nom ou permet d’utiliser la liste déroulante, idem par nom de commune ancienne ; par autres institutions, par types d’ actes (BMS, NMD, TD) et par dates. La recherche peut être mono ou multicritères. Les résultats peuvent être triés par date, commune, cote ou acte. Si le nombre des résultats est supérieur à 200, la liste ne s’affiche pas, il faut absolument affiner la recherche.
L’accès à une nouvelle recherche est simple.
Statut juridique des documents : les documents sont libres de droit et communicables au public car antérieurs à 1860, selon les recommandations de la CNIL.
Nombre et pertinence des liens vers d’autres sites ; inscription dans un environnement intellectuel : Il est conseillé de se reporter à la base de dépouillement des actes de mariages réalisés par le cercle Généalogique de Versailles et des Yvelines et l’Association Généalogique et historique des Yvelines Nord pour compléter la recherche généalogique.

Consultation des documents
Description technique : Le document est numérisé en BMP.
Affichage : Deux modes d’affichage dont l’accès est facilité grâce à un livre ouvert dont les pages tournent et qui à pour légende « voir les images » :
- Affichage d’une page puis on feuillète de page en page (en bas à gauche alors que la barre des tâches est en haut à gauche), il est possible de se déplacer dans la page avec un ascenseur, de faire disparaître ou apparaître la barre des tâches mais ce n’est pas intuitif.
Le zoom s’utilise sur tout le document ou sur une partie sélectionnée, en plus une loupe est disponible pour grossir chaque lettre. Un ajustement en largeur, hauteur dans la page est prévu.
Mais à chaque changement de page, la visualisation de la nouvelle page est dans le format d’origine pas de maintien du zoom ou de l’ajustement de la page.
- Affichage de deux pages, pour cet affichage, il s’agit seulement de consulter plus vite le document car aucune fonctionnalité n’est accessible et la lecture à l’écran est difficile.
Lors de la visualisation du document, il n’apparaît plus aucun renseignements sur celui-ci.
Logiciel de visualisation : viewONE version 3.0.54 (web), Java imaging software produit par Daeja Image Systems. Enregistrement de l’applet sur l’ ordinateur.
Lisibilité des documents : bonne lisibilité
Fonctionnalités proposées en plus de la visualisation : L’enregistrement de l’image est réalisable en format BMP mais aussi en jpeg, en tiff.
Pour l’impression, le choix est possible entre noir et blanc ou couleur. On imprime la page entière ou la zone sélectionnée à l’écran, une procédure explique l’impression sur la page d’accueil.La feuille imprimée contient l’acte ainsi que la cote, le nom de la commune le type d’acte, la date, le numéro de la page.
Possibilité d’imprimer la notice du document qui comporte le nom de la commune actuelle, celui de l’ancienne commune, la paroisse, l’institution, la collection, la cote, l’acte, les dates, le nombre de vues, le commentaire tous les champs ne sont pas renseignés.

Caractéristiques du site
Métadonnées : aucune
Rapidité et simplicité de la navigation : La navigation est simple pour un document mais elle est longue pour pouvoir consulter le document suivant ou revenir aux résultats de la recherche.
Aide à la navigation : Sur la page d’accueil sont indiqués les différentes configurations possibles des ordinateurs et le résultat en termes de rapidité d’accès.
Multilinguisme des instructions : non
Qualité du graphisme, lisibilité et confort visuel des pages : présentation simple mais précise des résultats de la recherche, la notice du document et l’accès au document sont plus conviviaux.
Possibilité de communication : Sur la page d’accueil « nous prévenir », l’utilisateur peut intervenir pour signaler les erreurs remarquées.
Adaptation du site aux personnes handicapées : non

Mon avis
Les fonctionnalités sont semblables à celles de nombreux services d’archives. Pourtant les archives départementales des Yvelines testent d’intéressants outils pour que la lecture de ces actes d’état civil ne soient plus un laborieux feuilletage de pages de registre (voir dans la bibliographie, les références de l’ouvrage « Pérenniser le document numérique »)

7.Project Gutenberg

Conditions d’évaluation
Evaluation faite le 17 décembre 2006, avec un micro-ordinateur équipé de windows xp et le navigateur internet explorer version 6.

Présentation de la collection
Nom de la collection : Project Gutenberg
URL : http://www.gutenberg.org/wiki/Main_Page
Domaine : Littérature mondiale.
Responsables/collaborateurs : Michael Hart en est le fondateur, de nombreux volontaires en sont les constructeurs.
Chronologie du projet : Le projet s'enrichit depuis 1971
Objectifs de la collection : Le Project Gutenberg se donne pour mission de mettre gratuitement le plus grand nombre possible de textes électroniques à la disposition du plus grand nombre possible de lecteurs.
Public visé : tous les publics du monde.

Organisation intellectuelle de la collection
Description du fonds : 20 000 œuvres littéraires mondiales du domaine public réparties en trois grands secteurs : la littérature de divertissement = light literature, la littérature sérieuse = heavy literature et la littérature de référence = reference literature.
Présentation du fonds et qualité des textes introductifs : l’histoire et le développement de ce projet sont très largement expliqué dans Gutenberg:The History and Philosophy of Project Gutenberg by Michael Hart
Cohérence de la sélection documentaire : ouvrages publiés de la littérature mondiale
Base de donnée commune ou propre : base de données propre
Indexation : Classification de la Library of Congress
Métadonnées internes ou externes : métadonnées internes
Modes d’interrogation de la base :
- Interrogation simple : par auteur (les quatre premières lettres donnent accès à la liste des auteurs dont le nom commence par ces quatre lettres, par titre (mot(s) du titre) ou par numéro du texte.
- Interrogation simple sur la page d’accueil du catalogue : par auteur avec un accès par l’initiale, par titre avec un accès par l’initiale, par langue : on clique sur la langue choisie, par type de documents : on clique sur le type de document choisi ou par ouvrages récemment mis en ligne : le jour même, la semaine ou le mois précédent.
- Interrogation avec les moteurs de recherche Yahoo et Google.
- Interrogation avancée (multicritères) : nom de l’auteur = Author ; titre = Title ; sujet = Subject, langue dans laquelle l’ouvrage est publié = Language ; type de document = Category ; grands thèmes de la classification de la Library of Congress = LoCC ; Format = filetype ; numéro du document = Etext-No ; full text.
- interrogation par catégories d’ouvrages.
Les résultats s’affichent dans un tableau, (dans une liste de résultats pour les moteurs de recherche) contenant le numéro du document, l’indication d’un fichier sonore, le titre, la langue ensuite un clic sur le nom de l’auteur renvoie à la liste des documents de cet auteur, un clic sur le titre amène à la fenêtre de consultation.
La notice de l’ouvrage contient le nom de l’auteur, le titre, la langue, la classification de la Library of Congress, le numéro , la date de mise en ligne, les droits de copyright ensuite un autre tableau indique les formats des fichiers, les formats d’encodage, de compression, la taille, les liens possibles
Statut juridique des documents : Aux Etats-Unis les livres sont libres de droits mais il faut vérifier le copyright pour les autres pays ?
Nombre et pertinence des liens vers d’autres sites ; inscription dans un environnement intellectuel : non

Consultation des documents
Description technique : format ascii pour que les textes puissent être lus quels que soient la machine et le logiciel utilisé.
Affichage : : le document s’affiche à l’écran à l’aide du bouton « read on ligne », on peut passer de page en page = next page, revenir à la page précédente = previous page, aller à un numéro de page = goto page, à la notice du document = download book,
à la liste des documents consultés = My Bookmarks.
Logiciel de visualisation : intégré.
Lisibilité des documents : les documents sont lisibles, on peut agrandir ou réduire la taille du texte avec les fonctionnalité d’internet.
Fonctionnalités proposées en plus de la visualisation : on peut enregistrer le document avec les fonctionnalités d’internet

Caractéristiques du site
Métadonnées : non
Rapidité et simplicité de la navigation : la navigation est simple et rapide.
Aide à la navigation : oui : Gutenberg:Information About Robot Access to our, essentiellement pour tous ceux qui n’utlisent pas internet explorer ou mozilla firefox navigateurs avec lesquels les fonctionnalités ont été testées . De plus le catalogue et les documents sont accessibles hors ligne pour les personnes utilisant le bas débit.
Multilinguisme des instructions : en anglais seulement.
Qualité du graphisme, lisibilité et confort visuel des pages : simplicité extrême de la présentation, les pages sont lisibles, le confort de la lecture à l’écran est un avis très personnel.
Possibilité de communication : plusieurs possibilités de communication sont apportées : une foire aux questions pour le copyright, les formats, les volontaires, des adresses électroniques en fonction de la nature du message.
Adaptation du site aux personnes handicapées : non

Mon avis
Plusieurs faits sont remarquables au sujet de Project Gutenberg tout d’abord la longévité de cette réalisation qui si elle a commencé à l’initiative d’une personne se poursuit depuis 35 ans grâce à la participation de nombreux volontaires qui permettent l’accroissement, l’enrichissement des ouvrages numériques disponibles. Les fonctionnalités sont nombreuses.
Le nombre de 45 000 visiteurs chaque jour est lui aussi impressionnant.
Par ailleurs, la mise à disposition gratuite de ces ouvrages pour la plupart libres de droit, leur donne une nouvelle jeunesse, les font connaître au plus grand nombre ce qui peut amener à de nouveaux projets soient éducatifs, soient d’adaptation pour le cinéma, d’une nouvelle édition qui pourra être une source économique.
Je trouve que le Project Gutenberg est une réalisation formidable mais personnellement je trouve que la lecture à l’écran n’est absolument pas conviviale. J’ai fait découvrir à mes enfants Project Gutenberg et International Children’s Digital Library, elles préfèrent comme moi, le second pour sa présentation, ses couleurs… tout ce qui ressemble à un vrai livre, auquel nous sommes peut-être trop attachées, de plus nous n’avons pas l’ habitude de la lecture à l’écran pour les ouvrages : à chacun de se faire sa propre opinion.

mardi 12 décembre 2006

Suggestions de lecture sur les bibliothèques, les collections numériques : définitions, description, indexation, analyse, construxtion, diffusion... par des auteurs connus et reconnus dans la profession. Certains de ces articles sont résumés et commentés par les étudiants, découvrez -les sur les blogs des deux promos. Les documents en ligne ont été consultés entre les mois de novembre et décembre 2006.

AROT Dominique. La bibliothèque numérique patrimoniale : paradoxe, missions, typologie et évaluation. In : Bibliothèques numériques, cours INRIA, 9-13 octobre 2000, La Bresse. Paris : ADBS Editions, 2000 p. 11-51.
Fiche de lecture de Dorothée : http://collectionsnumeriques.over-blog.com/article-1706575.html

BROPHY Peter. La biblothèque numérique hybride. BBF tome 47, n°4, 2002.
http://bbf.enssib.fr/sdx/BBF/frontoffice/2002/04/document.xsp?id=bbf-2002-04-0014-002/2002/04/fam-dossier/dossier&nDoc=1&statutMaitre=non&statutFils=non&tri
Fiche de lecture de Cécile : http://20six.fr/cecile13/cat/34064/9
Fiche de lecture sur le blog de Claire P : http://rescapes.blogspot.com/
Fiche de lecture de Céline : http://celinegiacomini.free.fr/Blognum/index.php?2006/11/16/2-fiche-de-lecture-n1
Fiche de lecture de Nicolas : http://bdan-numeridoc.blogspot.com/2006/12/fiche-n1-la-bibliothque-hybride.html
Fiche de lecture de Perrine : http://blogdocnum.blogspot.com/2006/11/la-bibliothque-hybride.html

CHAUMIER Jacques. La bibliothèque numérique et l'entreprise. Avril 2004.
http://www.defidoc.com/internet_intranet/BibliNum.htm
Fiche de lecture de Alexandra : http://bdanalex.blogspot.com/2006/11/scffffffqfffffffy-uiulmhkfjhdfhfqffffff.html
Fiche de lecture de Claire : http://prieur.canalblog.com/archives/2006/11/23/3247521.html
Fiche de lecture de Maud : http://numerimaud.blogspot.com/2006/11/fiche-lecture-n3.html
Fiche de lecture sur le blog de Sylvain : http://sylvainduranton.free.fr/wordpress/?cat=2

GUEDON Jean-Claude. La bibliothèque virtuelle, une antinomie ? 1998.
http://archives.univ-lyon2.fr/52/02/nlm-fr.pdf
Fiche de lecture de Doriane : http://bdandagry.wordpress.com/2006/11/26/1-guedon-j-claude-la-bibliotheque-virtuelle-une-antinomie/

LEBERT Marie : Le livre 010101 (1993-1998) - Septembre 2003.
Le chapitre 7 La bibliothèque numérique démarre.
http://www.etudes-francaises.net/entretiens/010101/1998.htm
Fiche de lecture de Elise : http://bdan-dehorsilpleut.over-blog.com/article-4697696.html
Fiche de lecture de Hélène : http://bdanbdan.blogspot.com/2006/11/la-bibliothque-numrique-dmarre.html

LEBERT Marie : Le livre 010101 (1993-2003) - Septembre 2003.
Le chapitre 5 Le réseau des bibliothèques numériques.
http://www.etudes-francaises.net/entretiens/010101/2003.htm
Fiche de lecture de Perrine : http://blogdocnum.blogspot.com/2006/11/le-rseau-des-bibliothques-numriques.html

LUPOVICI Catherine : De la bibliothèque classique à la bibliothèque numérique : continuité et rupture : Documentaliste - Sciences de l'information 2000, vol. 37, n° 5-6.
http://www.adbs.fr/uploads/docsi/670_fr.pdf
Fiche de lecture de Maud : http://numerimaud.blogspot.com/2006/11/fiche-lecture.html
Fiche de lecture de Oummou : http://okadibdan2007.over-blog.com/article-4770774.html
Fiche de lecture sur le blog de Sylvain : http://sylvainduranton.free.fr/wordpress/?cat=2

Qu'est-ce qu'une bibliothèque numérique ?
http://www.figoblog.org/document263.php

Digital Library Definition for DLI2.
http://scholar.lib.vt.edu/DLI2/defineDL.html

Les enjeux de la (des) Bibliothèque(s) numérique(s). Formation CNFPT Pays de Loire, 2006.
http://affordance.typepad.com/mon_weblog/files/bibnumcnfpt.ppt

SAVOURAT Lise : Développer les bibliothèques numériques avec le langage XML : principes de pertinence et stratégies d'évaluation, 2002.
http://memsic.ccsd.cnrs.fr/mem_00000063.en.html

SAVOURAT Lise : Pour une appropriation du langage XML par les professionnels de l'information-documentation, 2004.
http://savoirscdi.cndp.fr/culturepro/actualisation/Savourat/Savourat.htm

VIGNAUX Georges : La notion de "collection" : genèses, développements et valorisations, rapport 2004.
http://www.colisciences.net/pdf/CollectionGV.pdf

MULLER Joëlle : Le groupe Complementarité des supports. Journée d'étude réalisée par le groupe Poldoc, 2000.
http://www.enssib.fr/autres-sites/poldoc/ressource/prod/je2000/2muller.htm

BOGROS Olivier : Bibliothèque et édition électronique. La bibliothèque électronique de Lisieux, un simple atelier de copiste, Le Médiéviste et l'ordinateur, 43, 2004.
http://lemo.irht.cnrs.fr/43/43-10.htm
Fiche de lecture de Céline : http://celinegiacomini.free.fr/Blognum/index.php?2006/12/06/14-fiche-de-lecture-n7

Institut national de recherche en informatique et en automatique. Publier sur Internet / Séminaire INRIA, 27 sept.-1er oct. 2004, Aix-les-Bains ; Dirigé par Jean-Claude Le Moal, Bernard Hidoine, Lisette Calderan. - Paris : ADBS, 2004. - 248 p.
Résumé : Panorama des conditions de production de documents de l'ère d'Internet. L'évolution des modèles éditoriaux, la diffusion de contenus, l'adaptation aux différents modes de lecture, le droit du document, l'impact du Web sémantique dans la pratique documentaire, les archives ouvertes sont les principaux sujets abordés.

Institut national de recherche en informatique et en automatique. Pérenniser le document numérique / Séminaire INRIA, 2-6 octobre 2006, Amboise ; Dirigé par Lisette Calderan, Bernard Hidoine, Jacques Millet. - Paris : ADBS, 2006. - 206 p.
Résumé : A l'heure où la production de documents croît de façon vertigineuse et tend insensiblement vers le tout-numérique, le problème de la pérennisation de ces documents numériques se posent de façon impérative.

Conduire un projet de numérisation ; Dirigé par Charlotte Buresi, Laure Cédelle-Joubert. - Villeurbanne : ENSSIB, 2002. - 326 p.
Résumé : Après une introduction concernant les raisons de numériser, le livre aborde le cadre du projet par la définition des publics et des aspects juridiques, la conduite du projet par la mise en oeuvre de la numérisation, l'établissement du cahier des charges, le choix du prestataire, le calcul des coûts, la diffusion et la valorisation des objets numériques.

La numérisation des textes et des images : techniques et réalisations ; Dirigé par Isabelle Westeel, Martine Aubry. - Lille : Université Charles-de-Gaulle, 2003.- 189 p.
Résumé : Différentes réalisations ont été présentées de façon très concrète, technique et pratique ce qui a conduit à parler d'octets, de poids, de formats, de compression, de résolution, de DTD, d'OCR, de tables de correspondances, de moteurs de recherche, d'affichage, de plateformes, de logiciels et surtout de normes, condition essetielle et indispensable pour une future coopération entre projets de numérisation.

CHAUMIER Jacques : Document et numérisation : Enjeux techniques, économiques, culturels et sociaux .- Paris : ADBS, 2004. - 115 p.
Résumé : Tous les jours, le document numérique s'installe davantage dans notre activité et acquiert droit de cité pourtant sa banalisation n'est pas sans poser de nombreux problèmes d'ordre technique, culturel, économique ou juridique qui sont les principaux sujets abordés.

Les bibliothèques numériques ; Dirigé par Fabrice Papy. - Paris: Lavoisier, 2005. - 105 p.
Résumé : Les professionnels de l'information-communication, du monde de l'édition et des chercheurs donnent leur point de vue sur la complexité des problématiques liées à la rencontre des technologies du numérique avec les lieux institutionnels de préservation et d'organisation des savoirs en terme de dimensions humaines, sociales, organisationnelles, intellectuelles, politiques, scientifiques et techniques dans le cadre de la bibliothèque numérique.

Image, audiovisuel et documentation ; N° spécial, Documentaliste-Sciences de l'information, vol. 42, n° 6, décembre 2005.
Résumé : Ce numéro a été conçu dans l'esprit de fournir aux professionnels de l'information et documentation, spécialisés ou non en audiovisuel, un document de synthèse qui leur permette d'être au fait des enjeux actuels de l'image et de l'audiovisuel. De leur proposer un aperçu de la recherche actuelle en la matière et des repères sur ce que les outils et les techniques leur permettent de faire actuellement, d'envisager pour un proche avenir, voire de considérer comme irréaliste pour longtemps.

GRADMANN Stephan : Catalogage et métadonnées : du vin vieux dans des bouteilles neuves ? IFLA, 1998, [en ligne] http://www.ifla.org/IV/ifla64/007-126f.htm, consulté le 29 décembre 2006.
Fiche de lecture de Elise : http://bdan-dehorsilpleut.over-blog.com/article-4780293.html

Citelle et documentation numérique

dimanche 31 décembre 2006

vendredi 29 décembre 2006

8.Nouveaux outils et documents audiovisuels : les innovations du web sémantique

mercredi 27 décembre 2006

6.L’accès aux catalogues des bibliothèques à l’âge des bibliothèques numériques et des moteurs de recherche : écarts, perturbations, mutation ?

7.Nouveaux systèmes d’accès aux documents manuscrits numérisés

lundi 18 décembre 2006

8.Etat civil et registres paroissiaux des Archives départementales de Yvelines

7.Project Gutenberg

mardi 12 décembre 2006

Bienvenue

Libellés

Archives du blog

Qui êtes-vous ?

Fiches de lecture

Collections numériques

Collections numériques à visiter

Blogs de la promo 2006-2007

Blogs de la promo 2005-2006

Sites et blogs professionnels

Formation

Centres d'intérêt