vendredi 29 décembre 2006

8.Nouveaux outils et documents audiovisuels : les innovations du web sémantique

Fiche n° 8. Le 28 décembre 2006

TRONCY Raphaël. Nouveaux outils et documents audiovisuels : les innovations du web sémantique. In Spécial image et audiovisuel. Documentaliste – Sciences de l’infomration, vol. 42, n° 6, décembre 2005, p. 392 à 404.

Résumé
Le web sémantique constitue à présent un cadre de référence pour concevoir des outils et des méthodes permettant d’instrumenter les documents pour les publier, les transmettre et les exploiter sur le web. Il permettra à terme une plus grande précision dans les requêtes et les réponses, l’échange et le partage des ressources.
Le web sémantique c’est avant tout des langages et des outils permettant de représenter formellement de la connaissance afin que la machine ait accès au sens des documents. En utilisant divers logiciels l’utilisateur doit pouvoir afficher le document mais aussi accéder à son contenu grâce à la dotation d’annotations pour les ressources documentaires. On doit donc créer des documents structurés par des langages qui permettront d’exprimer la connaissance, et de décrire des relations entre les connaissances.

La difficulté de décrire le contenu des images est compensé par les documentalistes qui utilisent un langage documentaire, ils peuvent donc automatiser certaines descriptions surtout car ils connaissent leur contexte d’utilisation ce qui leur permet de retrouver l’image recherchée mais le lecteur qui n’a pas cette connaissance la trouvera rarement.

Actuellement les professionnels de l’information de l’audiovisuel veulent bénéficier des fonctionnalités proposées par le web sémantique, surtout que les technologies mises en œuvre dans le web sémantique sont réellement ouvertes : il st toujours possible d’ajouter des propriétés à une ressource, qu’elle ait été créée par nous ou non. Son utilisation est possible par le langage RDF (1) qui permet le partage de l’information entre humains et machines et le langage OWL (2) qui permet de définir des ontologies sur le web. Les ontologies fournissent le vocabulaire propre à un domaine de connaissance et fixent le sens des concepts (ou classes) et des relations (ou propriétés) entre ceux-ci permettent de modéliser les connaissances d’un domaine pour une certaine communauté.

(1) RDF ( Resource Description Framework) est un langage fondé sur les notions de ressources et de relations entre ressources. Un triplet exprime une relation p entre un sujet s et un objet o. Il peut être utilisé internationalement pour annoter des documents écrits dans des langages non structurés ou comme une interface pour des documents écrits dans des langages déjà structurés, des bases de données par exemple. Les documents RDF peuvent être consultés hors ligne et il n’y a plus de liens cassés, comme il peut y en avoir avec le web actuel. Les termes utilisés en format RDF sont modélisés, classés et décrits dans une ontologie.

(2) Le langage OWL ( Ontology Web Language) compatible avec RDF permet de représenter les ontologies. Il a pour but d’étendre RDF en décrivant plus précisément les ressources utilisées pour étiqueter les graphes. Pour cela, il fournit un mécanisme permettant de spécifier les classes dont les instances sont des ressources, mais aussi des propriétés.

Tout langage d’ontologie est basé sur le fait de signifier l’appartenance d’un objet à une catégorie, de déclarer la relation de généralisation entre catégories et de typer des objets reliés par une relation. Ce langage est simple ou complexe selon que l’on définira les relations utilisées simples ou complexes. C’est aussi un langage ouvert qu’il sera possible d’enrichir avec une autre ontologie.

Les langages du web sémantique sont utilisables dans la pratique documentaire dont celle de la description des images. Ils ont comme objectif principal de représenter de la connaissance sur le web de manière à ce que les machines puissent plus facilement comprendre et manipuler l’information qui y est présente
Le Dublin Core est un vocabulaire (ou une ontologie) minimal(e) pour l’indexation des pages web avec quinze champs auxquels on associe des valeurs qui peuvent être libres ou contrôlées par des formats de données bien définis par exemple le RFC 3066 pour le nouveau codage des langues.
Visual Resource Association (VRA) est une organisation réunissant de nombreuses universités américaines, galeries et instituts d’arts. Elle a développé une ontologie pour décrire à la fois les œuvres d’art et leur représentation visuelle. La version actuelle (3.0) fournit un ensemble de dix-sept descripteurs qui peuvent être précisés par des attributs, pour décrire les deux types d’entité que sont l’œuvre et l’image
Simple Knowledge Organization System (SKOS) a pour objectif de fournir un modèle et le vocabulaire permettant de représenter la structure et le contenu de schémas conceptuels tels que des thésaurus, des schémas de classification, des glossaires, des terminologies spécialisées ou tout autre type de vocabulaire contrôlé. SKOS permet de définir des concepts et de les relier entre eux en utilisant des propriétés de nature différentes se rapportant au champ lexical, au contexte ou l’appartenance à une collection.

Un premier exemple d’application est la description d’une collection d’images représentant des peintures célèbres d’un musée : l’ontologie définie par VRA est utilisée pour distinguer l’œuvre physique (la peinture) de sa représentation image. Les informations générales sont décrites à l’aide de propriétés VRA, mais elles auraient pu tout aussi bien l’être en utilisant les métadonnées définies par le Dublin Core. Les valeurs de certaines propriétés renvoient également à d’autres vocabulaires contrôlés.
Le deuxième exemple concerne l’accès par le grand public au patrimoine audiovisuel public. Le système proposé doit pouvoir faire le lien entre le contenu audiovisuel et sa description.
Les documentalistes indexent les documents audiovisuels avec un langage documentaire ce qui pose problème à l’utilisateur qui va utiliser un langage libre. La norme MPEG-7 apporte un ensemble de descripteurs dont les valeurs permettent de décrire des caractéristiques physiques audiovisuelles, un ensemble de schémas de descriptions qui permettent d’organiser les descripteurs dans des modèles pour les objets multimédias et un langage de définition des descriptions qui permet d’encoder le tout. Pourtant tous les besoins de descriptions ne sont pas pris en compte dans ce modèle par exemple pour décrire la structure d’un document. De plus la sémantique de ces descripteurs doit être exprimé dans un langage formel et utilisable par la machine pour véritablement permettre la manipulation du contenu multimédia par les machines. Il est donc nécessaire de combiner les langages MPEG-7 et OWL pour produire des descriptions de documents audiovisuels. L’ontologie de l’audiovisuel permet ainsi de normaliser le sens des termes couramment utilisés pour décrire la structure et la mise en forme de ces documents. Les concepts sont ensuite formalisés et leur sémantique est accessible dans un système informatique.

Commentaire
Les exemples décrits dans cet article facilitent la compréhension de termes théoriques. L’important est d’appréhender ces notions de relations, d’entités, de catégories ce qui devrait accroître les possibilités de recherche simples mais surtout complexes ou de manipulation des documents audiovisuels ou autres avec le web sémantique.

Aucun commentaire: