Archives mensuelles : octobre 2014

Projet sémanthèque

Préambule

Les principes du FRBR sont établis maintenant depuis une dizaine d’années et beaucoup de présentations théoriques en ont été faites.

Cet article a pour objectif de présenter le retour d’expérience de la société PROGILONE (www.progilone.fr) à partir d’opérations concrètes de FRBRisation de catalogues et de la réalisation d’un logiciel nativement basé sur la gestion des normes FRBR (logiciel SYRTIS issu du projet SEMANTHEQUE).

syrtis

Contexte

Les bibliothèques bougent, évoluent, offrent de nouveaux services, de nouvelles fonctionnalités, mais pour cela, elles ont besoin d’être accompagnées avec des logiciels adaptés à toutes ces évolutions.

Conscients des enjeux à venir, en particulier du rôle fondamental des bibliothèques dans l’accès au savoir et des limites intrinsèques des anciens formats, les bibliothécaires réfléchissent depuis plusieurs années à de nouveaux standards.

Dans le cadre de ces évolutions, et après étude du marché des logiciels existants, nous avons souhaité donner les moyens aux bibliothèques de s’intégrer dans l’écosystème du Web pour en faire des carrefours vers la connaissance en ligne, de s’adapter aux nouveaux enjeux qui se présentent à elles et de ramener une cohérence perdue dans leur système d’information de par les changements rapides auxquels elles ont dû faire face ces 20 dernières années.

Le projet SEMANTHEQUE que nous avons lancé vise à offrir aux bibliothèques un logiciel baptisé SYRTIS qui non seulement respecte les nouveaux standards (nouveau code de catalogage en passe de s’imposer dans les bibliothèques du monde entier), mais intègre aussi les nouvelles technologies apparues ces dernières années en particulier sur le Web comme la gestion des données numériques et la gestion du Web Sémantique.

Objectifs

Le développement du logiciel SYRTIS nous permet de travailler en parallèle sur plusieurs axes complémentaires :

  • FRBRisation d’un catalogue,
  • Gestion native du FRBR dans un logiciel,
  • Problématiques liées aux formats et échanges de données,
  • Intégration des fonctionnalités liées à la gestion du numérique,
  • Gestion de Référentiels et de Bases de Connaissance,
  • Mise en œuvres de nouvelles technologies (entrepôts RDF, NOSQL, …).

Les avancées pour les usagers

Après une phase « théorique » de présentation du modèle FRBR, les utilisateurs sont maintenant en attente de cas concrets de mise en œuvre de ces normes.

Une première étape de « FRBRisation » des catalogues est déjà menée par différentes bibliothèques Françaises et Etrangères. Nous pouvons citer entre autres la BnF avec DataBnf, la bibliothèque du Congrès Américain, la bibliothèque Nationale de Norvège, les Bibliothèques de Flandre, le Centre de documentation des Hôpitaux de Lyon, …

Une deuxième étape concerne la mise en œuvre de logiciels à même de gérer ces catalogues FRBRisés et de présenter les avantages apportés par ces nouvelles normes.

En dehors de la résolution des problématiques techniques liées aux anciens formats (par exemple recopies des valeurs des vedettes d’autorités dans les notices bibliographiques UNIMARC), ce nouveau modèle offre des avantages indéniables :

  • une présentation par œuvres plus proche d’une représentation « naturelle » des œuvres d’un auteur,
  • une représentation par langue et format de chaque œuvre (on regroupe ainsi les différentes langues d’expression d’une œuvre, et/ou on présente pour chaque œuvre les différents supports qu’ils soient papier ou numérique ou audio),
  • une possibilité illimitée de liens entres les objets, par exemple :

 

FRBR

Il est facile à partir d’un livre de rebondir vers des œuvres adaptées comme une comédie musicale, puis les chansons qui la composent, puis vers les autres œuvres du compositeur, etc….

Les méthodes de « FRBRisation »

Notre propos concerne la FRBRisation d’un catalogue et non la simple représentation de regroupement d’informations lors de l’affichage du résultat d’une recherche qui relève plus d’agrégation de données que de FRBRisation au sens propre.

La problématique repose sur les critères à mettre en œuvre pour regrouper sous la même œuvre/expression les différentes notices (qui deviendront manifestations).

Notre expérience concrète sur deux catalogues (une médiathèque de 100 000 notices et un centre de documentation de 350 000 notices dont de nombreux périodiques spécialisés) repose sur deux axes complémentaires.

Le premier axe s’appuie sur les travaux de FRBRisation déjà effectués et les différents entrepôts à disposition (DataBnf, VIAF, …). Inutile de « réinventer la roue », si les entrepôts disposent déjà des informations œuvre/expression/manifestation d’une notice du catalogue à FRBRiser, autant s’appuyer sur les résultats issus de ces entrepôts.

Des recherches simples sur ISBN (ou autre identifiant) sont suffisantes mais uniquement quand on les trouve, ce qui oblige à traiter d’autres clés complexes de recherches pour optimiser les rapprochements.

Comme il est plus que probable que toutes les notices ne seront pas traitées dans le premier axe, il faut également mettre en œuvre des traitements de rapprochement des autres notices, à la fois entre elles, et à la fois avec ce qui a déjà été FRBRisé dans les traitements précédents.

Toute la « subtilité » est de déterminer les bonnes clés de rapprochement et le pourcentage de rapprochement souhaité pour automatiser au maximum la FRBRisation. L’objectif est de minimiser l’intervention humaine pour valider des rapprochements d’œuvres, tout en sachant qu’une partie propre à chaque bibliothèque restera à gérer (les différentes expériences font ressortir aujourd’hui un taux de moins de 5% qui doit encore diminuer).

Les FRBRisations successives des catalogues participeront également à la réduction de ces traitements de rapprochement manuels par un enrichissement des informations à chaque migration.

Le traitement de gros volumes nous a également obligé à nous tourner vers des solutions techniques novatrices afin d’optimiser les performances lors des opérations de rapprochement (si l’on souhaite par exemple rapprocher une notice d’un catalogue de 500 000 notices, il faut, pour chaque notice, la comparer aux autres 500 000, donc 500 000 fois 500 000 comparaisons..)

Les choix et l’interprétation FRBR

Si le modèle FRBR est figé dans ses notions principales « Œuvre-Expression-Manifestation-Item », des interprétations différentes peuvent en être faites notamment pour gérer les attributs propres à chaque grand bloc.

Ces choix doivent non seulement répondre aux besoins d’utilisation en bibliothèque des objets, mais ils doivent être pris dans un cadre commun des différents acteurs.

Nos travaux nous permettent par exemple de statuer sur un modèle pour répondre aux attentes d’utilisation, mais nous échangeons avec les instances comme la BnF pour valider ensemble que la piste retenue est bien dans la bonne direction.

Un exemple simplifié concret. Il a été acté :

  • qu’un album était une œuvre,
  • qu’un CD était une œuvre et que plusieurs CD constituaient un album,
  • qu’une chanson était une œuvre et que plusieurs chansons constituaient un CD.

Pourquoi ce modèle, et pourquoi, par exemple, une chanson n’est-elle pas une manifestation ?

Un album est une œuvre et il aura une expression, une manifestation et un item car il a une structure physique.

De même, un CD est une œuvre et il aura une expression et une manifestation. Un CD seul aura un item car il a un code-barres et il pourra être prêté. Un CD constituant un album pourra ou pas avoir un item selon qu’il est ou pas prêtable individuellement.

Une chanson ne pourra pas avoir d’item, par contre une chanson peut avoir un parolier et plusieurs interprètes sur des CD différents, il faut donc pouvoir traiter ce cas.

Les outils de gestion d’un catalogue FRBRisé

Diverses études nous ont amené au constat qu’il ne nous était pas possible d’adapter des logiciels et outils existants pour répondre au besoin de gestion d’un catalogue informatisé, nonobstant les problématiques liées à l’obsolescence des technologies utilisées et des nouveaux besoins liés au web sémantique et la gestion des données numériques.

Dont acte, nous avons pris la décision de développer à partir d’une feuille blanche un nouveau logiciel à même de répondre aux problématiques de normes et de technologies mais également aux attentes des futurs utilisateurs.

Nous avons pu présenter notre prototype lors du salon IFLA 2014 à Lyon et tous les interlocuteurs ont été très intéressés de voir une application concrète à même de gérer un catalogue FRBRisé et donc de mettre en application les normes FRBR.

Silence des armes

Il faut maintenant travailler avec tous les partenaires pour finaliser les procédures d’échange d’informations avec notamment des références d’œuvres uniques, et mettre en œuvre tous les outils d’assistance aux bibliothécaires dans les actions de catalogage FRBR.

IFLA 2014 Satellite Meeting

Les articles (versions complètes), les diaporamas et les vidéeos des interventions des sessions plénières sont accessibles en ligne sur le site dédié de l’IFLA.

Session 1 : They made it happen… Library linked data success stories
Modérateur : Gildas Illien (BnF)

  • We grew up together: data.bnf.fr from the BnF and Logilab perspectives by Agnès Simon and Sébastien Peyrard (BnF), Vincent Michel and Adrien Di Mascio (Logilab)
  • Web NDL Authorities: Authority Data of the National Diet Library, Japan, as Linked Data by Tadahiko Oshiba and Kazuo Takehana (National Diet Library)

Session 2 : Perspectives for developing linked libraries and related applications
Modérateur : Emmanuelle Bermès (BnF)

  • An unbroken chain: approaches to implementing Linked Open Data in libraries; comparing local, open source, collaborative and commercial systems by Lukas Koster (Library of the University of Amsterdam) and Rurik Greenal (Norwegian University of Science and Technology)
  • Methodological Proposals for Designing Federative Platforms in Cultural Linked Open Data: the example of MoDRef by Antoine Courtin (Labex « Past in the present ») and Jean-Luc Minel (University Paris Ouest Nanterre La Défense)
  • Internal and external interoperability of books metadata using work concept and semantic web technologies by Pierre Boudigues, Joëlle Aernoudt and Stéphane Bizeul (Electre), Gautier Poupeau (Antidot)

Session 3 Creating, maintaining and using vocabularies for library linked data
Modérateur : Lars Svenson (DNB)

  • Making MODS to Linked Open Data: A Collaborative Effort for Developing MODS/RDF by Ray Denenberg, and Rebecca Guenther (Library of Congress), Myung-Ja Han (University of Illinois), Jeff Mixter (OCLC), Amy L. Nurnberger, Melanie Wacker, and Kathryn Pope (Columbia University), Brian Luna Lucero (Center for Digital Research and Scholarship
  • Making library Linked Data using the Europeana Data Model by Marko Knepper (University Library Frankfurt am Main) and Valentine Charles (Europeana Foundation)
  • Versioning Vocabularies in a Linked Data World by Diane Hillmann and Jon Phipps (Metadata Management Associates LLC), Gordon Dunsire (Indenpendent consultant)
  • From UNIMARC bibliographic and authority record to Linked Open Data by Mirna Willer (University of Zadar) and Leonardo Jelenkovi? (UNIBIS)

Session 4 : Designing Linked Data software and services for libraries
Modérateur : Emmanuelle Bermès (BnF)

  • Panel with Schlomo Sanders (Ex Libris), Richard Wallis (OCLC) and Nicolas Chauvat (Logilab)