Archives pour la catégorie FRBR

FRBR dans les solutions Archimed

Par Christophe Arnoult [décembre 2014]

FRBR (Functionnal Requirements for Bibliographic Records) est l’un des acronymes actuellement les plus discutés dans le monde des bibliothèques. Une des raisons de son actualité, et sans doute la principale, est la refonte des normes de description bibliographique avec RDA (Resource Description and Access) qui notamment reprend et met en œuvre les principes de FRBR.

Il ne faut pas pour autant confondre FRBR et RDA. FRBR est un modèle conceptuel, une définition formelle des données qui servent à décrire l’objet bibliographique, pour adapter l’identification et la recherche documentaire aux usages de toutes les catégories d’utilisateurs (bibliothécaires, éditeurs, usagers…). Notre propos n’est pas ici de présenter une énième fois FRBR. Nous voulons juste insister sur le fait que FRBR n’édicte aucune règle normative et opérationnelle pour améliorer la description et la recherche mais pose juste des principes intellectuels sans préjuger de la manière de les mettre en œuvre. Ce qui n’est pas le cas de RDA qui pose les règles très précises à appliquer et constitue donc à la fois une interprétation et une instanciation du modèle FRBR.

Ceci posé, et sachant que la norme RDA est encore largement discutée par l’EURIG, qu’elle n’est pas prête d’être adoptée par la France qui passera d’abord par un format de transition bibliographique, il n’existe donc à ce jour en France d’autres préconisations FRBR que le modèle conceptuel lui-même. Toute mise en œuvre de FRBR représente donc une initiative libre et originale qui n’engage que ses concepteurs.

Les explications qui précèdent sont importantes pour comprendre la position et la démarche d’Archimed. Comme d’autres acteurs (agences bibliographiques, fournisseurs de données, éditeurs informatiques), Archimed avance un projet propre de mise en œuvre du modèle FRBR. Ce projet est fondé, d’une part sur les ressources actuellement disponibles pour FRBRiser un catalogue, d’autre part sur les usages de recherche en bibliothèque de lecture publique.

Comment FRBRiser le catalogue ?

Dans l’absolu, FRBRiser le catalogue exige de décomposer l’actuelle notice de document en trois objets hiérarchiquement liés :  œuvre – expression – manifestation, afin de dissocier le processus créatif d’un contenu intellectuel d’une part et le document qui n’en est que le vecteur d’autre part. L’idée des Misérables (l’œuvre) exprimée par son auteur sous la forme d’un texte littéraire (l’expression) est consignée dans un livre (la manifestation).

Une dénormalisation de ce modèle revient à remplacer les objets d’œuvre et d’expression par de simples attributs de la manifestation. Les données se lisent alors dans l’autre sens : un livre contient un texte littéraire qui correspond à l’œuvre Les Misérables. Cette dénormalisation peut être interprétée soit comme un moyen d’atteindre plus facilement en pratique les principes du FRBR, compte tenu de l’état actuel des catalogues et des possibilités de l’indexation : c’est l’approche anglo-saxonne. Dans le cas de la France qui défend le modèle original avec ses trois objets liés, la dénormalisation peut être perçue comme un risque de ne pas pouvoir centrer sa recherche sur le contenu intellectuel pour déboucher plus sûrement sur les documents qui lui correspondent. Dès lors en effet qu’il n’existe plus d’autre objet que la manifestation, toute recherche garderait pour pivot le document, comme c’est déjà le cas aujourd’hui [1].

Les différents scénarios de mise en œuvre du modèle [2] montrent que la FRBRisation du catalogue est un sujet complexe qui se règlera notamment par les choix qu’édicteront les normes et qui s’imposeront à tous.

Devant de telles difficultés et en l’absence de normes, la première position d’Archimed est de ne pas chercher à définir et embarquer dans le catalogue un modèle de description riche qui sera évidemment remis en cause dès que les nouvelles normes de catalogage seront connues et appliquées. L’approche choisie est donc de FRBRiser le plus simplement possible le catalogue, non pas pour décrire exhaustivement la relation du document avec son expression et son œuvre, mais dans la perspective d’améliorer le service à l’utilisateur dans le cadre de ses recherches.

La FRBRisation sera disponible avec la nouvelle solution Syracuse, soit dans le module SIGB, soit dans le module Portail quand il s’interface avec un SIGB tiers.

Elle va consister à enrichir l’indexation des notices de documents en injectant automatiquement dans celles-ci, chaque fois que c’est possible, les données de base qui caractérisent l’œuvre associée : le titre de l’œuvre, sa date, son auteur et sa catégorie (littéraire ou musicale par exemple).

Ces quelques données sont disponibles dans data.bnf.fr, le cloud de la BnF. Elles sont récupérables par web service, plus précisément à l’aide du serveur Sparql qui a été ouvert cet été par la BnF. En partant de l’identifiant du document fourni dans la notice du catalogue local (l’isbn, l’ean, voire le FRBNF de la notice BnF si la notice locale en est dérivée), Syracuse interroge data.bnf.fr et récupère, quand elles existent, les données de l’œuvre qui viennent automatiquement enrichir la notice.

image002

La récupération de données auprès de data.bnf.fr. permet ensuite de rebondir sur d’autres entrepôts de données web. Il est par exemple possible, en remontant les liens entre les données, de récupérer les distinctions littéraires obtenues par l’œuvre par une seconde recherche Sparql cette fois dans le cloud DbPedia.

Tous les identifiants normalisés qui peuvent être récupérés lors de ces opérations le sont: FRNBF (BnF), PPN (Sudoc), ISNI pour l’auteur de l’œuvre…. Conservés au même titre que les métadonnées dans la notice, ce sont eux qui développeront dans la durée l’enrichissement du catalogue ou de la recherche en permettant, comme dans le cas de DbPedia, de retrouver dans le web de données des informations éparses complémentaires sur l’œuvre ou le document.

Au final, la notice du catalogue est enrichie avec les métadonnées de l’œuvre. L’opération d’enrichissement est automatique et repose sur les données actuellement disponibles dans le web de données.

Comment FRBRiser la recherche ?

L’objectif du modèle FRBR est d’adapter l’information et la recherche documentaire aux attentes des différentes catégories d’utilisateurs : libraires, éditeurs, bibliothécaires, chercheurs… En proposant un modèle plus riche et plus souple, FRBR doit éviter d’imposer une manière unique de rechercher et accroître les chances de satisfaire la demande de l’utilisateur. Nous nous intéressons ici aux usagers des bibliothèques en lecture publique.

Dans les maquettes et les premières expérimentations de recherche basée sur un modèle FRBR, il est fréquent que le scénario de recherche soit calqué sur le modèle de données lui-même. Ainsi, à la question de l’utilisateur, la réponse présente d’abord les œuvres puis les documents. Les interfaces se sont aussi enrichies de multiples rebonds pour parcourir les liens sémantiques que le modèle FRBR valorise  entre les œuvres, les expressions, les auteurs, les sujets, les documents, etc. La recherche peut alors rapidement prendre la forme d’un parcours de graphe de données.

Si l’on se place du point de vue de l’usager en lecture publique, il faut toutefois vérifier que la FRBrisation réponde à son attente.  Avant les questions soulevées par le modèle FRBR, les portails de bibliothèque avaient déjà dû s’adapter aux utilisateurs. C’est ainsi que la recherche des premiers OPAC avec le formulaire du type « Titre – Auteur – Editeur – Date – Sujet » a cédé la place à l’unique zone de  recherche simple beaucoup plus compréhensible et facile d’utilisation par le grand public. Les progrès de l’indexation aidant, le bruit de la recherche simple est régulièrement corrigé à la baisse par des algorithmes de plus en plus perfectionnés pour remonter en priorité les résultats les plus pertinents. La recherche à facettes qui s’est banalisée permet à présent à l’utilisateur en un ou deux clics de circonscrire ses recherches. On peut aussi citer les vignettes qui aident à identifier ou choisir le document.

Cependant, il est intéressant de noter que les facettes sont en réalité assez peu utilisées. Quelques sondages chez nos clients à partir des statistiques du portail Ermes montrent qu’entre 15 et 20% des recherches seulement font appel aux facettes. Il est intéressant aussi de noter que les facettes les plus utilisées sont celles qui portent sur les nouveautés, le type de document, sa localisation. Ces observations renforcent notre conviction que les usagers attendent de la recherche qu’elle soit la plus simple et la plus directe possible et qu’elle vise avant tout à mettre la main sur les documents. Le paradigme de la recherche, dans le contexte de la lecture publique, ne serait donc pas tant l’œuvre que le document et sa disponibilité.

Compte tenu de ces observations, voici comment nous comptons prendre en compte le modèle FRBR dans la recherche du portail Syracuse.

Tout d’abord Syracuse ne change pas le scénario de la recherche simple qui débouche directement sur les documents. La prise en compte de l’œuvre dans l’indexation doit toutefois accroître un peu plus la pertinence des résultats. La recherche peut en effet accorder plus de poids au mots recherchés qui correspondent au titre de l’œuvre plutôt qu’au titre du document qui peut être décalé par rapport au contenu. Il aussi possible de proposer une nouvelle facette pour filtrer les documents en fonction des œuvres identifiées. Le type d’œuvre (roman, poésie, œuvre musicale, spectacle, film….) pourrait aussi à terme constituer une alternative intéressante au type de document (livre, cd, dvd…) qui n’éclaire nullement sur le contenu.

image003

La FRBrisation peut être aussi intéressante en aval de la recherche en donnant à l’utilisateur des informations sur l’œuvre du document , les documents de la même œuvre ou les autre œuvres du même auteur. Ici les identifiants collectés lors de la phase d’enrichissement du catalogue (voir plus haut) jouent leur rôle. Ils permettront par exemple, pour le document affiché, de retrouver tous les documents numérisés sur Gallica, directement consultables en ligne, qui correspondent à la même œuvre.

image004

Dans tous les cas toutefois, il faut garder à l’esprit que dans un catalogue FRBRisé, tous les documents sont loin d’être liés à l’œuvre correspondante et que dans de nombreux cas aussi le document se confond en fait avec l’œuvre dont il est l’unique manifestation. Dans un premier temps donc les effets de la FRBrisation ne peuvent profiter qu’à une partie du fonds. C’est probablement la raison pour laquelle les applications qui mettent en œuvre le modèle FRBR proposent une forme épurée de manifestation en lieu et place de l’œuvre quand celle-ci n’existe pas.

La mise en œuvre du modèle FRBR n’en est qu’à ses débuts. Il faudra du temps et un renouvellement progressif des catalogues pour que les données sur l’œuvre ou l’expression se généralisent. Plus globalement, et sans attendre que les catalogues mutent vers le modèle FRBR par la normalisation et le catalogage, ce sont les identifiants collectés automatiquement lors de l’opération d’enrichissement des notices qui vont permettre avec beaucoup de souplesse et de fiabilité de collecter les informations éparses progressivement disponibles dans le web de données pour enrichir les possibilités de recherche ou les résultats.


 

[1] Voir le blog de Philippe Le Pape à l’Abes qui soulève cette problématique : http://rda.abes.fr/

[2] Pour une présentation simple des différents scénarios 1, 2 et 3, voir par exemple http://frbr.jimdo.com/comment-faire/hypoth%C3%A8ses/les-sc%C3%A9narios-d-impl%C3%A9mentation-du-rda/

 

Projet sémanthèque

Préambule

Les principes du FRBR sont établis maintenant depuis une dizaine d’années et beaucoup de présentations théoriques en ont été faites.

Cet article a pour objectif de présenter le retour d’expérience de la société PROGILONE (www.progilone.fr) à partir d’opérations concrètes de FRBRisation de catalogues et de la réalisation d’un logiciel nativement basé sur la gestion des normes FRBR (logiciel SYRTIS issu du projet SEMANTHEQUE).

syrtis

Contexte

Les bibliothèques bougent, évoluent, offrent de nouveaux services, de nouvelles fonctionnalités, mais pour cela, elles ont besoin d’être accompagnées avec des logiciels adaptés à toutes ces évolutions.

Conscients des enjeux à venir, en particulier du rôle fondamental des bibliothèques dans l’accès au savoir et des limites intrinsèques des anciens formats, les bibliothécaires réfléchissent depuis plusieurs années à de nouveaux standards.

Dans le cadre de ces évolutions, et après étude du marché des logiciels existants, nous avons souhaité donner les moyens aux bibliothèques de s’intégrer dans l’écosystème du Web pour en faire des carrefours vers la connaissance en ligne, de s’adapter aux nouveaux enjeux qui se présentent à elles et de ramener une cohérence perdue dans leur système d’information de par les changements rapides auxquels elles ont dû faire face ces 20 dernières années.

Le projet SEMANTHEQUE que nous avons lancé vise à offrir aux bibliothèques un logiciel baptisé SYRTIS qui non seulement respecte les nouveaux standards (nouveau code de catalogage en passe de s’imposer dans les bibliothèques du monde entier), mais intègre aussi les nouvelles technologies apparues ces dernières années en particulier sur le Web comme la gestion des données numériques et la gestion du Web Sémantique.

Objectifs

Le développement du logiciel SYRTIS nous permet de travailler en parallèle sur plusieurs axes complémentaires :

  • FRBRisation d’un catalogue,
  • Gestion native du FRBR dans un logiciel,
  • Problématiques liées aux formats et échanges de données,
  • Intégration des fonctionnalités liées à la gestion du numérique,
  • Gestion de Référentiels et de Bases de Connaissance,
  • Mise en œuvres de nouvelles technologies (entrepôts RDF, NOSQL, …).

Les avancées pour les usagers

Après une phase « théorique » de présentation du modèle FRBR, les utilisateurs sont maintenant en attente de cas concrets de mise en œuvre de ces normes.

Une première étape de « FRBRisation » des catalogues est déjà menée par différentes bibliothèques Françaises et Etrangères. Nous pouvons citer entre autres la BnF avec DataBnf, la bibliothèque du Congrès Américain, la bibliothèque Nationale de Norvège, les Bibliothèques de Flandre, le Centre de documentation des Hôpitaux de Lyon, …

Une deuxième étape concerne la mise en œuvre de logiciels à même de gérer ces catalogues FRBRisés et de présenter les avantages apportés par ces nouvelles normes.

En dehors de la résolution des problématiques techniques liées aux anciens formats (par exemple recopies des valeurs des vedettes d’autorités dans les notices bibliographiques UNIMARC), ce nouveau modèle offre des avantages indéniables :

  • une présentation par œuvres plus proche d’une représentation « naturelle » des œuvres d’un auteur,
  • une représentation par langue et format de chaque œuvre (on regroupe ainsi les différentes langues d’expression d’une œuvre, et/ou on présente pour chaque œuvre les différents supports qu’ils soient papier ou numérique ou audio),
  • une possibilité illimitée de liens entres les objets, par exemple :

 

FRBR

Il est facile à partir d’un livre de rebondir vers des œuvres adaptées comme une comédie musicale, puis les chansons qui la composent, puis vers les autres œuvres du compositeur, etc….

Les méthodes de « FRBRisation »

Notre propos concerne la FRBRisation d’un catalogue et non la simple représentation de regroupement d’informations lors de l’affichage du résultat d’une recherche qui relève plus d’agrégation de données que de FRBRisation au sens propre.

La problématique repose sur les critères à mettre en œuvre pour regrouper sous la même œuvre/expression les différentes notices (qui deviendront manifestations).

Notre expérience concrète sur deux catalogues (une médiathèque de 100 000 notices et un centre de documentation de 350 000 notices dont de nombreux périodiques spécialisés) repose sur deux axes complémentaires.

Le premier axe s’appuie sur les travaux de FRBRisation déjà effectués et les différents entrepôts à disposition (DataBnf, VIAF, …). Inutile de « réinventer la roue », si les entrepôts disposent déjà des informations œuvre/expression/manifestation d’une notice du catalogue à FRBRiser, autant s’appuyer sur les résultats issus de ces entrepôts.

Des recherches simples sur ISBN (ou autre identifiant) sont suffisantes mais uniquement quand on les trouve, ce qui oblige à traiter d’autres clés complexes de recherches pour optimiser les rapprochements.

Comme il est plus que probable que toutes les notices ne seront pas traitées dans le premier axe, il faut également mettre en œuvre des traitements de rapprochement des autres notices, à la fois entre elles, et à la fois avec ce qui a déjà été FRBRisé dans les traitements précédents.

Toute la « subtilité » est de déterminer les bonnes clés de rapprochement et le pourcentage de rapprochement souhaité pour automatiser au maximum la FRBRisation. L’objectif est de minimiser l’intervention humaine pour valider des rapprochements d’œuvres, tout en sachant qu’une partie propre à chaque bibliothèque restera à gérer (les différentes expériences font ressortir aujourd’hui un taux de moins de 5% qui doit encore diminuer).

Les FRBRisations successives des catalogues participeront également à la réduction de ces traitements de rapprochement manuels par un enrichissement des informations à chaque migration.

Le traitement de gros volumes nous a également obligé à nous tourner vers des solutions techniques novatrices afin d’optimiser les performances lors des opérations de rapprochement (si l’on souhaite par exemple rapprocher une notice d’un catalogue de 500 000 notices, il faut, pour chaque notice, la comparer aux autres 500 000, donc 500 000 fois 500 000 comparaisons..)

Les choix et l’interprétation FRBR

Si le modèle FRBR est figé dans ses notions principales « Œuvre-Expression-Manifestation-Item », des interprétations différentes peuvent en être faites notamment pour gérer les attributs propres à chaque grand bloc.

Ces choix doivent non seulement répondre aux besoins d’utilisation en bibliothèque des objets, mais ils doivent être pris dans un cadre commun des différents acteurs.

Nos travaux nous permettent par exemple de statuer sur un modèle pour répondre aux attentes d’utilisation, mais nous échangeons avec les instances comme la BnF pour valider ensemble que la piste retenue est bien dans la bonne direction.

Un exemple simplifié concret. Il a été acté :

  • qu’un album était une œuvre,
  • qu’un CD était une œuvre et que plusieurs CD constituaient un album,
  • qu’une chanson était une œuvre et que plusieurs chansons constituaient un CD.

Pourquoi ce modèle, et pourquoi, par exemple, une chanson n’est-elle pas une manifestation ?

Un album est une œuvre et il aura une expression, une manifestation et un item car il a une structure physique.

De même, un CD est une œuvre et il aura une expression et une manifestation. Un CD seul aura un item car il a un code-barres et il pourra être prêté. Un CD constituant un album pourra ou pas avoir un item selon qu’il est ou pas prêtable individuellement.

Une chanson ne pourra pas avoir d’item, par contre une chanson peut avoir un parolier et plusieurs interprètes sur des CD différents, il faut donc pouvoir traiter ce cas.

Les outils de gestion d’un catalogue FRBRisé

Diverses études nous ont amené au constat qu’il ne nous était pas possible d’adapter des logiciels et outils existants pour répondre au besoin de gestion d’un catalogue informatisé, nonobstant les problématiques liées à l’obsolescence des technologies utilisées et des nouveaux besoins liés au web sémantique et la gestion des données numériques.

Dont acte, nous avons pris la décision de développer à partir d’une feuille blanche un nouveau logiciel à même de répondre aux problématiques de normes et de technologies mais également aux attentes des futurs utilisateurs.

Nous avons pu présenter notre prototype lors du salon IFLA 2014 à Lyon et tous les interlocuteurs ont été très intéressés de voir une application concrète à même de gérer un catalogue FRBRisé et donc de mettre en application les normes FRBR.

Silence des armes

Il faut maintenant travailler avec tous les partenaires pour finaliser les procédures d’échange d’informations avec notamment des références d’œuvres uniques, et mettre en œuvre tous les outils d’assistance aux bibliothécaires dans les actions de catalogage FRBR.

FRBRisation des bibliothèques de Flandre

4e_chambers

Rosemie Callewaert explique dans le 5e chapitre de cet excellent ouvrage comment les bibliothèques de Flandre (http://zoeken.bibliotheek.be/) ont procédé pour FRBRiser leur catalogue, et surtout l’intérêt pressenti pour la structuration des données bibliographiques selon ce modèle, et dégage très nettement les avantages que le public peut en tirer.

Le bénéfice le plus immédiat réside dans la possibilité de restituer des liens entre les ressources, des liens intellectuels, mais aussi, comme chaque entité se voit attribuer un identifiant, des liens profonds :  il est beaucoup plus simple désormais de lier une notice d’œuvre à un identifiant correspondant à l’identifiant dans un autre entrepôt de données  et rapatrier des micro éléments pour enrichir visuellement  les notices locales, une sorte de surcharge informationnelle qui permet à l’usager d’identifier plus facilement les ressources décrites.