< Retourner sur la page d'accueil

Les musées en France

Service de recherche basé sur un ensemble de données culturelles liées et publiquement accessibles

Qu'est-ce-que ce site Web ?

Le site Web "Musées de France" est un mashup, c'est-à-dire un site obtenu à partir du traitement, de la mise en relation et de la réconciliation de différentes sources de données hétérogènes disponibles librement sur le Web. Aucune information n'a donc été directement saisie pour mettre au point ce site (mis à part cette page Web...). Toutes les données sont récupérées directement et automatiquement depuis les différents sites Web (cf la partie "Les jeux de données utilisées") puis prises en charge par des chaînes de traitement informatique construites avec le produit Antidot Information Factory (AIF). Le site Web en lui-même est généré à partir de l'interrogation d'un moteur de recherche basé sur les données traitées précédemment et le produit Antidot Finder Suite (AFS). Ainsi, si vous constatez une erreur, une donnée manquante ou tout autre problème sur les données, cela provient des données sources qui ont été utilisées et n'est pas imputable aux concepteurs de ce site.

Ce projet a été réalisé par deux salariés de la société Antidot, sur une initiative personnelle , initialement, pour participer au concours organisé par le Ministère de la Culture et de la Communication et l'association Wikimedia France autour des données du projet SemanticPedia.

Pourquoi ce sujet ?

En décembre 2011, nous avions déjà réalisé un prototype du même type autour des Monuments historiques. Comme ce nouveau site constitue finalement une suite, un remplaçant d'une certaine façon, il paraissait logique de rester dans la même thématique. De plus, la liste des musées de France, jeu de données mis à disposition sur le site data.gouv.fr par le Ministère de la Culture et de la Communication avait déjà été le prétexte à la réalisation d'un outil didactique pour montrer le fonctionnement du logiciel AIF. Repartir de ce jeu de données constituait donc un prolongement logique aux différentes démarches que nous avions engagées par ailleurs.

Cela constituait aussi un clin d'œil en forme d'encouragement à la démarche engagée par le Ministère de la Culture et de la Communication dans le cadre de l'Automne numérique qui s'était concrétisé par la mise à disposition de plusieurs jeux de données (dont un que nous réutilisons sur ce site), par un hackathon ou la mise à disposition du site JocondeLabs. Nous voulions également saluer la poursuite de cette initiative qui se traduit aujourd'hui par la publication d'une feuille de route stratégique qui fait la part belle aux technologies du Web sémantique.

Et puis, pour finir et être tout à fait honnête, ce sont quand même des données plus plaisantes à manipuler que des tableaux de chiffres, des budgets ou des statistiques, non ?

Quels sont les objectifs ?

Après le prototype sur les Monuments historiques, nous avons continué à réaliser au sein d'Antidot des petits prototypes avec les données disponibles librement mais sans aboutir à un produit fini ouvert au public. Le concours autour des données du projet SemanticPedia a constitué un bon prétexte pour dépasser le simple prototype et mettre à disposition un produit fini. Ainsi, au-delà de la participation au concours en lui-même, ce site Web vise à démontrer :

Nous reviendrons ci-dessous sur ce dernier point.

Quelles sont les données utilisées ?

Pour réaliser ce site Web, nous avons traité et lié les jeux de données suivants :

Dbpedia et/ou Wikidata ?

Lorsque Dbpedia est apparu en 2006 à l'initiative de l'Université Libre de Berlin, de l'Université de Leipzig et de la société OpenLink Software, le Web sémantique apparaissait aux yeux de beaucoup comme une chimère voire un échec. En mettant à disposition des millions de triplets issues essentiellement de la Wikipedia anglopohone, Dbpedia a permis non seulement de mettre au point des prototypes pour démontrer la valeur des technologies du Web sémantique (RDF et SPARQL en tête), mais surtout, de par la couverture des sujets de la Wikipedia, Dbpedia a représenté un pivot auquel tous les jeux de données ou presque pouvaient se raccrocher. Bref, n'ayons pas peur des mots, Dbpedia a en grande partie sauvé le Web sémantique en donnant corps à l'initiative Linking Open Data et en devenant peu à peu le cœur du Linked Open Data (LOD) Cloud.

Au fil des années, l'initiative Dbpedia a pris de l'ampleur :

C'est ainsi qu'a vu le jour la version francophone grâce à une heureuse initiative du Ministère de la Culture et de la Communication, de l'association Wikimedia France et de l'INRIA.

Malgré tout, Dbpedia n'a jamais été intégrée directement aux processus de création des Wikipedia ou soutenu par la Wikimedia Foundation. Si cette indépendance offre une certaine liberté aux promoteurs du projet essentiellement issus du milieu académique, elle pose néanmoins quelques problèmes, en particulier sur la fraîcheur des mises à jour et le niveau de service offert. Parallélement à cela, l'augmentation des données structurées au sein même des différentes Wikipedias et la complexité grandissante de leur maintenance ont obligé les Wikipédiens à réfléchir à un moyen de centraliser cette gestion de la même manière que Wikimedia Commons a permis d'offrir un point unique pour les médias utilisés dans les différents versions de l'encyclopédie libre. C'est ainsi qu'est né Wikidata.

Ce projet constitue donc une base de connaissance libre dont la vocation est à terme de rassembler l'ensemble des données structurées des différentes Wikipedias (infobox, liens InterWiki, liens avec les identifiants internationaux, coordonnées géographiques...) pour en proposer une gestion centralisée. Ainsi, une modification dans une infobox de la Wikipedia anglophone sera immédiatement visible dans la Wikipedia francopohone. Même si le projet n'est pas encore parvenu à ce stade, il offre d'ores et déjà de très intéressantes perspectives qui permettent de dépasser les limites intrinsèques de Dbpedia :

On est donc en droit de se demander si l'initiative Wikidata ne rend pas obsolète Dbpedia. En réalité, ces deux initiatives restent pour le moment complémentaires. Wikidata est loin de contenir toutes les données structurées des Wikipedias et les infobox ne sont pas encore branchées à Wikidata. De plus, Dbpedia est une bonne base de départ pour alimenter Wikidata. C'est d'ailleurs ce que nous avons fait dans le cadre de ce projet grâce à des scripts que nous avons mis à disposition sur Github. Enfin, à terme, si Wikidata représente le "réservoir" de données pour les besoins opérationnels, il est à souhaiter que Dbpedia reste le terrain d'expérimentations et de recherche qu'il a toujours été.

Puis-je récupérer les données traitées ?

Oui, dans les dumps disponibles ci-dessous, vous trouverez les données issues des différents traitements. Nous mettons à disposition ces données sous le régime de la licence CC-BY-SA comme cela était demandé dans le règlement du concours.

Néanmoins, nous attirons votre attention sur le fait que ces données sont issues de différents traitements automatiques et qu'elles sont formatées pour répondre aux aux objectifs précis de ce site Web. Nous les mettons à disposition en XML telles qu'elles sont indexées par le moteur de recherche. Nous n'apportons aucune garantie sur ces données, ni même de support. Si vous remarquez des erreurs, nous vous renvoyons aux sources initiales.

Ceci étant dit, voici les dumps :

Et, après ?

Comme cela a été évoqué dans la première partie, le site va être mis à jour régulièrement automatiquement : il s'enrichira des modifications et ajouts effectués sur les jeux de données d'ores et déjà utilisés. Dans les prochaine semaines, nous ajouterons des nouvelles fonctionnalités. Les idées ne manquent pas : ajout des posts Facebook des musées, des photos de Flickr, de Pinterest, des événements organisés dans les musées voire (mettons-nous à rêver) l'intégration des données (ou de certaines...) de la base Joconde et nous sommes sûrs que vous nous ferez plein de suggestions.

Nous vous souhaitons une bonne visite, en espérant que vous prendrez dans la découverte des musées de France autant de plaisir que nous avons pris à réaliser ce site. Quant à nous, nous allons pouvoir reprendre une activité normale.

Encore un mot ?

Nous souhaiterions, pour finir, adresser quelques remerciements : à Antidot, bien-sûr, et à son PDG, Fabrice Lacroix d'avoir mis à notre disposition les produits et l'infrastructure de la société pour réaliser ce site, à nos collègues qui ont joué les bêta-testeurs et nous ont encouragé et, surtout, à Mélanie et Emmanuelle, nos compagnes, qui nous ont soutenu (et supporté dans tous les sens du terme...) tout au long du développement.

Julien Homo et Gautier Poupeau, Paris, Février 2014

< Retourner sur la page d'accueil