Exploration des données

La production scientifique s’accélère au fil des années. Il est devenu difficile de suivre l’intégralité des publications produites. Plus de 2,5 millions d'articles sont publiés chaque année1, 50% des articles ne sont jamais lus2, 90% des articles ne sont pas cités2 et 80% des articles cités ne sont pas lus3.

Le CNRS a pour volonté d’apporter à l’ensemble des acteurs de la production scientifique des outils de fouille de textes capables d’assister l’utilisateur dans sa démarche de consultation et d’analyse des ressources scientifiques.

En conséquence, les nouveaux services d’appui aux chercheurs dans le domaine de l’IST doivent évoluer vers l’analyse de contenu (Content Mining) en complément de l’offre de signalement (bases de données bibliographiques, catalogues) et d’accès (portails) à la production scientifique. Les outils présentés ici s'inscrivent dans cette démarche d'aide à la fouille et d'analyse de contenus.

1 The STM report, 2015

2 Lokman I. Meho, the rise and rise of citation analysis, 2007.

3 Simkin & Roychowdhury. Read before you cite!, 2002


  1. ISTEX - plateforme numérique innovante pour pour la fouille de textes et de données
  2. Lodex - outil de sémantisation et de visualisation de données
  3. Carto ISTEX - outil de visualisation des pays, laboratoire/institution et auteur
  4. Cillex - outil de visualisation des métadonnées d'un corpus textuel
  5. Gargantext - outil de visualisation de la terminologie d'un corpus textuel
  6. OpenMinTeD - plateforme européenne d’outils informatiques pour extraire et exploiter les informations de la littérature scientifique


ISTEX
Plateforme numérique innovante pour l’exploration documentaire et de données

Une plateforme numérique innovante, développée par l’Inist, qui met à disposition de l’ESR français une collection pluridisciplinaire acquise de manière pérenne. L’enrichissement et l’homogénéisation de la base, associé à un moteur de recherche puissant, Elasticsearch, la plateforme ISTEX améliore la qualité et l’exhaustivité des résultats de recherche.

En chiffre (2019)
Plus de 23 millions de documents, de 1473 à 2016, répartis en 26 corpus éditeurs et rassemblant plus de 250 éditeurs scientifiques.
Usages de la plateforme ISTEX

La plateforme ISTEX met à disposition, des établissements ayant adhéré, des services de fouille de textes et de données. Ces fonctionnalités permettent aux communautés scientifiques d’effectuer des travaux sur de grands volumes documentaires.

Enrichissements des métadonnées

Les principales innovations de la plateforme ISTEX sont l’uniformisation des formats TEI/JSON et les enrichissements effectués sur chaque documents.

  • Enrichissement par appariement

    Alignement de la catégorisation de chaque document ISTEX par correspondance des identifiants (DOI, PMID, etc.) à partir des référentiels usuels comme Web of Science, Scopus et de Science Metrix.
  • Enrichissement par apprentissage automatique

    Indexation de la classification de chaque document ISTEX à partir des bases Pascal (science, technologie et médecine) et Francis (sciences humaines et sociales), dont l’indexation a été effectuée par des ingénieurs documentalistes à l’Inist sur près de 8 millions de documents présents dans la base ISTEX.

    Reconstruction des fichiers XML des articles, selon le modèle de chaque revue, à partir des références bibliographiques les plus récentes transmises par les éditeurs. Le logiciel Grobid (GeneRation Of BIbliographic Data) est un outil d’analyse et d’extraction d’informations bibliographiques et de contenus.
  • Enrichissement TEEFT

    Indexation de la terminologie par analyse statistique des termes caractéristiques d’un article scientifique.

Téléchargement des ressources ISTEX

Deux fonctions de téléchargement sont accessibles :

  • Interface utilisateur permet d’effectuer une requête classique ou de lister les numéros Ark des documents recherchés. Elle affiche également les formats accessibles pour le téléchargement des données et métadonnées que l’utilisateur souhaite récupérer. Ce service est plafonnée à 100 000 documents par téléchargement.
  • Outil Harvester, permet aux informaticiens de télécharger en ligne de commande en se connectant à l’API ISTEX. Cette interface ne se limite pas en nombre de documents par téléchargement.

Lodex
Outil de sémantisation et de visualisation de données

Lodex est un logiciel open source qui facilite la curation et la sémantisation de données brutes (tableau Excel, fichiers en XML, JSON ou CSV).

Il permet d’exposer les données dans une interface de visualisation graphique et les connecter au web de données.

CNRS changement climatique – recherche française (avec laboratoires CNRS) – 2010-2015

Retrouvez l’intégralité de la documentation pour installer et paramétrer les instances Lodex.


Carto ISTEX
Outil de visualisation des métadonnées : pays, laboratoires et auteurs

L’observatoire Terre environnement Lorraine (OTELo) développe des outils et un accompagnement des chercheurs et projets pour la gestion des données. L’outil Carto ISTEX est basé sur l’exploitation des affiliations et clef auteur contenues dans les métadonnées des publications du réservoir ISTEX.

Widgets ISTEX

La recherche sur l’application s’effectue par l’intermédiaire des widgets ISTEX (requête, résultats et filtres) pour en extraire trois types de métadonnées : pays, laboratoire/institution et auteur

Visualisation de trois métadonnées (pays, laboratoire et auteur)

Retrouvez le support de présentation Carto ISTEX présenté dans le cadre de l’évènement ISTEX Tour fin 2018.


Cillex
Outil de visualisation des métadonnées d’un corpus textuel

L’outil Cillex est conçu pour produire des cartes dynamiques référençant les métadonnées d’une requête à l’API ISTEX. Cette cartographie permet de choisir les métadonnées d’intérêt en fonction du type de recherche (par thématique, par auteur, par date de publication, etc.).

Cartographie Cillex

Documentation et fonctionnalités

Le laboratoire cognition, langues, langage, ergonomie (CLLE) de Toulouse qui développe le logiciel de cartographie Cillex a rédigé la documentation technique sur la chaine de traitement et les fonctionnalités cartographique.

La constitution d’un corpus personnalisé s’effectue par l’intermédiaire d’un tableur de données externe. Ce tableur permet d’ajouter les métadonnées d’articles scientifiques issues de différentes bases de données. Par ailleurs, l’export et l’import des données s’effectue directement sur l’interface de cartographie Cillex (onglet boite à outils).

Tutoriel
Cartographie Cillex – 1 module vidéo (Inist)
Durée indicative : 10 minutes

Gargantext
Outil de visualisation de la terminologie d’un corpus textuel

L’outil Gargantext est conçu pour produire des cartes interactives qui évoluent au fur et à mesure que vous travaillez dessus. Ces cartes thématiques de mots peuvent être utilisées pour construire un état de l’art en cartographiant un ensemble de documents, et mettant en place une représentation collective.

Portail Gargantext

La carte n’est pas l’objectif final mais une étape intermédiaire qui se conçoit comme support pour créer une représentation adaptative d’une question ou d’un problème en permettant des aller/retours entre les différents niveaux de vos corpus (document, termes, cartes, etc.).

Cartographie Gargantext
Tutoriels
Make your first map (ISC-PIF)
Durée indicative : 10 minutes

Cartographie Gargantext – 1 module vidéo (Inist)
Durée indicative : 9 minutes

OpenMinTeD
Infrastructure européenne des outils d’extraction et d’exploitation des informations de la littérature scientifique

La plateforme OpenMinTeD, financé dans le cadre du programme Horizon 2020, met à disposition une plateforme collaborative de partage des connaissances sur la fouille de textes et de données au service des scientifiques de tout domaine.

Circuit de la fouille de textes

L’INRA est impliquée dans le projet aux côtés de 16 autres partenaires académiques dont les contributions sont coordonnées par l’Athena Research and Innovation Centre (ARC).

Le consortium travaille à l’intégration de ressources (littérature scientifique et ressources d’annotation) et de composants logiciels de fouille de textes, facilitant leur réutilisation et les rendant interopérables.