Exploration des données

La production scientifique s’accélère et s'intensifie au fil des années, il devient très difficile de suivre ce flux de publications en constante évolution. En 2018, la production scientifique annuelle dépasse les 3 millions d'articles publiés dans l’un des 33 100 journaux d’éditeurs scientifique [STM Report, 2018]. Une étude du journal natureresearch révèle un taux de 21% d’articles non cités parmi plus de 39 millions d’articles de recherche référencés dans le Web Of Science entre 1900 à fin 2015. Il apparait que la plupart de ces articles non cités sont publiés dans des revues peu connues. Par ailleurs, ce taux de citation s’accompagne d’une augmentation du nombre de références bibliographiques dans les articles qui sont passées en moyenne de 25 références en 2000 à plus de 40 références en 2015 [The science that’s never been cited, 2018].

La puissance de calcul des logiciels pour la recherche d’informations et le traitement automatique des langues apparait comme la solution prédisposée à assister la recherche documentaire. Les outils informatiques s’appuient sur l’intelligence artificielle pour croiser les données et développer des modèles d’apprentissage automatique. Ces logiciels assurent l’extraction, l’analyse et l’organisation du flux de données permettant à l’opérateur d’y naviguer et d’y sélectionner les groupes de données d’intérêt.

Ainsi, l’exploration de données (intitulée généralement Text and Data Mining ou TDM) se définit comme l’acte d’analyser des textes et/ou données numériques à l’aide de programmes informatiques, pour en extraire de l’information. Ce processus de traitement, répété sur des corpus distincts, est susceptible de produire des connaissances scientifiques nouvelles.


  1. ISTEX - plateforme numérique innovante pour pour la fouille de textes et de données
  2. Lodex - outil de sémantisation et de visualisation de données
  3. Carto ISTEX - outil de visualisation des pays, laboratoire/institution et auteur
  4. Cillex - outil de visualisation des métadonnées d'un corpus textuel
  5. Gargantext - outil de visualisation de la terminologie d'un corpus textuel
  6. OpenMinTeD - plateforme européenne d’outils informatiques pour extraire et exploiter les informations de la littérature scientifique


ISTEX
Plateforme numérique innovante pour l’exploration documentaire et de données

Une plateforme numérique innovante, développée par l’Inist, qui met à disposition de l’ESR français une collection pluridisciplinaire acquise de manière pérenne. L’enrichissement et l’homogénéisation de la base, associé à un moteur de recherche puissant, Elasticsearch, la plateforme ISTEX améliore la qualité et l’exhaustivité des résultats de recherche.

En chiffre (2019)
Plus de 23 millions de documents, de 1473 à 2016, répartis en 26 corpus éditeurs et rassemblant plus de 250 éditeurs scientifiques.
Usages de la plateforme ISTEX

La plateforme ISTEX met à disposition, des établissements ayant adhéré, des services de fouille de textes et de données. Ces fonctionnalités permettent aux communautés scientifiques d’effectuer des travaux sur de grands volumes documentaires.


Enrichissements des métadonnées

Un travail important de nettoyage et de curation des données a été mené par l’Inist. L’ensemble de la base est homogénéisé et enrichi pour permettre une recherche fine et pertinente. Ceci permet au chercheur de gagner un temps précieux dans la phase de constitution de corpus, préalable à tout travail de fouille de textes.

  • Enrichissement par appariement

    Alignement de la catégorisation de chaque document ISTEX par correspondance des identifiants (DOI, PMID, etc.) à partir des référentiels usuels comme Web of Science, Scopus et de Science Metrix.
  • Enrichissement par apprentissage automatique

    Indexation de la classification de chaque document ISTEX à partir des bases Pascal (science, technologie et médecine) et Francis (sciences humaines et sociales), dont l’indexation a été effectuée par des ingénieurs documentalistes à l’Inist sur près de 8 millions de documents présents dans la base ISTEX.

    Reconstruction des fichiers XML des articles, selon le modèle de chaque revue, à partir des références bibliographiques les plus récentes transmises par les éditeurs. Le logiciel Grobid (GeneRation Of BIbliographic Data) est un outil d’analyse et d’extraction d’informations bibliographiques et de contenus.
  • Enrichissement TEEFT

    Indexation de la terminologie par analyse statistique des termes caractéristiques d’un article scientifique.

Téléchargement des ressources ISTEX

Deux fonctions de téléchargement sont accessibles :

  • Interface utilisateur permet d’effectuer une requête classique ou de lister les numéros Ark des documents recherchés. Elle affiche également les formats accessibles pour le téléchargement des données et métadonnées que l’utilisateur souhaite récupérer. Ce service est plafonnée à 100 000 documents par téléchargement.
  • Outil Harvester, permet aux informaticiens de télécharger en ligne de commande en se connectant à l’API ISTEX. Cette interface ne se limite pas en nombre de documents par téléchargement.

Lodex
Outil de sémantisation et de visualisation de données

Lodex est un logiciel open source qui facilite la curation et la sémantisation de données brutes (tableau Excel, fichiers en XML, JSON ou CSV).

Il permet d’exposer les données dans une interface de visualisation graphique et les connecter au web de données.

CNRS changement climatique – recherche française (avec laboratoires CNRS) – 2010-2015

Retrouvez l’intégralité de la documentation pour installer et paramétrer les instances Lodex.


Carto ISTEX
Outil de visualisation des métadonnées : pays, laboratoires et auteurs

L’observatoire Terre environnement Lorraine (OTELo) développe des outils et un accompagnement des chercheurs et projets pour la gestion des données. L’outil Carto ISTEX est basé sur l’exploitation des affiliations et clef auteur contenues dans les métadonnées des publications du réservoir ISTEX.

Widgets ISTEX

La recherche sur l’application s’effectue par l’intermédiaire des widgets ISTEX (requête, résultats et filtres) pour en extraire trois types de métadonnées : pays, laboratoire/institution et auteur

Visualisation de trois métadonnées (pays, laboratoire et auteur)

Retrouvez le support de présentation Carto ISTEX présenté dans le cadre de l’évènement ISTEX Tour fin 2018.


Cillex
Outil de visualisation des métadonnées d’un corpus textuel

L’outil Cillex est conçu pour produire des cartes dynamiques référençant les métadonnées d’une requête à l’API ISTEX. Cette cartographie permet de choisir les métadonnées d’intérêt en fonction du type de recherche (par thématique, par auteur, par date de publication, etc.).

Cartographie Cillex

Documentation et fonctionnalités

Le laboratoire cognition, langues, langage, ergonomie (CLLE) de Toulouse qui développe le logiciel de cartographie Cillex a rédigé la documentation technique sur la chaine de traitement et les fonctionnalités cartographique.

La constitution d’un corpus personnalisé s’effectue par l’intermédiaire d’un tableur de données externe. Ce tableur permet d’ajouter les métadonnées d’articles scientifiques issues de différentes bases de données. Par ailleurs, l’export et l’import des données s’effectue directement sur l’interface de cartographie Cillex (onglet boite à outils).

Tutoriel
Cartographie Cillex – 1 module vidéo (Inist)
Durée indicative : 10 minutes

Gargantext
Outil de visualisation de la terminologie d’un corpus textuel

L’outil Gargantext est conçu pour produire des cartes interactives qui évoluent au fur et à mesure que vous travaillez dessus. Ces cartes thématiques de mots peuvent être utilisées pour construire un état de l’art en cartographiant un ensemble de documents, et mettant en place une représentation collective.

Portail Gargantext

La carte n’est pas l’objectif final mais une étape intermédiaire qui se conçoit comme support pour créer une représentation adaptative d’une question ou d’un problème en permettant des aller/retours entre les différents niveaux de vos corpus (document, termes, cartes, etc.).

Cartographie Gargantext
Tutoriels
Make your first map (ISC-PIF)
Durée indicative : 10 minutes

Cartographie Gargantext – 1 module vidéo (Inist)
Durée indicative : 9 minutes

OpenMinTeD
Infrastructure européenne des outils d’extraction et d’exploitation des informations de la littérature scientifique

La plateforme OpenMinTeD, financé dans le cadre du programme Horizon 2020, met à disposition une plateforme collaborative de partage des connaissances sur la fouille de textes et de données au service des scientifiques de tout domaine.

Circuit de la fouille de textes

L’INRA est impliquée dans le projet aux côtés de 16 autres partenaires académiques dont les contributions sont coordonnées par l’Athena Research and Innovation Centre (ARC).

Le consortium travaille à l’intégration de ressources (littérature scientifique et ressources d’annotation) et de composants logiciels de fouille de textes, facilitant leur réutilisation et les rendant interopérables.