Exploration des données

La production scientifique s’accélère et s’intensifie au fil des années, il devient très difficile de suivre ce flux de publications en constante évolution. En 2018, la production scientifique annuelle dépasse les 3 millions d’articles publiés dans l’un des 33 100 journaux d’éditeurs scientifique [STM Report, 2018].

Une étude du journal Nature Research révèle un taux de 21% d’articles non cités parmi plus de 39 millions d’articles de recherche référencés dans le Web Of Science entre 1900 à fin 2015. Il apparait que ce taux de citation s’accompagne d’une augmentation du nombre de références bibliographiques dans les articles qui sont passées en moyenne de 25 références en 2000 à plus de 40 références en 2015 [The science that’s never been cited, 2018].


Plateforme ISTEX

Plateforme numérique innovante pour
l’exploration documentaire et de données

La plateforme ISTEX, développée par l’Inist, met à disposition de l’ESR français une collection pluridisciplinaire acquise de manière pérenne. L’enrichissement et l’homogénéisation de la base, associé à un moteur de recherche puissant, Elasticsearch, la plateforme ISTEX améliore la qualité et l’exhaustivité des résultats de recherche.

Chiffres 2019
Plus de 23 millions de documents, de 1473 à 2016, répartis en 26 corpus éditeurs et rassemblant plus de 250 éditeurs scientifiques.
Usages de la plateforme ISTEX

La plateforme ISTEX met à disposition, des établissements ayant adhéré, des services de fouille de textes et de données. Ces fonctionnalités permettent aux communautés scientifiques d’effectuer des travaux sur de grands volumes documentaires.

Enrichissements des métadonnées

Un travail important de nettoyage et de curation des données a été mené par l’Inist. L’ensemble de la base est homogénéisé et enrichi pour permettre une recherche fine et pertinente. Ceci permet au chercheur de gagner un temps précieux dans la phase de constitution de corpus, préalable à tout travail de fouille de textes.

1 – Enrichissement par appariement
Alignement de la catégorisation de chaque document ISTEX par correspondance des identifiants (DOI, PMID, etc.) à partir des référentiels usuels comme Web of Science, Scopus et de Science Metrix.

2 – Enrichissement par apprentissage automatique
Indexation de la classification de chaque document ISTEX à partir des bases Pascal (science, technologie et médecine) et Francis (sciences humaines et sociales), dont l’indexation a été effectuée par des ingénieurs documentalistes à l’Inist sur près de 8 millions de documents présents dans la base ISTEX.

Reconstruction des fichiers XML des articles, selon le modèle de chaque revue, à partir des références bibliographiques les plus récentes transmises par les éditeurs. Le logiciel Grobid (GeneRation Of BIbliographic Data) est un outil d’analyse et d’extraction d’informations bibliographiques et de contenus.

3 – Enrichissement TEEFT
Indexation de la terminologie par analyse statistique des termes caractéristiques d’un article scientifique.

Téléchargement des ressources ISTEX

Deux fonctions de téléchargement sont accessibles :

  • Interface utilisateur permet d’effectuer une requête classique ou de lister les numéros Ark des documents recherchés. Elle affiche également les formats accessibles pour le téléchargement des données et métadonnées que l’utilisateur souhaite récupérer. Ce service est plafonnée à 100 000 documents par téléchargement.
  • Outil Harvester, permet aux informaticiens de télécharger en ligne de commande en se connectant à l’API ISTEX. Cette interface ne se limite pas en nombre de documents par téléchargement.

Datavisualisation Lodex

Outil de sémantisation et
de visualisation de données

Le logiciel Lodex est un outil en open source qui facilite la curation et la sémantisation de données brutes (tableau Excel, fichiers en XML, JSON ou CSV).

Il permet d’exposer les données dans une interface de visualisation graphique et les connecter au web de données.

Retrouvez l’intégralité de la documentation pour installer et paramétrer les instances Lodex.


Carto ISTEX

Outil de visualisation des métadonnées :
pays, laboratoires et auteurs

L’observatoire Terre environnement Lorraine (OTELo) développe des outils et un accompagnement des chercheurs et projets pour la gestion des données. L’outil Carto ISTEX est basé sur l’exploitation des affiliations et clef auteur contenues dans les métadonnées des publications du réservoir ISTEX.

Widgets ISTEX

La recherche sur l’application s’effectue par l’intermédiaire des widgets ISTEX (requête, résultats et filtres) pour en extraire trois types de métadonnées : pays, laboratoire/institution et auteur

Visualisation de trois métadonnées (pays, laboratoire et auteur)

Retrouvez le support de présentation Carto ISTEX présenté dans le cadre de l’évènement ISTEX Tour fin 2018.


Cartographie Cillex

Outil de visualisation des métadonnées
d’un corpus de textes

L’outil Cillex est conçu pour produire des cartes dynamiques référençant les métadonnées d’une requête à l’API ISTEX. Cette cartographie permet de choisir les métadonnées d’intérêt en fonction du type de recherche (par thématique, par auteur, par date de publication, etc.).

Cartographie Cillex

Documentation et fonctionnalités

Le laboratoire cognition, langues, langage, ergonomie (CLLE) de Toulouse qui développe le logiciel de cartographie Cillex a rédigé la documentation technique sur la chaine de traitement et les fonctionnalités cartographique.

La constitution d’un corpus personnalisé s’effectue par l’intermédiaire d’un tableur de données externe. Ce tableur permet d’ajouter les métadonnées d’articles scientifiques issues de différentes bases de données. Par ailleurs, l’export et l’import des données s’effectue directement sur l’interface de cartographie Cillex (onglet boite à outils).

Tutoriel
Cartographie Cillex – 1 module vidéo (Inist)
Durée indicative : 10 minutes

Cartographie GarganText

Logiciel de visualisation de la terminologie
d’un corpus de textes

Le logiciel GarganText est conçu pour produire des cartes interactives qui évoluent au fur et à mesure que vous travaillez dessus. Ces cartes thématiques de mots peuvent être utilisées pour construire un état de l’art en cartographiant un ensemble de documents, et mettant en place une représentation collective.

Portail Gargantext

La carte n’est pas l’objectif final mais une étape intermédiaire qui se conçoit comme support pour créer une représentation adaptative d’une question ou d’un problème en permettant des aller/retours entre les différents niveaux de vos corpus (document, termes, cartes, etc.).

Cartographie Gargantext
Tutoriels
Make your first map (ISC-PIF)
Durée indicative : 10 minutes

Cartographie Gargantext – 1 module vidéo (Inist)
Durée indicative : 9 minutes