Explorer mes données de recherche

La production scientifique s’accélère chaque année avec un taux de croissance des articles publiés compris entre 5 et 6,5% pour l’année 2021. D’après le rapport du syndicat des éditeurs, la base de données Dimensions a enregistré plus de 4,7 millions d’articles publiés en 2020 dans plus de 35 000 journaux d’éditeurs scientifiques.

Cette augmentation du volume de l’information produite par la communauté scientifique devient difficile à suivre par les chercheurs et chercheuses dans toutes les disciplines. L’apport massif de données et de publications, associé à la multiplication des canaux de diffusion, complexifie la veille et l’exploration de la littérature scientifique.


Plateforme ISTEX

Une plateforme numérique des productions scientifiques à destination de la recherche française

La plateforme ISTEX, développée par l’Inist, met à disposition de l’ESR français une collection pluridisciplinaire acquise de manière pérenne. L’enrichissement et l’homogénéisation de la base, associé à un moteur de recherche puissant, Elasticsearch, la plateforme ISTEX améliore la qualité et l’exhaustivité des résultats de recherche.

Chiffres 2019
Plus de 27 millions de documents, de 1473 à 2021, répartis sur près de 30 corpus éditeurs et rassemblant plus de 250 éditeurs scientifiques.
Usages de la plateforme ISTEX

La plateforme ISTEX met à disposition, des établissements ayant adhéré, des services de fouille de textes et de données. Ces fonctionnalités permettent aux communautés scientifiques d’effectuer des travaux sur de grands volumes documentaires.

Enrichissements des métadonnées

Un travail important de nettoyage et de curation des données a été mené par l’Inist. L’ensemble de la base est homogénéisé et enrichi pour permettre une recherche fine et pertinente. Ceci permet au chercheur de gagner un temps précieux dans la phase de constitution de corpus, préalable à tout travail de fouille de textes.

Enrichissement par appariement

Alignement de la catégorisation de chaque document ISTEX par correspondance des identifiants (DOI, PMID, etc.) à partir des référentiels usuels.

Enrichissement par apprentissage automatique

Indexation de la classification de chaque document ISTEX à partir des bases Pascal (science, technologie et médecine) et Francis (sciences humaines et sociales), dont l’indexation a été effectuée par des ingénieurs documentalistes à l’Inist sur près de 8 millions de documents présents dans la base ISTEX.

Reconstruction des fichiers XML des articles, selon le modèle de chaque revue, à partir des références bibliographiques les plus récentes transmises par les éditeurs. Le logiciel Grobid (GeneRation Of BIbliographic Data) est un outil d’analyse et d’extraction d’informations bibliographiques et de contenus.

Enrichissement TEEFT

Indexation de la terminologie par analyse statistique des termes caractéristiques d’un article scientifique.

Téléchargement des ressources ISTEX

Deux fonctions de téléchargement sont accessibles :

L’interface utilisateur permet d’effectuer une requête classique ou de lister les numéros Ark des documents recherchés. Elle affiche également les formats accessibles pour le téléchargement des données et métadonnées que l’utilisateur souhaite récupérer. Ce service est plafonnée à 100 000 documents par téléchargement.

L’outil Harvester permet aux informaticiens de télécharger en ligne de commande en se connectant à l’API ISTEX. Cette interface ne se limite pas en nombre de documents par téléchargement.


Visualisation Lodex

Un outil de sémantisation et de visualisation de données

Le logiciel Lodex est un outil en open source qui facilite la curation et la sémantisation de données brutes (tableau Excel, fichiers en XML, JSON ou CSV).

Il permet d’exposer les données dans une interface de visualisation graphique et les connecter au web de données.

Retrouvez l’intégralité de la documentation pour installer et paramétrer les instances Lodex.


Cartographie GarganText

Un logiciel de cartographie pour explorer la littérature scientifique

Le logiciel GarganText est une application web qui met à disposition un espace de travail collaboratif à destination des communautés de recherche.

Cette plateforme permet de produire des cartes interactives pour explorer la littérature scientifique et produire de la connaissance. Les cartes thématiques permettent de lier des concepts scientifiques afin d’explorer un corpus documentaire et construire un état de l’art autour d’une représentation collective.

Portail Gargantext

La carte n’est pas l’objectif final mais une étape intermédiaire qui se conçoit comme support pour créer une représentation adaptative d’une question ou d’un problème en permettant des aller/retours entre les différents niveaux de vos corpus (document, termes, cartes, etc.).

Cartographie Gargantext
Tutoriels
Make your first map (ISC-PIF)
Durée indicative : 10 minutes

Cartographie Gargantext – 1 module vidéo (Inist)
Durée indicative : 9 minutes