Fouille de textes et de données

La production scientifique s’accélère au fil des années. Il est devenu difficile de suivre l’intégralité des publications produites. Plus de 2,5 millions d'articles sont publiés chaque année1, 50% des articles ne sont jamais lus2, 90% des articles ne sont pas cités2 et 80% des articles cités ne sont pas lus3.

Le CNRS a pour volonté d’apporter à l’ensemble des acteurs de la production scientifique des outils de fouille de textes capables d’assister l’utilisateur dans sa démarche de consultation et d’analyse des ressources scientifiques.

En conséquence, les nouveaux services d’appui aux chercheurs dans le domaine de l’IST doivent évoluer vers l’analyse de contenu (Content Mining) en complément de l’offre de signalement (bases de données bibliographiques, catalogues) et d’accès (portails) à la production scientifique. Les outils présentés ici s'inscrivent dans cette démarche d'aide à la fouille et d'analyse de contenus.

1 The STM report, 2015

2 Lokman I. Meho, the rise and rise of citation analysis, 2007.

3 Simkin & Roychowdhury. Read before you cite!, 2002


  1. Cillex - outil de visualisation des métadonnées d'un corpus textuel
  2. Gargantext - outil de visualisation de la terminologie d'un corpus textuel
  3. Huma-Num - très grande infrastructure de recherche (TGIR) en sciences humaines et sociales
  4. OpenMinTeD - plateforme européenne d’outils informatiques pour extraire et exploiter les informations de la littérature scientifique


Cillex
Outil de visualisation des métadonnées d’un corpus textuel

L’outil Cillex est conçu pour produire des cartes dynamiques référençant les métadonnées d’une requête à l’API ISTEX. Cette cartographie permet de choisir les métadonnées d’intérêt en fonction du type de recherche (par thématique, par auteur, etc.) 

Vidéo de présentation
Identifier l’information pertinente dans une base documentaire

Cartographie Cillex

Documentation et fonctionnalités

Chaine de traitement
Démonstrateur ISTEX
Graphsearch
Tableur de données

Gargantext
Outil de visualisation de la terminologie d’un corpus textuel

L’outil Gargantext est conçu pour produire des cartes interactives qui évoluent au fur et à mesure que vous travaillez dessus. Ces cartes thématiques de mots peuvent être utilisées pour construire un état de l’art en cartographiant un ensemble de documents, et mettant en place une représentation collective.

Portail Gargantext

La carte n’est pas l’objectif final mais une étape intermédiaire qui se conçoit comme support pour créer une représentation adaptative d’une question ou d’un problème en permettant des aller/retours entre les différents niveaux de vos corpus (document, termes, cartes, etc.).

Cartographie Gargantext

Tutoriel Gargantext

Make your first map
Durée indicative : 10 minutes

Huma-Num
Très grande infrastructure de recherche (TGIR) en sciences humaines et sociales

Très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales. Au coeur des SHS et des humanités numériques, elle est bâtie sur une organisation originale consistant à mettre en œuvre un dispositif humain (concertation collective) et technologique (services numériques pérennes) à l’échelle nationale et européenne en s’appuyant sur un important réseau de partenaires et d’opérateurs.

Huma-Num propose un ensemble de services pour les données numériques produites en SHS. A chaque étape du cycle de vie des données correspond un service dédié :

Services Huma-Num

Les services et outils numérique de la TGIR Huma-Num sont constitués d’un ensemble de technologies d’infrastructure (serveurs) et de systèmes informatiques mis à la disposition des laboratoires et équipes de recherche pour mutualiser, diffuser et stabiliser l’accès aux données et documents.

La mission première est d’assurer la préservation du patrimoine scientifique des laboratoires, et plus particulièrement des données et documents acquis ou réalisés dans le cadre d’opération de recherche : corpus, bases de données, bases documentaires, systèmes d’information, enquêtes, données d’observation produites ou en cours de production. Cette mission sous-tend également une stratégie économique visant à diminuer les coûts récurrents, par la mise en commun d’une infrastructure en co-gérant des outils, instruments et systèmes de gestion des données.


ISIDORE
Moteur de recherche en sciences humaines et sociales

Un service qui collecte, enrichit et offre un signalement et un accès unifié aux documents et données numériques des sciences humaines et sociales.

ISIDORE « moissonne » les notices, les métadonnées et le texte intégral issus des publications électroniques, des corpus, des bases de données et des actualités scientifiques, accessibles sur le web et proposés dans des standards ouverts d’interopérabilité. ISIDORE moissonne principalement des données francophones produites en France ou dans le monde francophone mais intègre aussi des données en anglais et en espagnol. Enfin ISIDORE valorise les données en libre accès.


Nakala
Service d’Exposition de Données en SHS

Propose deux grands types de services : des services d’accès aux données elles-mêmes et des services de présentation des métadonnées. Les producteurs de données numériques ainsi soulagés de la gestion purement technique, peuvent ainsi se consacrer à la valorisation scientifique de leurs données.


Nakalona
Service éditorial pour le Web

Les données hébergées par Nakala peuvent être éditorialisées sur le web à l’aide du pack Nakalona (associant Oméka et Nakala) développé et géré par Huma-Num.


OpenMinTeD
Plateforme européenne d’outils informatiques pour extraire et exploiter les informations de la littérature scientifique

Le projet européen OpenMinTeD, financé dans le cadre du programme Horizon 2020, est la création d’une plateforme en ligne de collaboration et de partage de connaissances sur la fouille de textes et de données au service des scientifiques de tout domaine.

Circuit de la fouille de textes

L’Inra, avec l’équipe Bibliome-MaIAGE et la DIST, sont impliqués dans le projet aux côtés de 16 autres partenaires académiques dont les contributions sont coordonnées par l’Athena Research and Innovation Centre (ARC).

Le consortium travaille à l’intégration de ressources (littérature scientifique et ressources d’annotation) et de composants logiciels de fouille de textes, facilitant leur réutilisation et les rendant interopérables.