Moteurs de recherche généralistes

Il existe des moteurs permettant de rechercher dans plusieurs entrepôts :

  • DataciteCommons : mis en place par Datacite, le fournisseur mondial de DOI (Digital Object Identifier)  pour les données scientifiques, Datacite Commons est un moteur de recherche qui recense près de 20 millions de jeux de données issus de près de 2000 entrepôts
  • Dataset Search : proposé par Google, l’outil présent une indexation de 25 millions de jeux de données. Les jeux de données repérés par le moteur de recherche doivent être issus de sites respectant le format structuré schema.org
  • OpenAire : est une plateforme qui signale aussi bien les publications que les données de recherche issues pour l’essentiel de projets financés par l’UE. Plus de 100 entrepôts sont moissonnés. Il est possible de filtrer la recherche par nom de projet, par financeur, par type de données etc.
  • Mendeley Data : créé par l’éditeur Elsevier, est à la fois un moteur indexant plus de 20 millions de données et un entrepôt acceptant les dépôts après création d’un compte
  • Data Citation Index : fournit un point d’accès unique à des données de recherche de qualité provenant de dépôts mondiaux dans toutes les disciplines, ainsi que des mesures de citations. Les données sont liées à des articles scientifiques dans Web of Science.
  • Dimensions.ia et Lens.org : sont des agrégateurs de publications, qui proposent chacun un filtre « dataset » afin de ne chercher que parmi les jeux de données des différents types de publications moissonnées

Entrepôts

Il existe de nombreux entrepôts qui présentent la particularité de permettre la recherche comme le dépôt de données. Mais il existe également un nombre non-négligeable d’entrepôts ne permettant que la consultation de données, si vous n’êtes pas affiliés à l’institution ou au projet. Les entrepôts de données intègrent toujours des moteurs de recherche avec des filtres pour faciliter l’accès aux données qu’ils contiennent. Il existe différents types d’entrepôts :

Généralistes

Nationaux

Par Institution / Organisme

Thématiques

Data Papers

Le data paper (ou data article) est une publication scientifique, soumise à la validation des pairs, dont le but principal est de décrire un ou plusieurs jeux de données. A partir de Web of Science, il est possible de filtrer les résultats en ne retenant que les data papers comme type de documents. Voici une liste de data journals généralistes et thématiques (Chimie, Physique et disciplines liées):

Page sur le sujet : Data Paper

Supplementary Materials

Dans le supplementary materials, partie intégrante d’un article scientifique, l’auteur explicite sa méthode, ses calculs et peut joindre des données complémentaires sous forme de tableaux, diagrammes etc. Mais leur caractère éclaté, la disparité de ce qui est demandé d’un journal à l’autre et les volumes limités de données qui peuvent être adjoints sont susceptibles de limiter la découverte de contenus utiles.

Fouille de texte / Texte and data Mining

Pour faciliter l’exploration des données et dans le cadre du projet VisaTM L’INIST a mis en place un catalogue des outils permettant la fouille de texte.