Définition

Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche. Ce terme ne s’applique pas aux éléments suivants : carnets de laboratoire, analyses préliminaires et projets de documents scientifiques, programmes de travaux futurs, examens par les pairs, communications personnelles avec des collègues et objets matériels (par exemple, les échantillons de laboratoire, les souches bactériennes et les animaux de laboratoire tels que les souris).

Définition du Rapport OCDE 2007

Cette définition est assez restrictive et on peut élargir aux catégories suivantes (proposées par l’INIST – Institut de l’Information Scientifique et Technique du CNRS) :

  • Les données d’observation : données capturées en temps réel, habituellement uniques et donc impossibles à reproduire.
  • Les données expérimentales : données obtenues à partir d’équipements de laboratoire, qui sont souvent reproductibles mais parfois coûteuses.
  • Les données computationnelles ou de simulation : données générées par des modèles informatiques ou de simulation, souvent reproductibles si le modèle est correctement documenté.
  • Les données dérivées ou compilées : données issues du traitement ou de la combinaison de données “brutes”, elles sont souvent reproductibles mais coûteuses.
  • Les données de référence : collection ou accumulation de petits jeux de données qui ont été revus par les pairs, annotés et mis à disposition.

Les données de la recherche peuvent donc prendre des formes très variées : images, données numériques, textes, vidéos, codes sources, …

Cette vidéo aborde de nombreuses problématiques liées à la gestion des données d’un projet de recherche, n’hésitez pas à la regarder, en moins de 5 minutes vous comprendrez tous les enjeux !

Cycle de vie des données

Principes FAIR

“FAIR Guiding Principles for scientific data management and stewardship” ont été publiés dans Scientific Data en 2016.

L’acronyme de Findable, Accessible, Interoperable, Reusable définit les fondements d’un partage de données faciles à trouver, accessibles, interopérables et réutilisables.

Les principaux organismes de financement, dont la Commission européenne, encouragent à rendre les données FAIR afin de garantir l’intégrité et augmenter l’impact de leurs investissements dans la recherche.

Lignes directrices pour la gestion des données FAIR dans Horizon 2020

Chaque fois que vous travaillez avec les données de recherche ou que vous lancez un nouveau projet de recherche, il convient de prévoir les aspects suivants :

  1. Stockage et partage des données de recherche avec les collaborateurs. Il est bien d’estimer la taille des données collectées ou produites au cours du projet et réfléchir à l’endroit où les données seront stockées. Il est également important de réfléchir au niveau de sécurité possible pour accéder à vos données et aux sauvegardes régulières.
  2. Organisation et documentation des données de recherche. Même une question aussi évidente que l’organisation et la documentation des données de recherche nécessite une planification rigoureuse avec la question clé : serai-je en mesure de trouver et de comprendre mes données dans quelques années ?
  3. Ouverture des données de recherche. Donner accès aux données de recherche devient une pratique générale pour valider les résultats scientifiques et rendre la science totalement transparente (ouverte). De plus, les exigences des organismes de financement en matière de données ouvertes se multiplient d’année en année. Il est donc important de planifier l’ouverture des données de recherche à l’avance.
  4. Préservation des données de recherche. Il faut tenir compte de ce qui se passera avec les données lorsque le projet sera terminé. La disponibilité des données après le projet de recherche peut être importante non seulement juste après le projet, mais aussi dans 20 à 30 ans. Il est donc important de préserver les données de recherche et d’en assurer l’accès.

Cette présentation interactive DoRANum a pour objectif d’expliquer de façon simplifiée chaque item des principes FAIR.