Ce document synthétise de nombreuses informations concernant la problématique du stockage.
Lorsque débute un projet de recherche, le premier besoin, est de savoir où seront stockées les données.
Mais il est important d’aller au delà de cette première question pour bien appréhender le ou les besoins réels :
- Que dois-je stocker ?
- Des données scientifiques, des codes, des documents ?
- Des fichiers binaires ou ascii ?
- Quelle est / sera la volumétrie des données ?
- Quel niveau de sécurisation / sauvegarde est nécessaire (les données sont-elles facilement reproductibles ?) ?
- Que vais-je faire avec ces données ?
- Des traitements ou du calcul
- De l’analyse, de la fouille
- Du partage
- De la préservation …
- Les données ont-elles un caractère sensible ou confidentiel ?
- Qui devra avoir accès aux données ?
- De quelle manière les données devront-elles être accédées ?
- Quels vont être les flux / débits de données (continu & régulier, épisodique, …) ?
- Quand vais-je avoir besoin de ces données ?
- Rapidement, de façon régulière
- Dans quelques mois
- Peut-être dans quelques années …
- A la fin du projet, quel volume de données devra être préservé et sur quelle durée ?
- Quel est le financement prévu pour la gestion et le stockage des données ?
La dernière question n’est pas technique mais elle a des conséquences qui peuvent être importantes selon les choix techniques qui seront réalisés. En effet, le stockage des données (au sens large) a un coût matériel et humain qu’il est impératif de prendre en compte lors du dépôt des projets de recherche.
Quelques définitions et concepts sont importants à appréhender avant de faire des choix et de s’orienter vers les services disponibles.
Un des objectifs du Plan de Gestion de Données (PGD) ou Data Management Plan (DMP) est de répondre à ces questions.