Le choix des formats de fichier (identifiés par l’extension dans le nom des fichiers) est particulièrement important car il déterminera la facilité de partager les données entre les membres du projet, de traiter les données et de les diffuser à la fin du projet.
Il faut privilégier les formats ouverts, non propriétaires, dont l’usage est répandu dans la communauté de recherche concernée :
- cela permet d’éviter l’obsolescence rapide des fichiers
- cela garantit de pouvoir accéder aux données dans un temps relativement long via des logiciels open source implémentant le format
- cela assure d’avoir des données réutilisables et durables.
Les formats de fichiers dépendent fortement des communautés scientifiques, mais on peut citer quelques exemples non exhaustifs, voir la page wikipedia sur les formats ouverts un peu génériques :
- Documents texte : txt, odt, pdf
- Données structurées : csv, ods, xml, json
- Données au format binaire (données expérimentale, données de simulation, …) : hdf5, netcdf
- Images : png, gif
- Multimédia : mp3, mp4
Ressources utiles
- Format ouvert ou fermé ? sur le site Doranum.
- Le référentiel général d’interopérabilité (RGI) : préconisations de la direction générale de la modernisation de l’Etat.
- Les informations sur les formats de fichiers pour l’archivage sur le site du CINES.
- L’outil du CINES permettant de tester la validité d’un fichier au format ouvert.
La notion de standard ouvert a une définition légale en France via la loi no 2004-575 du 21 juin 2004 pour “la confiance dans l’économie numérique” : “On entend par standard ouvert tout protocole de communication, d’interconnexion ou d’échange et tout format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d’accès ni de mise en œuvre.”