Grâce au nouveau validateur de données du GBIF, les éditeurs de données peuvent améliorer la qualité de leurs jeux de données : le logiciel identifie les problèmes potentiels avant la phase de publication, permettant ainsi à l'utilisateur de les corriger.
L'équipe informatique du Secrétariat du GBIF a développé une version «early release» du service avec pour objectif de l'améliorer, en grande partie grâce au retours des utilisateurs. Le service effectue les mêmes contrôles que ceux effectués après la publication des jeux de données sur le GBIF.org. Cela permet de signaler des erreurs avant la publication.
C'est également le premier outil permettant d'interpréter et de valider le contenu d'un jeu de données ainsi que sa structure.
Les utilisateurs qui chargent un jeu de données (en utilisant un des formats acceptés) dans le validateur reçoivent rapidement un rapport.
Celui-ci interprète le jeu de données et met en évidence les problèmes potentiels concernant son contenu, sa syntaxe et sa structure.
Les types de fichiers pris en charge incluent :
- les archives Darwin Core (DwC-A)
- les modèles de jeux de données GBIF standard
- les fichiers CSV simples qui contiennent des termes Darwin Core dans leur première rangée.
Ceux qui souhaitent valider de grands jeux de données peuvent également soumettre des URL de jeux de données.
Le temps de traitement varie en fonction de la taille du jeu de données. Toutefois, étant donné que chaque nouveau processus de validation génère un identifiant unique de travail, les utilisateurs disposant de grands jeux de données, ou limités dans le temps, peuvent mettre en "marque-page" l'URL de leur rapport et y revenir plus tard.
Chaque rapport de validation contient:
- un résumé rapide du jeu de données qui indique si le GBIF.org peut indexer le fichier avec succès ou non
- un aperçu des problèmes d'interprétation du GBIF pour le jeu de données
- un résumé détaillé de tous les problèmes rencontrés avec les métadonnées, le coeur du jeu de données et ses extensions
- le nombre d'enregistrements interprétés avec succès
- la fréquence des termes utilisés dans le jeu de données
Les utilisateurs du validateur de données peuvent également voir comment leurs métadonnées apparaîtront une fois celle-ci publiées sur le GBIF.org.
Les utilisateurs, dont les rapports de validation permettent d'identifier les problèmes bloquants liés à l'indexation de leurs jeux de données, peuvent se concentrer sur la résolution de ceux-ci avant de procéder à la publication.
Dans le même temps, les utilisateurs dont les jeux de données ont été validés peuvent examiner attentivement d'autres problèmes moins graves ou des erreurs de conversion et ainsi améliorer encore la qualité de leurs données.
Tous les utilisateurs sont encouragés à envoyer des jeux de données dans le validateur, que les erreurs qu'ils souhaitent détecter soient importantes, systématiques ou uniques.
Comme tous les outils GBIF, le validateur de données est un logiciel open-source, avec son code source et sa documentation disponibles dans le dossier GitHub du projet.
Cliquez sur les liens suivants pour en savoir plus sur le validateur de données ou, mieux encore, comment mettre l'outil à disposition. Les retours des utilisateurs seront à la fois bienvenus et essentiels pour affiner ce service et aider les éditeurs de données à résoudre les problèmes potentiels avec leurs jeux de données, de manière rapide et efficace.
Plus d'informations ici (en anglais)
Hachemort à la tête de la mort (Acherontia atropos) avec des abeilles mellifères (Apis melifera). Photo de blingbeek via des observations d'iNaturalist Research sous licence CC BY-NC 4.0.