Un ensemble de données contenant près de 1,3 milliard d'enregistrements d'occurrences d'espèces du réseau GBIF est désormais disponible à l'utilisation via le catalogue de données du Planetary Computer de Microsoft. Actuellement composé d'enregistrements sous licence ouverte et géoréférencés, partagés par le GBIF jusqu'à la mi-avril, cet aperçu fournit aux utilisateurs de l'environnement du cloud numérique Microsoft Azure un accès facile aux données primaires de biodiversité dans des formats cohérents et prêts à l'analyse.
Développé par Microsoft AI for Earth, le Planetary Computer combine des pétaoctets de données de surveillance environnementale à l'échelle mondiale et les rend facilement accessibles aux utilisateurs du système de calcul virtuel à grande échelle. Documentation, exemple de cahier et un billet de l'analyste de données du GBIF John Waller sur le Blog GBIF Data décrit comment les utilisateurs peuvent commencer à accéder aux données diffusées par le GBIF à partir du stockage en blob sur Azure, que ce soit à l'intérieur ou à l'extérieur du Planetary Computer.
L'entrée dans le catalogue du Planetary Computer est opportune, étant donné son potentiel pour soutenir les demandes de subvention des premiers utilisateurs pour un montant allant jusqu'à 60 000 dollars américains à la fois en financement et en crédits de calcul ainsi que d'autres ressources par le biais du programme du Planetary Computer de GEO-Microsoft. La date limite pour soumettre des propositions de recherche de 12 mois appliquant le Planetary Computer aux grands défis environnementaux décrits dans l'actuel programme de travail du Group on Earth Observations (GEO) est le 15 juin 2021.
« L'accès systématique à une collection complète et actualisée d'occurrences d'espèces par le biais de l'ordinateur planétaire améliorera considérablement la contribution que le réseau GBIF peut apporter à l'élaboration d'indicateurs pour le Cadre mondial pour la biodiversité post-2020 de la Convention des Nations unies sur la diversité biologique, » a déclaré Simon Ferrier, chercheur en chef au CSIRO, l'agence scientifique nationale australienne.
Ferrier, le codirecteur du projet, Andrew Hoskins, et leurs collègues développent une solution qui applique des outils d'apprentissage automatique de pointe sur la plateforme Azure pour extraire le signal du changement de la biodiversité à partir de masses de données d'observation moins structurées. Cela n'est possible que grâce à la colocalisation des données du GBIF et des données de télédétection sur l'occupation des sols et le changement climatique, ainsi qu'à la capacité de calcul à haute performance qu'offre la plateforme de calcul du cloud Azure », a déclaré M. Hoskins. « Cette approche ouvre de toutes nouvelles possibilités de surveillance des changements dans la biodiversité de notre planète »
Le secrétariat du GBIF a pour objectif de mettre à jour les échantillons tous les mois, afin de suivre le rythme des données dynamiques et en constante évolution, disponibles via GBIF.org et l'API GBIF. Leséchantillons continueront à inclure tous les enregistrements partagés par le GBIF sous les désignations CC0 et CC BY dont les coordonnées ont passé les contrôles de qualité automatisés.
Ce premier échantillon contient des enregistrements sur 939 601 espèces provenant de 22 517 ensembles de données et de 1 029 institutions d'édition de données. Comme tous les ensembles de données partagés par le GBIF, a été attribué un DOI, ou identifiant d'objet numérique, qui maintient un enregistrement persistant et transparent de ses sources. Étant donné le succès du Secrétariat dans le développement de l'un des principaux systèmes mondiaux de citation et d'attribution des données, la préservation de la provenance est restée une priorité tout en introduisant les données dans de nouvelles communautés de recherche et de calcul.
À cette fin, les développeurs du GBIF ont créé un nouveau service qui produit des enregistrements citables de "jeux de données dérivés" et permet aux utilisateurs du cloud numérique de suivre les directives de citation et les meilleures pratiques. Le coordinateur des communications scientifiques Daniel Noesgaard a décrit l'outil dans le blogue sur les données du GBIF. Cet outil est disponible à la fois via l'API du GBIF et l'interface GBIF.org et permet aux utilisateurs de tenir compte du fait qu'ils peuvent effectuer des analyses sur une partie considérablement filtrée des données disponibles dans un échantillon donné. Le fait de citer le DOI attribué à l'ensemble de données dérivées qui en résulte améliorera la précision et le suivi des citations tout en garantissant la transparence et la reproductibilité des analyses.
D'autres sont prévus pour un échantillon similaire déjà placé dans le Registre des données ouvertes sur Amazon Web Services et un autre en cours de préparation pour être inclus dans les ensembles de données publiques disponibles via Google BigQuery. Pris ensemble, ces développements signalent la première étape vers l'activation des systèmes d'informatique dans un cloud pour « aider à encourager la recherche novatrice, réduire les obstacles techniques de l'analyse des données à grande échelle et accroître la visibilité » du réseau GBIF, comme le chef de l'informatique du GBIF Tim Robertson suggère en février 2021.
Règne | Nombre d'espèces | Nombre d'enregistrements |
Animalia | 531 074 | 1 064 194 305 |
Plantae | 315 369 | 193 391 585 |
Fungi | 64 291 | 12 210 273 |
Chromista | 18 113 | 9 440 667 |
Bacteria | 8 364 | 13 313, 089 |
Protozoa | 1 635 | 793 176 |
Virus | 383 | 42 019 |
Archaea | 216 | 226 905 |
incertae sedis | 164 | 4 223 619 |
TOTAL | 939 601 | 1 297 835 638 |
Chauve-souris à queue libre du Brésil (Tadarida brasiliensis), États-Unis Photo 2021 Caitlin Campbell via iNaturalist Research-grade Observations, sous licence CC BY-SA 4.0