Vendredi 22 Novembre 2024

cloud

Le Secrétariat du GBIF recherche des candidatures de personnes ou d'institutions susceptibles d'améliorer la qualité et la réutilisabilité des données disponibles sur GBIF.org dans des environnements de cloud computing.

Avec un financement via une subvention du programme informatique mondial GEO-Microsoft, le/la contractant(e) sélectionné(e) mettra en œuvre des protocoles d'analyse de la diversité phylogénétique sur l'environnement Microsoft (MS) Azure à l'aide du logiciel Biodiverse, des données d'occurrence du réseau GBIF et des phylogénies d'OpenTree of Life (OToL).

Le Secrétariat du GBIF dirigera le projet avec le soutien de Shawn Laffan (logiciel Biodiverse | Université de Nouvelle-Galles du Sud) et Emily Jane McTavish (OpenTree of Life | Université de Californie Merced) et en partenariat avec le Groupe de travail sur la diversité phylogénétique (PDTF) de la Commission de la survie des espèces de l'UICN.

 

Date limite de candidature : 15 novembre 2021

 

 

Contexte et dimension des travaux

En mai 2021, le GBIF a commencé à placer des instantanés mensuels des occurrences du GBIF dans le catalogue de données Microsoft Azure. La personne ou l'institution sous-traitée élargira ce travail, d'abord en implémentant le logiciel Biodiverse dans MS Azure, puis en développant et en évaluant la qualité des flux de filtrage pour les données d'occurrence accessibles via le GBIF dans le catalogue de données Microsoft Azure.

Le sous-ensemble de données filtré sera ensuite associé à la dernière phylogénie Open Tree of Life, produisant des produits de diversité phylogénétique spatialement explicites pour l'analyse de divers clades et zones géographiques. Le PDTF aidera à évaluer la qualité des produits de données résultants.

L'objectif du projet est de générer des produits de données mensuels automatisés, pouvant être utilisés dans la recherche sur la diversité phylogénétique d'ici la fin de la période de subvention.

Les tâches principales comprennent :

    Préparer des workflows pour le filtrage des données accessibles via le GBIF
    Évaluer la qualité des données filtrées
    Etablir la correspondance des noms entre les données véhiculées par OToL et GBIF
    Exécuter et évaluer des métriques sur la diversité phylogénétique intégrant les données d'occurrence accessibles via l'OToL et le GBIF à l'aide de Biodiverse
    Rédiger un manuscrit en tant que premier auteur basé sur ce travail, soit dans un article méthodologique ou comme analyse d'un grand clade

Le candidat sélectionné devra effectuer le travail à distance ou dans son établissement d'accueil. Les candidats doivent démontrer leur capacité à travailler de manière autonome et à rencontrer virtuellement des chefs de projet sur trois continents.

 

Compétences et expérience souhaitées

Le titulaire doit posséder des compétences exceptionnelles en bioinformatique, une bonne connaissance des données accessibles via le GBIF et une compréhension de l'informatique "cloud" et des analyses phylogénétiques.

Les compétences souhaitées incluent :

    Expérience dans l'analyse des données véhiculées par le GBIF
    Connaissance de R, Perl ou Python et des API
    Expérience démontrable du développement de logiciels open source et de flux de travail de traitement de données reproductibles
    Connaissance de la diversité phylogénétique, étayée par d'autres analyses de biodiversité phylogénétiques et spatialement explicites
    Expérience dans les systèmes de calcul distribués ou basés sur le cloud
    Diplôme supérieur dans un domaine pertinent lié à la biodiversité, à l'informatique ou au travail du GBIF, ou expérience équivalente
    Compétence professionnelle complète en anglais
    Expérience démontrée dans la rédaction de publications scientifiques
    Capacité à travailler à distance avec une supervision limitée

 

 

Rémunération

Le paiement du contrat s'élèvera à 60 000 USD, la durée de son mandat dépendant de l'expérience de l'entrepreneur et de la réalisation des livrables du projet. Le contrat et les livrables doivent être achevés en un an.

 

Plus de détails sur cet appel à propositions sur cette page (en anglais)

Un ensemble de données contenant près de 1,3 milliard d'enregistrements d'occurrences d'espèces du réseau GBIF est désormais disponible à l'utilisation via le catalogue de données du Planetary Computer de Microsoft. Actuellement composé d'enregistrements sous licence ouverte et géoréférencés, partagés par le GBIF jusqu'à la mi-avril, cet aperçu fournit aux utilisateurs de l'environnement du cloud numérique Microsoft Azure un accès facile aux données primaires de biodiversité dans des formats cohérents et prêts à l'analyse.

Développé par Microsoft AI for Earth, le Planetary Computer combine des pétaoctets de données de surveillance environnementale à l'échelle mondiale et les rend facilement accessibles aux utilisateurs du système de calcul virtuel à grande échelle. Documentation, exemple de cahier et un billet de l'analyste de données du GBIF John Waller sur le Blog GBIF Data décrit comment les utilisateurs peuvent commencer à accéder aux données diffusées par le GBIF à partir du stockage en blob sur Azure, que ce soit à l'intérieur ou à l'extérieur du Planetary Computer.

 

L'entrée dans le catalogue du Planetary Computer est opportune, étant donné son potentiel pour soutenir les demandes de subvention des premiers utilisateurs pour un montant allant jusqu'à 60 000 dollars américains à la fois en financement et en crédits de calcul ainsi que d'autres ressources par le biais du programme du Planetary Computer de GEO-Microsoft. La date limite pour soumettre des propositions de recherche de 12 mois appliquant le Planetary Computer aux grands défis environnementaux décrits dans l'actuel programme de travail du Group on Earth Observations (GEO) est le 15 juin 2021.

« L'accès systématique à une collection complète et actualisée d'occurrences d'espèces par le biais de l'ordinateur planétaire améliorera considérablement la contribution que le réseau GBIF peut apporter à l'élaboration d'indicateurs pour le Cadre mondial pour la biodiversité post-2020 de la Convention des Nations unies sur la diversité biologique, » a déclaré Simon Ferrier, chercheur en chef au CSIRO, l'agence scientifique nationale australienne.

Ferrier, le codirecteur du projet, Andrew Hoskins, et leurs collègues développent une solution qui applique des outils d'apprentissage automatique de pointe sur la plateforme Azure pour extraire le signal du changement de la biodiversité à partir de masses de données d'observation moins structurées. Cela n'est possible que grâce à la colocalisation des données du GBIF et des données de télédétection sur l'occupation des sols et le changement climatique, ainsi qu'à la capacité de calcul à haute performance qu'offre la plateforme de calcul du cloud Azure », a déclaré M. Hoskins. « Cette approche ouvre de toutes nouvelles possibilités de surveillance des changements dans la biodiversité de notre planète »

 

Le secrétariat du GBIF a pour objectif de mettre à jour les échantillons tous les mois, afin de suivre le rythme des données dynamiques et en constante évolution, disponibles via GBIF.org et l'API GBIF. Leséchantillons continueront à inclure tous les enregistrements partagés par le GBIF sous les désignations CC0 et CC BY dont les coordonnées ont passé les contrôles de qualité automatisés.

Ce premier échantillon contient des enregistrements sur 939 601 espèces provenant de 22 517 ensembles de données et de 1 029 institutions d'édition de données. Comme tous les ensembles de données partagés par le GBIF, a été attribué un DOI, ou identifiant d'objet numérique, qui maintient un enregistrement persistant et transparent de ses sources. Étant donné le succès du Secrétariat dans le développement de l'un des principaux systèmes mondiaux de citation et d'attribution des données, la préservation de la provenance est restée une priorité tout en introduisant les données dans de nouvelles communautés de recherche et de calcul.

À cette fin, les développeurs du GBIF ont créé un nouveau service qui produit des enregistrements citables de "jeux de données dérivés" et permet aux utilisateurs du cloud numérique de suivre les directives de citation et les meilleures pratiques. Le coordinateur des communications scientifiques Daniel Noesgaard a décrit l'outil dans le blogue sur les données du GBIF. Cet outil est disponible à la fois via l'API du GBIF et l'interface GBIF.org et permet aux utilisateurs de tenir compte du fait qu'ils peuvent effectuer des analyses sur une partie considérablement filtrée des données disponibles dans un échantillon donné. Le fait de citer le DOI attribué à l'ensemble de données dérivées qui en résulte améliorera la précision et le suivi des citations tout en garantissant la transparence et la reproductibilité des analyses.

 

D'autres sont prévus pour un échantillon similaire déjà placé dans le Registre des données ouvertes sur Amazon Web Services et un autre en cours de préparation pour être inclus dans les ensembles de données publiques disponibles via Google BigQuery. Pris ensemble, ces développements signalent la première étape vers l'activation des systèmes d'informatique dans un cloud pour « aider à encourager la recherche novatrice, réduire les obstacles techniques de l'analyse des données à grande échelle et accroître la visibilité » du réseau GBIF, comme le chef de l'informatique du GBIF Tim Robertson suggère en février 2021.

 

Chiffres en avril 2021

 

Règne Nombre d'espèces Nombre d'enregistrements
Animalia 531 074 1 064 194 305
Plantae 315 369 193 391 585
Fungi 64 291 12 210 273
Chromista 18 113 9 440 667
Bacteria 8 364 13 313, 089
Protozoa 1 635 793 176
Virus 383 42 019
Archaea 216 226 905
incertae sedis 164 4 223 619
TOTAL 939 601 1 297 835 638

 

 

Chauve-souris à queue libre du Brésil (Tadarida brasiliensis), États-Unis Photo 2021 Caitlin Campbell via iNaturalist Research-grade Observations, sous licence CC BY-SA 4.0

 

Lire l'article original

Revenir en haut