微软行星云计算——全球生物量数据集GBIF

兄弟姐妹,打扰一下,微软行星云计算——全球生物量数据集GBIF
最新回答
各种坚强

2024-09-13 08:42:07

在全球生物多样性研究的舞台,微软行星云计算携手全球生物多样性信息机构(GBIF)为我们呈现了一场数据的盛宴。GBIF,一个由政府支持的国际网络,以其庞大的数据仓库,存储了超过16亿种物种的珍贵信息,这些数据来自博物馆的珍藏、公民科学网络的贡献以及自动环境监测的实时记录。所有数据都以Parquet格式精心存储,严格遵循达尔文核心标准,确保了信息的准确性和一致性。


通过GBIF的API接口,科学家和研究者可以轻松检索和引用这些数据,其STAC集合(STAC集合链接:

https://planetarycomputer.microsoft.com/api/stac/v1/collections/gbif
)为数据的探索提供了强大的工具。微软为GBIF提供支持,确保所有操作都符合GBIF的使用条款。在地图功能上,用户可以无缝地缩放、平移和旋转,直观地观察生物多样性在时间和空间上的分布。


项目的核心资产包括了关键的STAC键,如数据集类型、GBIF标识(GBIFid)和数据集UUID(Datasetkey),以及一系列详细的分类信息,涵盖了从Kingdom到Infraspecificepithet的生物分类学级别。时间范围跨越2021年4月13日至今,持续更新,为科研提供了实时的生物多样性动态。


深入探索GBIF的数据结构,你会发现每个记录都包含了关键字段,如Taxonkey与GBIF主干分类法(byte_array Taxonrank: dwc:taxonRank),Scientificname以字节数组形式呈现,与GBIF分类体系紧密相连(byte_array Scientificname: dwc:scientificName),以及详细的记录信息,如Countrycode(dwc:countryCode),Occurrencestatus(dwc:occurrenceStatus)以及精确的地理位置坐标(DecimallatitudeDecimallongitude)。


为了满足处理大规模数据的需求,GBIF的数据集支持Dask,使得科学家能够高效地读取和分析Parquet文件,如使用dd.read_parquet进行数据加载。此外,通过分析,我们发现了一些有趣的统计数据,如最常见的15个物种的国家分布,以及国家层面的独特物种数量地图。


总的来说,微软行星云计算与GBIF的合作为生物学家和生态学家提供了强大的工具,让全球生物多样性研究变得更加直观、高效。无论是基础研究还是应用分析,这个全球生物量数据集都是一个不可或缺的资源。