科学数据的积累、开放和共享是世界科技发展的重要推动力。然而,数据“孤岛”的频繁出现使得不同领域的大量科学数据沉睡。中国积极推动地球大数据从被动共享向主动共享转变,通过建立数据、计算和服务一体化的数据共享体系,推动地球科学数据共享新模式的形成。
如何让黄河三角洲在过去40年的变化像电影一样展现在人们面前?如何在一张图片中看到世界的变化?如何在网站上搜索所有需要的数据…
新的一年伊始,中国科学院公布的“地球大数据科学工程”这一战略科技试点项目给出了答案。
打破数据的“孤岛”
地球大数据有什么用?中国科学院院士、“地球大数据科学工程”特别负责人郭华东举了一个例子:如果我们研究中国430个30万以上人口的遥感数据和人口数据,就可以了解土地利用率和人口增长率的比率。例如,从1990年到2000年,大数据显示安徽省城市人口增长率在上升,但土地消费率却在下降。总的来说,人口城市化大于土地城市化;2000年后,大数据显示安徽省人口增长率持续下降,但土地消费率明显上升,土地消费率与人口增长率之比持续上升,表明安徽省土地城市化远高于人口城市化。
在大数据时代,科技创新越来越依赖于对科学数据的综合分析。“大数据是财富和资源。作为大数据的重要组成部分,地球大数据正在催生人们以新的思维方式来理解地球。”郭华东说。
然而,数据共享在中国一直是一个难题:许多单位和机构都有自己的数据资源,他们都认为数据应该共享,但很难实现共享。
一位科学家曾经对这种“互相争斗”的情况深有感触。当他出国参加学术会议时,他意识到和他在同一个系统中的另一个研究单位也在做同样的研究,而且其中许多都是重复的。
数据“孤岛”频繁出现,使得不同领域的大量科学数据沉睡。科学数据的积累、开放和共享已成为世界科技发展的重要资源和驱动力中国科学院副院长张亚平认为,中国科学院应努力推动地球大数据从被动共享向主动共享转变,在科学数据共享及其体系和机制的一些关键问题上取得实质性突破,为中国科学院乃至国家层面形成良好的新数据共享生态。
为了唤醒沉睡的科学数据,2018年1月1日,中国科学院一级战略试点科技项目“地球大数据科学工程”正式启动并实施,实施期为5年。作为2018年的一项重要成果,地球大数据共享服务平台近日正式发布。
该平台为全球用户提供了系统化、多样化、动态化、连续化和全球唯一的全球大数据,并通过建立一个集数据、计算和服务于一体的数据共享系统,促进了地球科学数据共享新模式的形成郭华东说。
服务全球用户
地球大数据共享服务平台的“容量”有多大?
根据郭华东提供的数据,平台提供的共享数据总量约为5PB(1PB=1024TB)。其中,地球观测数据1.8PB,生物生态数据2.6PB,大气海洋数据0.4PB,基础地理数据和地面观测数据0.2PB;目前有49万个地层学和古生物学数据库、360万个中国生物物种名录、42万个微生物资源数据库和10亿个组学数据在线。
“目前,用户可以在线检索40%的数据。随着硬件条件的不断改善,平台数据将一个接一个地推出,并且每年都会更新3PB的数据。”郭华东说。
数据共享服务系统、案例数据库系统和区域系统——数字丝绸之路地球大数据系统是地球大数据共享服务平台的三大核心系统。
就像阿里巴巴创建的淘宝模式一样,数据共享服务系统提供了快速准确的地球科学数据。基于特殊数据的特点,系统可以提供项目分类、关键词检索、标签云过滤、数据关联推荐等多种数据发现模式。,还提供在线下载和应用编程接口访问等多种数据采集模式,支持多格式数据的可定制在线查看、预览和查询,并响应各种个性化的统计、收集、推荐、下载和评估服务需求。用户可以根据数据共享权限使用该系统共享服务。
数字丝绸之路地球大数据系统包括94套关于“一带一路”地区资源、环境、气候、灾害和遗产的专题数据集,57种具有独立知识产权的数据产品,以及超过120万亿字节的共享数据。目前,该系统具有千兆级软硬件环境,并率先在全球通用大数据平台下开发了提取、转换和加载地球大数据的工具集,实现了六类数据的检索、共享和产品可视化,并通过中、英、法三种版本实现了国际共享。
有了CASEarth数据库系统,你可以像看电影一样看十年目标网站的变迁。该系统提供了一套随时可用的长期多源地球观测数据产品,包括自1986年中国遥感卫星地面站建设以来的20万个场景的长期陆地卫星数据产品(每场景12个产品,共计240万个卫星数据产品)。
我能用它做什么?例如,在重要会议之前,我们可以通过颜色的变化清楚地了解浒苔从江苏到山东的变化趋势,并且我们可以在一分钟内清楚地了解浒苔过去在这一地区的运动情况,所以我们不必进行大量的实地考察。同时,该系统还引入了人工智能等先进技术,为普通用户、行业用户和科学家提供不同层次的地球观测数据分析和信息挖掘服务,为您“量身定做”所需内容。
未来,用户不仅可以利用自己的数据、计算和技术实现应用,还可以上传多源数据,嵌入算法模型,并结合系统资源完成特定主题的信息挖掘、知识发现和决策支持郭华东说。
面对科学发现
根据郭华东的研究,一个国家拥有大数据的“量”与该国的国内生产总值发展成正比。“谁拥有大数据,谁就有未来”。
然而,仅仅拥有是不够的,科学数据的价值在于它的使用。对于一些“总是愿意锁在自己的抽屉里”并且不愿意分享自己数据的科学家,郭华东说:“这个系统可以解决科学家们分享数据的担忧。您的数据是在线的,当您进入这个系统时,您将拥有自己的版权。在这个平台上,数据可以实现全球定位,并拥有自己独有的“身份证”。"
谈到与谷歌大数据的区别,谷歌大数据也是一个资源数据共享平台,郭华东说有四个主要区别:第一,数据资源是不同的。谷歌大数据基于大量卫星数据,主要基于遥感卫星数据,而地球大数据平台基于对卫星数据的充分关注,采用大量大气、海洋、陆地等数据,在资源、环境和生态方面高度整合;其次,系统功能不同。谷歌做更多的显示和分析系统,同时他们加入更多的计算系统来促进数据、计算和服务的整合;第三,不同的应用服务,谷歌是一个更受欢迎的系统,而他们的技术更面向科学发现,如了解区域地质演化规律,生物发现和古生物学研究;最后,谷歌的目标是面向市场,但它的系统更多地服务于政策和决策,科学家可以通过使用地球的大数据平台做出更多的科学发现。
正如张亚平所说,如果我们不跨越数据共享的大山,我们将永远无法到达大数据胜利的另一面。中国科学院迈出了成功的第一步,也是建设地球大数据共享服务平台的坚实一步。(经济日报中国经济网记者申会实习生杨世运)
编辑:计然
标题:科学数据将向你展示世界
地址:http://www.ictaa.cn/hlwxw/306.html