1、科研信息化实践与思考科研信息化实践与思考报告提纲报告提纲n科研信息化科研信息化态势态势n科学大数据科学大数据n科研信息化案例科研信息化案例科研信息化:从2013年诺贝尔化学奖说起20132013年诺贝尔化学年诺贝尔化学奖奖把化学反应“搬进”计算机为为复杂复杂化学系统化学系统创立了多尺度模型创立了多尺度模型对于今天的化学家来说,计算机和试管已经变得同样重要。经过理论化学家不断创新,计算机已经能够逼真地模拟出复杂的化学分子模型,进而预测出化学实验的最终结果。大数据时代下的科研信息化催生重大科技突破施一公施一公:n“2121世纪将是生物学的世纪世纪将是生物学的世纪”这一预言已经在逐步变成现实,生命科
2、学已经这一预言已经在逐步变成现实,生命科学已经发展成为发展成为2121世纪最活跃的学科之一。在美国世纪最活跃的学科之一。在美国科学科学周刊近几年评选的全世周刊近几年评选的全世界十大科技进展中,一半以上的成果都来自生命科学领域。界十大科技进展中,一半以上的成果都来自生命科学领域。n当今,当今,计算机科学及信息技术、生命科学及生物技术成为现代高科技的两大计算机科学及信息技术、生命科学及生物技术成为现代高科技的两大支柱。支柱。清华大学施一公教授荣获清华大学施一公教授荣获20142014年爱明诺夫奖。该奖项是由瑞年爱明诺夫奖。该奖项是由瑞典皇家学院设立的国际奖项,用以奖励世界范围内在晶体学典皇家学院设
3、立的国际奖项,用以奖励世界范围内在晶体学领域做出重大贡献的科学家。自领域做出重大贡献的科学家。自19791979年设立以来,有来自年设立以来,有来自1313个国家的个国家的4646名科学家荣膺该奖项。名科学家荣膺该奖项。20142014年恰逢晶体学一百周年,被命名为国际晶体学年。施一年恰逢晶体学一百周年,被命名为国际晶体学年。施一公教授是首位获得该奖的中国科学家,奖励他过去公教授是首位获得该奖的中国科学家,奖励他过去1515年运用年运用X-X-射线晶体学在细胞凋亡研究领域做出的杰出贡献。射线晶体学在细胞凋亡研究领域做出的杰出贡献。上海光上海光源源17U17U线站功不可没。线站功不可没。科研信息
4、化是科研模式的重大变革经验归纳经验归纳实验观察实验观察理论分析理论分析计算模拟计算模拟科研信息化科研信息化信息通讯技术信息通讯技术农业社会工业社会信息社会科研信息化 英国科学技术办公室主任英国科学技术办公室主任John Taylor首次提出首次提出E-Science 在在E-Science和和Cyberinfrastructure基础上,我国科研工作者提基础上,我国科研工作者提出了出了“科研信息化科研信息化”的概念的概念,即即“科学研究的信息化科学研究的信息化”:美国国家科学基金(美国国家科学基金(NSF)和能源部在)和能源部在计算基础设施(计算基础设施(Cyberinfrastructure
5、)的名义下实)的名义下实施施E-Science项目项目科研信息化的战略意义 美国国家基金会利用信息化基础设施变革科学与工程研究指出:“由于计算、信息通信技术不断进步的推动和今天科学与工程问题不断增长的复杂性、范围和规模挑战的需求牵引,一个科学与工程研究的新时代已经出现”“现在存在着基于信息化基础设施建立新型研究环境的巨大机遇,但是也存在着由于未能迅速行动和给予足够投资而产生的巨大风险和代价。”“抓住这个百年不遇的机会,通过协调发展和广泛应用信息化基础设施来领导这场科学与工程的革命。”科研信息化发展态势科研信息化成为发达国家保持国家竞争力的关键手段科研信息化基础设施发展加速,发达国家不断投入巨资
6、以保持领先地位当前科技创新呈现交叉、开放、协作的新特点,科学研究的复杂性、多学科、国际协作特征显著,越来越离不开科研信息化服务环境的融合性发展信息技术在科研中得到越来越及时和广泛的应用,科研信息化手段本身的发展进入了云计算、大数据为特征的阶段2011年4月,NSF发布面向21世纪科学与工程的网络基础设施框架(简称CIF21),其实质是美国版的“十二五”国家科研信息化发展规划。CIF21是NSF2012年的首要任务,预算1.17亿美元,关注四大领域:数据驱动型科学新型计算基础设施网络基础设施访问与连接社区研究网络面向21世纪科学与工程的网络基础设施框架及其战略规划1.科研信息化成为发达国家保持国
7、家竞争力的关键手段-1欧盟在科技发展计划第五、第六和第七框架的持续支持下,科研信息化基础设施得到不断发展,逐步形成了明晰的e-Infrastructure架构。第七框架计划的延续,实施时间从2014年至2020年,首次将欧盟的所有科研和创新资金汇集于一个灵活的框架中。Horizon2020科研和创新计划1.科研信息化成为发达国家提升国家竞争力的关键手段-2开发面向2020及以后的欧洲科研基础设施:开发新的世界级科研基础设施整合和开放现有的具有泛欧意义的国家科研基础设施信息化基础设施的开发、部署和运行开发服务于科研的ICT:促进创新想法的FET开放式计划;培育新兴主题的FET前瞻性计划;解决跨学
8、科科技挑战的FET旗舰计划;国家科研基础设施的集成和访问,以及信息化基础设施的开发、部署和运行。2012年年4月底,引领欧月底,引领欧洲数字议程发展的机构洲数字议程发展的机构欧盟信息社会和媒体欧盟信息社会和媒体总司(总司(DG INFSO)宣)宣布将进行机构改革,机布将进行机构改革,机构的名称和组织结构都构的名称和组织结构都将有所变化将有所变化,名称将更名称将更改为改为“通信网络、内容通信网络、内容与技术总司与技术总司”。2.科研信息化基础设施发展加速,发达国家不断投入巨资以保持领先地位高速科研网络能源科学网(ESnet),在美国能源部科学办公室支持下:2011-2012年已将带宽升级至160
9、-400Gbps。高速科研网络向着更高的带宽、高可靠性与个性化的服务方向发展目目 标:标:建设下一代科研网络建设下一代科研网络ESNET4ESNET4高速高速IPIP网网+科研数据网科研数据网SDNSDN(大数(大数据传输)据传输)与国际科研网络广泛高速互联与国际科研网络广泛高速互联试验部署试验部署100Gbps100Gbps,为科学装置与,为科学装置与超算之间超算之间T T比特速率连接比特速率连接2.科研信息化基础设施发展加速,发达国家不断投入巨资以保持领先地位-2 欧洲先进计算合作伙伴(欧洲先进计算合作伙伴(PRACEPRACE)计划部署一个)计划部署一个泛欧泛欧petapeta-scal
10、e-scale生态系统,并计划到生态系统,并计划到20202020年时达年时达到到exaexa-scale-scale的运算性能。的运算性能。20152015年年7 7月月1313日最新发布的日最新发布的Top500Top500超级计算机,超级计算机,中国中国“天河二号天河二号”排名第一,连续第五次获得冠排名第一,连续第五次获得冠军。军。美国进入美国进入TOP500TOP500强的超级计算机强的超级计算机233233台,整体优台,整体优势依然明显,中国势依然明显,中国2727台,日本台,日本3939台。台。高性能计算的峰值计算能力突飞猛进,即将进入百亿亿次计算时代3.当前科技创新呈现交叉、开放
11、、协作的新特点,科学研究的复杂性、多学科、国际协作特征显著,越来越离不开科研信息化的融合性发展LHC(LHC(大型强子对撞机大型强子对撞机)计算网格计算网格(Worldwide LHC Worldwide LHC Computing Grid,Computing Grid,WLCG)WLCG)已连接起已连接起3636个个国家的国家的170170多个计算多个计算中心,可为全球中心,可为全球80008000多位物理学家提供对多位物理学家提供对每年产生的每年产生的25 PB25 PB的的LHCLHC实验数据的实时实验数据的实时访问及相应的数据处访问及相应的数据处理能力理能力。Large Hadron
12、 Collider at CERN4.信息技术在科研中得到越来越广泛的应用,科研信息化技术应用已进入了以云计算和大数据为特征的新阶段2011年8月,欧盟提出欧洲科学云计算基础设施战略规划,提出了2020年欧洲科学云基础设施的发展愿景。欧洲科学云计算基础设施战略规划欧洲科学云计算基础设施战略规划2014年5月,美国白宫发布“大数据:抓住机遇、保存价值”白皮书,通过90天的调查,检验大数据将如何改变我们生活和工作的方式。大数据研究与开发计划大数据研究与开发计划案例:华为公司内部云:桌面云、研发云、培训云,案例:华为公司内部云:桌面云、研发云、培训云,从从2009年开始,华为上海研究所部署全球最大的
13、年开始,华为上海研究所部署全球最大的“万人云万人云”,10000用户规模的桌面云用于员工的日常办公用户规模的桌面云用于员工的日常办公,在工作效率、绿色节能、维护管理等方面带来很大改善。华为称,相比传统,在工作效率、绿色节能、维护管理等方面带来很大改善。华为称,相比传统PC办公系统,节省了办公系统,节省了40%的投的投资,降低电力消耗资,降低电力消耗71%,设备的,设备的CPU利用率从利用率从5%提高到了提高到了60%,部署周期从原来的,部署周期从原来的3个月缩短到不到个月缩短到不到1周周,据悉,据悉,“万人云万人云”二期规模将达到二期规模将达到6万人。万人。科研信息化发展新动向1.开放科学:科
14、研方式的转变开放科学:科研方式的转变2.移动应用正在改变科研和教育移动应用正在改变科研和教育3.大数据应用更加广泛大数据应用更加广泛4.百亿亿次计算研发成为新一轮竞争点百亿亿次计算研发成为新一轮竞争点5.高速网络为全球科研提供强大支持高速网络为全球科研提供强大支持6.新型知识库改变知识获取方式新型知识库改变知识获取方式*1.开放科学:科研方式的转变开放科学:科研方式的转变OpenAIRE:科研用开放获取基础设施:科研用开放获取基础设施现已拥有来自现已拥有来自600多位数据提供者的多位数据提供者的1150万可供开放获取的文档;万可供开放获取的文档;2013年,获年,获FP7最成功信息化基础设施案
15、最成功信息化基础设施案例比赛一等奖例比赛一等奖欧洲开放科学共享空间:促进科研资源共享欧洲开放科学共享空间:促进科研资源共享的新方法的新方法四大核心:四大核心:数据数据信息化基础设施信息化基础设施科学工具科学工具知识为四大核心知识为四大核心公众科学:众包研究公众科学:众包研究Galaxy Zoo项目:项目:用户能帮忙对星系进行分用户能帮忙对星系进行分类(类(http:/www.galaxyzoo.org/)Fold It项目:项目:公众通过玩在线游戏助力蛋白公众通过玩在线游戏助力蛋白质 结 构 研 究 及 未 来 的 药 物 开 发(质 结 构 研 究 及 未 来 的 药 物 开 发(https
16、:/fold.it/portal/)Old Weather项目:项目:邀请公众帮助转录来自古邀请公众帮助转录来自古代 航 海 日 志 的 天 气 记 录,以 重 建 气 候(代 航 海 日 志 的 天 气 记 录,以 重 建 气 候(http:/www.oldweather.org/)17*2.移动应用正在改变科研和教育移动应用正在改变科研和教育移动互联网每年创造移动互联网每年创造7000亿美元的收入,创造约亿美元的收入,创造约300万个就业机会。截至万个就业机会。截至2017年,移动互联年,移动互联网收入将增至网收入将增至15500亿美元,年均增长率为亿美元,年均增长率为23%。波士顿咨询全
17、球移动互联网经济增长(波士顿咨询全球移动互联网经济增长(2015.2)移动科研移动科研NIH投建投建“移动传感器数据到知识移动传感器数据到知识”(MD2K)国家卓越中心()国家卓越中心(2014.10)旨在开发创新性工具,更轻松地采集、分析和旨在开发创新性工具,更轻松地采集、分析和解释移动与可穿戴传感器产生的医疗数据。解释移动与可穿戴传感器产生的医疗数据。用于科研数据处理的用于科研数据处理的APP如:如:ChemDoodle、iProtein、DataAnalysis等等基于微信和微博的科学传播基于微信和微博的科学传播移动政务移动政务印度推出印度推出“Mobile Seva”国家移动管理国家移
18、动管理计划,提高电子服务可获性计划,提高电子服务可获性澳大利亚推出澳大利亚推出“移动堪培拉移动堪培拉”计划,帮助计划,帮助民众访问政府提供的地理位置数据与服务民众访问政府提供的地理位置数据与服务移动教育移动教育MOOC及其移动端应用及其移动端应用如:如:Coursera、Udacity、学堂在线等、学堂在线等通过移动端游戏进行学习通过移动端游戏进行学习如:如:Arden(认识莎士比亚)(认识莎士比亚)可穿戴设备在教学中的应用可穿戴设备在教学中的应用18*3.大数据应用更加广泛大数据应用更加广泛欧盟欧盟EarthServer项目创建了先进的数据立方体及自项目创建了先进的数据立方体及自定义的定义的
19、Web门户,帮助研究人员提取和可视化地球科门户,帮助研究人员提取和可视化地球科学大数据。学大数据。美国食品与药品管理局与在线病友社区平台美国食品与药品管理局与在线病友社区平台PatientsLikeMe合作,尝试利用病人的健康数据识别合作,尝试利用病人的健康数据识别危险药物。危险药物。印度税务部门开发的数据库能够更容易地挖掘个人和印度税务部门开发的数据库能够更容易地挖掘个人和商业财务记录,帮助打击逃税行为。商业财务记录,帮助打击逃税行为。剑桥大学开发出剑桥大学开发出“腐败风险指数(腐败风险指数(CRI)”算法,算法,可通过梳理政府采购业务公开数据识别潜在的腐败迹可通过梳理政府采购业务公开数据识
20、别潜在的腐败迹象。象。Google DeepMind公司开发出一种新技术,通过公司开发出一种新技术,通过“阅阅读读”成千上万篇新闻文章来训练深度学习。成千上万篇新闻文章来训练深度学习。Google Trends可跟踪搜索关键词,使用户能够查看可跟踪搜索关键词,使用户能够查看每月超每月超1000亿次亿次Google搜索的实时动态。搜索的实时动态。NIST利用公开的数据应用程序支持科学研究。利用公开的数据应用程序支持科学研究。19*4.百亿亿次计算研发成为新一轮竞争点百亿亿次计算研发成为新一轮竞争点 美国美国新启动国家战略性计算计划,此前能源部推出新启动国家战略性计算计划,此前能源部推出Fast
21、Forward和和Design Forward两个项目;超级计算机两个项目;超级计算机“珊瑚珊瑚”(Coral)和)和“曙光曙光”(Aurora)的研制)的研制 欧盟欧盟6个百亿亿次计算研发项目:已实施数年的个百亿亿次计算研发项目:已实施数年的CRESTA、DEEP/DEEP-ER、Mont-Blanc/Mont-Blanc2;新增的;新增的EPiGRAM、EXA2CT、NUMEXAS 日本日本“京京”的研发被列为的研发被列为“旗舰旗舰2020计划计划”,计划到,计划到2020年建成世界最先进的年建成世界最先进的百亿亿次通用超级计算机。百亿亿次通用超级计算机。2016年预算为年预算为76亿日元
22、,增长近一倍。亿日元,增长近一倍。法国法国2015年年7月月9日,法国源讯公司(日,法国源讯公司(Atos)与法国新能源与原子能委员会()与法国新能源与原子能委员会(CEA)签订合同,约定于)签订合同,约定于2020年向其供应百亿亿次级超级计算机年向其供应百亿亿次级超级计算机“Tera1000”中国中国到到2015年研发出运算性能达到年研发出运算性能达到100 PF的系统,目前正在切实推进中。的系统,目前正在切实推进中。20*5.高速网络为全球科研提供强大支持高速网络为全球科研提供强大支持2014年年10月起,美国能源部能源科学月起,美国能源部能源科学网横跨大西洋部署了网横跨大西洋部署了4条新
23、的条新的100Gbps高速网络连接,为美国研究人员获取高速网络连接,为美国研究人员获取大型强子对撞机和其他科学数据提供大型强子对撞机和其他科学数据提供服务。服务。2 0 1 3 年,年,E S n e t、I n t e r n e t 2、CANARIE、SURFnet、NORDUnet、GEANT六大科教网组织部署了首个横六大科教网组织部署了首个横跨大西洋的跨大西洋的100Gbps研究网络链接。研究网络链接。2014年年10月,欧洲两大科教网组织月,欧洲两大科教网组织DANTE和和TERENA重组成立全新机构重组成立全新机构“GEANT协会协会”,意味着欧洲开,意味着欧洲开始了一个接近始了
24、一个接近30年的教育与科研合作年的教育与科研合作新时代。新时代。Google Fiber:每月支付:每月支付 70 美元,享美元,享受到受到1000Mbps(比传统带宽快(比传统带宽快100倍倍)的网络服务和)的网络服务和 1TB 的的 Google Drive 云存储空间了。云存储空间了。21*6.新型知识库改变知识获取方式新型知识库改变知识获取方式Knowledge Vault:Google 正在建立迄今为止世界上最大的知识库。正在建立迄今为止世界上最大的知识库。该知识库利用算法从网络上自动爬取信息,通过机器学习把数据变成可用该知识库利用算法从网络上自动爬取信息,通过机器学习把数据变成可用
25、知识。知识。截至截至2014年,知识库已收集年,知识库已收集16亿种事实描述,其中亿种事实描述,其中2.71亿被评定为可信赖亿被评定为可信赖的事实,即谷歌将新事实与已掌握的知识进行交叉比对,发现准确性达的事实,即谷歌将新事实与已掌握的知识进行交叉比对,发现准确性达90%。知识库的前身是知识库的前身是“知识图谱知识图谱”(Knowledge Graph)。虽然目前知识库的)。虽然目前知识库的知识量还未达到知识图谱的水平,但它能自动扩充增加知识,超越的时间知识量还未达到知识图谱的水平,但它能自动扩充增加知识,超越的时间指日可待,将很快成为全球最丰富的知识数据库。指日可待,将很快成为全球最丰富的知识
26、数据库。除了改善人机交互,知识库也会推动现实增强技术的发展。未来,知识库除了改善人机交互,知识库也会推动现实增强技术的发展。未来,知识库可以驱动一个现实增强系统,让我们从头戴显示屏上了解现实世界中的地可以驱动一个现实增强系统,让我们从头戴显示屏上了解现实世界中的地标、建筑、商业网点等信息。标、建筑、商业网点等信息。知识库能改变我们研究人类社会的方法,对未来做出一些精准的预测。知识库能改变我们研究人类社会的方法,对未来做出一些精准的预测。知识库同样带来的也有隐私问题,它会收集任何可以找到的信息。知识库同样带来的也有隐私问题,它会收集任何可以找到的信息。报告提纲报告提纲n科研信息化科研信息化态势态
27、势n科学大数据科学大数据n科研信息化案例科研信息化案例从数据中探寻科学发现1609年,第谷年,第谷 布拉赫(布拉赫(Tycho Brache)的助手约翰尼斯)的助手约翰尼斯 开普勒(开普勒(Johannes Kepler)从第谷)从第谷 布拉赫对天体运动的系布拉赫对天体运动的系数观察记录中发现了行星运动定律,并数观察记录中发现了行星运动定律,并发表了伟大著作发表了伟大著作新天文学新天文学。这是在对所采集并仔细保存的实验数这是在对所采集并仔细保存的实验数据进行挖掘和分析的基础上建立的伟大据进行挖掘和分析的基础上建立的伟大理论。理论。第谷第谷 布拉赫布拉赫约翰尼斯约翰尼斯 开普勒开普勒“The F
28、ourth Paradigm Data-Intensive Scientific Discovery”Microsoft ResearchCERN大型强子对撞机LHCHiggs,超对称粒子超对称粒子,暗物质暗物质,地球观测大数据IKONOSQuickBirdSPIN-2SPOT 4,5EROS A1EnvisatAura/Aqua/TerraGraceQuikScatSageSeaWindsTRMMToms-EPUARSLandsat 7SORCEACRIMSATCBERSSeaWiFSERBSJasonOrbview 2,3RadarsatALOSDMC天文观测大数据Data challen
29、ges of time domain astronomy(Graham et al.2012)“长尾”数据同样不容小觑n化学、材料、生物、生态环境等传统的学科,有成千上万个普通实验室在进行着研究,产生大量分散的数据集,虽然每个数据集合在规模上并不大(一般不会超过1TB),但这种小数据集合数量众多且异构性强,它们汇聚后的规模和复杂性都不容小觑。n“长尾”科学产生小型但数量众多的数据集合,关键是如何释放这些数据集合的潜力,降低访问和释放这些数据集合的潜力,降低访问和重用它们的门槛重用它们的门槛。n中国科学院“科学数据库”长期以来就主力解决这些数据集的管理和共享问题,目前已整合超过500个数据库,近
30、个数据库,近300TB数据。数据。科学大数据的基本特征n来源广泛,类型复杂n观测型数据、实验型数据、调查统计型数据、模拟计算型数据、社会网络型等n数值、文本、图形、图像、影像等n表格(自由表格、结构化表格)、文件(标准格式文件、自由格式文件)等n高维度和高度相关性高维度和高度相关性n数据表征复杂的自然科学现象与关系,而这些自然现象或科学过程的外部表征一般具有高度数据相关性和多重数据属性n计算和处理高度复杂性计算和处理高度复杂性n复杂系统+复杂模型+复杂数据n不确定性与动态性不确定性与动态性n对自然过程的感知和科学实验获取的数据,决定了科学大数据普遍具有一定的误差和不完备性n随着传感器、实验方法
31、和手段等的动态演进,数据的格式和内容均呈现出动态变化的特点n开放程度高开放程度高n与其它类型大数据相比,更为明显n资源特性明显资源特性明显n重复、非排它性使用n价值体现在使用中面临的主要问题和挑战n技术上的挑战n长距离数据传输的速度VS.成本n移动数据还是移动计算?n低成本、高可扩展性的存储架构n数据的长期保存是一个永恒的问题n适合科学数据的数据管理模型nSCIDB是一次有意义的探索n适合科学大数据处理的并行架构nMapReduce+Hadoop架构在科学数据处理上,似乎满足不了大数据处理的需求n基础设施挑战n易使用、开放和可扩展的公共基础设施n以云服务的方式来提供使用n政策与法律的挑战n数据
32、开放和共享VS.科研人员个人利益VS.国家安全和利益n人才挑战n对交叉人才(尤其是数据工程师和数据科学家)极其缺乏科研范式的发展历程假说驱动假说驱动的方法的方法科学大数据新模式科学大数据新模式引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 特征一:基于全样本的研究模式n基于样本的医学研究:丹麦学者研究手机和癌症的关系n数据源n覆盖丹麦1990-2007年几乎所有癌症患者和移动的数据n358403位手机用户n10729名中枢神经系统肿瘤患者n结论n使用手机的人并不具有更高的罹患大脑或神经系统癌症的风险(BMJ 2011)Source:Use of mobile
33、phones and risk of brain tumours:update of Danish cohort study,BMJ 2011;343:d6387引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 特征一:基于全样本的研究模式n基于样本的癌症研究:国际肿瘤基因组计划n2010年4月,Nature发表关于国际肿瘤基因组计划的专题报道n对所有100种癌症的基因组测序,并汇出肿瘤基因图谱,以逐一解开所有癌症的基因密码,提供个性化治疗方案Source:Nature 464,993-998(15 April 2010)引自:黄向阳研究员第引自:黄向阳研究员第
34、507507次香山会议报告次香山会议报告 特征一:基于全样本的研究模式n基于样本的社会学研究:n数据源n全英32482个行政区6500万人口通话信息n结论n研究发现,电话联系人多样性越强的行政区,其经济社会发展水平也越高,从一个侧面证明了社会资本等价于经济资本(Science 2010)Source:Nathan,et al.Network Diversity and Economic Development.Science 2010,Vol.328 no.5981 pp.1029-1031.引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 特征一:基于全样本的
35、研究模式n特点局部性局部性整体性整体性样本数也许样本数也许95%随机性不重要随机性不重要允许存在误差允许存在误差 挑战挑战 数据资源获取能力数据资源获取能力 存储存储/计算能力计算能力引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 特征二:基于相关性的研究模式n基于相关性的气候学研究:气候与暴力潜在关联研究n数据源n44个不同的暴力冲突数据集;时间跨越了从公元前8000年至当前,所反映的数据来自全球所有主要的区域n结论n气候变化对暴力行为的影响是可观的。随着气候向更暖的气温或更极端降雨的转变,个人之间的暴力及人群间冲突的频率会上升(Science 2013,N
36、ature 2011)Source:Solomon M.Hsiang,at el.Quantifying the Influence of Climate on Human Conflict.Science 2013,Vol.341 no.6151Source:Solomon M.Hsiang,at el.Civil conflicts are associated with the global climate.Nature,2011,476引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 特征二:基于相关性的研究模式n基于相关性的气候学研究:卫星遥感与贫穷关
37、联研究(联合国“全球脉动”计划之一:United Nations Global Pulse)n通过分析肯尼亚贫困村庄的卫星遥感数据来鉴别极度贫穷家庭,以此为根据向他们提供无条件的人道主义关怀和资金支持n遥感数据与房子的密度与质量的相关关系(KDD 2014)Source:Targeting Direct Cash Transfers to the Extremely Poor.KDD,2014,引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 特征二:基于相关性的研究模式n特点因果关系因果关系相关关系相关关系直接相关直接相关非紧密相关非紧密相关映射关系映射关系多
38、维性多维性复杂性复杂性 挑战挑战 多源数据的获取多源数据的获取 关联数据的组织关联数据的组织 高维的快速处理高维的快速处理引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 特征三:基于全局性的研究模式n基于全局性流感病毒生态学研究:H7N9全过程传播研究nH7N9 传播过程n欧亚大陆迁徙至东亚地区的野鸟-中国东部地区鸭群和鸡群-人类n结论n在全过程中发现了活禽市场与病例爆发的之间的关系,为关闭活禽市场提供依据(The Lancet 2014,Nature Communications 2014)Source:Effect of closure of live p
39、oultry markets on poultry-to-person transmission of avian influenza A H7N9 virus:an ecological study.The Lancet,2014SourcePredicting the risk of avian influenza A H7N9 infection in live-poultry markets across Asia.Nature Communications,2014引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 特征三:基于全局性的研究模式n跨区域、
40、机构的天文分类学研究n2007年7月启动星系动物园Galaxy Zoo是英国研究机构邀请公众协助在网络上为上百万个星系在线上进行分类的天文学计划,吸引了来自世界各地超过10万的天文爱好者n基于志愿者的分类工作,取得一系列的科研成果:发现天体旋转有偏向、发现“绿色豌豆”等图片内容:公民科学家帮助天文学家从图片内容:公民科学家帮助天文学家从SDSS拍摄的星拍摄的星系图像中选择了这系图像中选择了这12个正面的无核球旋涡星系个正面的无核球旋涡星系Source:http:/ 特征三:基于全局性的研究模式n跨领域参与的科学研究平台Kaggle n整理并发数据和相关问题的描述、预期指标。来自全球范围的研究者
41、、科学家通过竞赛的方式提交各自的预测模型n实现全球最顶尖的科学家聚集起来,解决世界上最难的难题n经典案例:n预测医院住院病人流、预测保险索赔情况等引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 特征三:基于全局性的研究模式n特点部分性部分性全局性全局性阶段性阶段性个体性个体性全流程全流程群体性群体性公众性公众性 挑战挑战 全局数据的获取、时空感的形成全局数据的获取、时空感的形成 数据和模型的组织、集成与共享数据和模型的组织、集成与共享 高并发处理、实时交互性高并发处理、实时交互性引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告
42、特征四:基于价值持续性的研究模式n基于价值持续性的研究:基于Google Flu Trends的再研究n研究人员基于Google流感研究的结果数据结合其他数据进行再研究,(Nature Communication 2013,PloS One 2013)Source:Influenza Forecasting with Google Flu Trends,PloS One,2013Source:Real-time influenza forecasts during the 2012-2013 season.Nature Communications,2013引自:黄向阳研究员第引自:黄向阳研究
43、员第507507次香山会议报告次香山会议报告 特征四:基于价值持续性的研究模式n特点单向性单向性反馈性反馈性静态性静态性动态性动态性持续性持续性累积性累积性 挑战挑战 数据的积累与加工数据的积累与加工 数据共享与出版数据共享与出版 数据的长期保存数据的长期保存引自:黄向阳研究员第引自:黄向阳研究员第507507次香山会议报告次香山会议报告 报告提纲报告提纲n科研信息化科研信息化态势态势n国家科研信息化国家科研信息化战略战略研究研究n中科院科研信息化实践案例中科院科研信息化实践案例n中科院科研信息化实践中科院科研信息化实践-案例案例45核能安全技术所信息化平台建设:无纸办公系统信息化平台建设:无
44、纸办公系统n 成员信息系统n 流程审批系统n 信息统计系统n 软件发布系统n 考勤系统123信息统计系统信息统计系统网上办公系统网上办公系统4科研协同系统科研协同系统成员信息系统成员信息系统自主研发自主研发信息化平台建设:无纸办公系统信息化平台建设:无纸办公系统n 文档管理系统n 团队日程系统n 即时管理系统n 知识库n 统一通信服务n 网络视频会议系统n 信息分享n 建言献策系统n 人员评价系统n 协同创新系统规划中规划中核能安全技术所http:/ u数据库管理系统(软件数据库管理系统(软件+专题库)专题库)1.聚变核数据库聚变核数据库2.聚变部件数据库聚变部件数据库3.聚变材料数据库聚变材
45、料数据库4.聚变等离子体数据库聚变等离子体数据库u 数据处理软件数据处理软件 可视化、自动建模、计算可视化、自动建模、计算 u 数据内容数据内容1.等离子数据等离子数据低温磁体低温磁体 包层包层屏蔽屏蔽等离子体等离子体109102-200(80k)-269(4k)3.材料数据材料数据2.核数据核数据4.部件数据部件数据来源来源:ITER、EAST、FDS、ADS持续发展中持续发展中FusionDB:核:核聚变数据库系统聚变数据库系统(中科院信息化专项(中科院信息化专项&国家科技基础条件平台项目国家科技基础条件平台项目)核能安全技术所HENDL:混合堆评价混合堆评价 核数据库核数据库 中子中子/
46、光子耦合输运光子耦合输运计算、计算、同位素燃耗同位素燃耗计算、计算、活化活化计算、计算、辐射剂量辐射剂量计算、计算、辐照损伤辐照损伤计算的混计算的混合评价核数据库合评价核数据库。uHEDL2.0/MC(Monte-Carlo)连续能量连续能量ACE格式截面库数据格式截面库数据(ENDF/B-VI)核素个数:核素个数:416uHENDL2.1/CG(Coarse-Group)27群中子群中子/21群光子粗群结构群光子粗群结构 核素个数:核素个数:350uHENDL2.1/SS(Self-Shielding)10个本底截面下的多群截面数据个本底截面下的多群截面数据 核素个数:核素个数:176uHE
47、NDL2.0/MG(Multiple-Group)175群中子群中子/42群光子多群截面数据群光子多群截面数据 核素个数:核素个数:416uHENDL3.0/FG(Fine-Group)315群中子群中子/42群光子能群结构群光子能群结构 核素个数:核素个数:391HENDL1.02004HENDL2.02007HENDL3.02010uHENDL3.0/MC(Monte-Carlo)连续能量连续能量ACE格式截面数据格式截面数据(ENDF/B-VII)核素个数:核素个数:364基于基于HENDL,建立了,建立了ITER基本核数据库基本核数据库ITER国际合作项目国际合作项目核能安全技术所信息
48、化植物园信息化植物园三维实景可视化综合展示平台三维实景可视化综合展示平台资源综合指挥调度资源综合指挥调度信息发布与共享信息发布与共享物种保育物种保育科学研究科学研究公众服务公众服务管理与决策管理与决策引引种种保保育育信信息息化化物物候候观观测测信信息息化化园园地地管管理理信信息息化化植物迁地保护策略与功能植物迁地保护策略与功能评价评价大容量公共存储和共享系大容量公共存储和共享系统统门户网站建设门户网站建设植物信息可视化植物信息可视化呈现呈现三维实景游览体验三维实景游览体验电子地图手机导览电子地图手机导览ARPARP系统系统【院部署院部署】决策支持决策支持【植物园特色植物园特色】评估及绩效考核评
49、估及绩效考核【用院系用院系统统】视频监控系统视频监控系统生态变化与水质监控生态变化与水质监控【已已启动启动】武汉植物园云计算云计算基于云计算和物联网的植物园信息化框架基于云计算和物联网的植物园信息化框架物联网物联网SaaS软件即服务软件即服务应用层应用层物种保育物种保育e-ScienceARP辅助决策辅助决策可视化平台可视化平台门户网站门户网站科普网站科普网站PaaS平台即服务平台即服务IaaS设施即服务设施即服务传输层传输层TRP感知层感知层RFID电磁传感器电磁传感器光谱传感器光谱传感器音视频传感器音视频传感器物种物种物候物候土壤土壤水体水体气候气候EthernetWiFiWiMax4GZ
50、igBee3G处理层处理层存储(数据库)存储(数据库)计算计算武汉植物园云架构空间科技领域云发展目标以满足以满足日地空间物理、空间天文等学科领域的日地空间物理、空间天文等学科领域的科研创新活动科研创新活动对科研信对科研信息化(息化(e-Sciencee-Science)的需求为己任,利用现代信息技术集成)的需求为己任,利用现代信息技术集成科学数据科学数据、分析工具、物理模式等、分析工具、物理模式等学科知识资源学科知识资源,与,与计算、存储、网络和协同计算、存储、网络和协同环境环境等等信息化信息化基础设施进行基础设施进行集成集成,构建,构建基于基于云模式云模式的的STAR-Network STA