1、1时代背景:新一代人工智能发展规划的提出为抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国,日前国务院印发新一代人工智能发展规划。 -2017.7.8规划指出:立足国家发展全局,准确把握全球人工智能发展态势,找准突破口和主攻方向,全面增强科技创新基础能力,全面拓展重点领域应用深度广度,全面提升经济社会发展和国防应用智能化水平。2AlphaGo到底有多厉害?2011年,北京邮电大学的Lingo围棋程序在9*9棋盘上以受让两子的条件,首次击败了中国围棋教练职业围棋9段俞斌和先生。那时,谁也没有想到仅仅5年之后,AlphaGo围棋程序就在19*19棋盘
2、上无条件战胜了人类棋王。研制AlphaGo的团队DeepMind正在投入AlphaSC的研发,未来将于人类顶尖高手在星际争霸游戏中一较高下。3AlphaGo怎么做到的? AlphaGo使用两种不同的深度神经网络:第一种是策略网络,目标是选择在哪里落子。第二种则是价值网络,价值网络的作用是衡量走这一步对最终输赢的影响。 AlphaGo成功的关键在于: 海量对弈数据海量对弈数据:6000万局对弈数据。 算法创新算法创新:深度神经网络+“左右手互搏”。 计算能力出众计算能力出众:打败李世石的AlphaGo Lee 的芯片为 50 TPU,搜索速度为10k位置/秒。人类专家位置监督式学习强化学习4Al
3、phaGo绝非一帆风顺3月13日李世石九段“神之一手神之一手”“AlphaGo远非人工智能的终点。” 微软研究院著名机器学习专家John Langford批评了Wired和Slashdot等媒体对于“实现人工智能”夸大其词的相关报道。Langford认为这些进展本是好事,但报道的时候产生了偏差,这容易导致失望和人工智能寒冬。John Langford国际机器学习大会ICML2016程序主席“AlphaGo以以为自己做的为自己做的很好,但在很好,但在87手迷惑了,手迷惑了,有麻烦了有麻烦了”“错误在第错误在第79手,但手,但AlphaGo到到第第87手才发手才发觉觉”5从AlphaGo到Alph
4、aGo Master60-0 vs 顶级专业人士(在线游戏)等级分专业级业余级入门级2017年7月9日,柯洁携20连胜,等级分冲至3675分,世界排名第一。6震撼之后的思考 什么是人工智能?为什么那么厉害? AlphaGo未来有没有可能被人类打败? 人工智能技术未来有没有可能取代人类?为什么? 人工智能可以帮助人类完成哪些事情? 人工智能已经出现在哪些领域,今后还会出现在哪些领域?大数据时代的人工智能大数据时代的人工智能8内容提纲 人工智能基本概念与发展历史 人工智能与大数据 人工智能在气象领域的应用案例 人工智能在环保领域的应用案例 人工智能在网络安全领域的应用案例 人工智能面临的机遇与挑战
5、 总结与展望9内容提纲 人工智能基本概念与发展历史 人工智能与大数据 人工智能在气象领域的应用案例 人工智能在环保领域的应用案例 人工智能在网络安全领域的应用案例 人工智能面临的机遇与挑战 总结与展望10什么是智能 智力或知能智力或知能 是指生物一般性的精神能力。这个能力包括以下几点:理解、计划、解决问题,抽象思维,表达意念以及语言和学习的能力。 智力三因素理论智力三因素理论(Robert Sternberg)(Robert Sternberg) 成分性智力(componential intelligence),指思维和问题解决所依赖的心理过程。 经验智力(experiential intel
6、ligence), 指人们在两种极端情况下处理问题的能力:新异的或常规的问题。 情境智力(contextual intelligence)反映,在对日常事物的处理上,它包括对新的和不同环境的适应,选择合适的环境以及有效地改变环境以适应你的需要。Robert SternbergRobert Sternberg(1949-)是美国心理学家和心理测量学家。他是康奈尔大学人类发展教授。11什么是人工智能 人工智能人工智能(Artificial Intelligence, AI) 也称作机器智能,是指由人工制造出来的系统所表现出来的智能。通常人工智能是指通过普通计算机实现的智能。 人工智能研究人工智能研
7、究 研究内容:包括认知建模、知识学习、推理及应用、机器感知、机器思维、机器学习、机器行为和智能系统等。 研究动机:包括推理,知识,规划,学习,交流,感知,移动和操作物体的能力等。 基础知识:包括搜索和数学优化,逻辑,基于概率论和经济学的方法等。 应用系统:目前有大量的人工智能应用系统,如AlphaGo, Siri等。12人工智能的三大发展要素基础理论引入相关学科交叉多领域应用机器学习机器学习数据挖掘数据挖掘人工智能人工智能数学统计学认知科学神经科学控制论13人工智能发展历程中的里程碑(1)-图灵测试 图灵测试(1950) 一个人(C)询问两个他看不见的对象(机器A和正常思维的人B)。如果经过若
8、干询问后,C无法区分A与B,则A通过图灵测试。 聊天机器人Eugene Goostman(2014)在5分钟内试图欺骗30%的人。图灵测试额外加分项:说服测试者,令他认为自己是电脑。你知道吗,你说的这些话真的很有道理。我我已经不知道自己究竟是谁了。14人工智能发展历程中的里程碑(2)-深蓝vs卡斯帕罗夫 1997年,IBM研制的超级电脑“深蓝”在标准比赛时限内以3.5比2.5的累计积分击败了国际象棋世界冠军卡斯帕罗夫,震惊世界。 “深蓝”的设计者许峰雄曾表示,一般的国际象棋手能想到后7步就很不错了,但“深蓝”能想到12步,甚至40步远,棋手当然不是计算机的对手。 插曲:卡斯帕罗夫在落败后曾称无
9、法理解电脑下棋时做出的决定。他亦认为电脑在棋局中可能得到人类帮助并要求重赛,但IBM拒绝。 思考:深蓝靠什么打败了卡斯帕罗夫?深蓝能否击败李世石?为什么?15人工智能发展历程中的里程碑(3)-Waston与人机大战 2011年2月16日,在美国智力竞猜节目危险边缘第三场比赛中,IBM另一超级电脑“沃森”以三倍的巨大分数优势力压该竞猜节目有史以来最强的两位选手肯詹宁斯和布拉德鲁特,夺得这场人机大战的冠军。 “沃森”在比赛中没有连接互联网,其数据库中包括辞海和世界图书百科全书等数百万份资料,强大的硬件则助力其能在3秒钟之内检索数亿页的材料并给出答案。 思考:就面临的挑战来说,“沃森”相比深蓝有哪些
10、不同?“沃森”的特点是什么?“沃森”有可能胜任AlphaGo的工作吗?16人工智能发展历程中的里程碑(4)- 图像识别领域机器首次超越人类 2015年的 ImageNet 挑战赛,在图像识别准确率上,机器的表现首次超过了人类。这被公认为是一个里程碑式的突破。 在此之前,2010年算法的图像识别错误率至少在25%左右,但到2015年,计算机图像识别错误率已经低于人类(人类水平大概是4%左右)。2015年是0.03567,也就是3.5%。 2016年,ImageNet 竞赛,图像识别错误率进一步下降,最好成绩为:平均错误率0.02991,也就是2.99%左右。 思考:这一次的人工智能突破和前几次相
11、比有何不同?17人工智能发展(简史)混沌初生 开天辟地百家争鸣 百花齐放物竞天择 适者生存达特茅斯会议的召开标志着人工智能的诞生。(1956年)图灵测试的提出标志人工智能进入萌芽阶段。以DENDRAL系统为代表的专家系统大量涌现。(19701980)浅层机器学习模型兴起,SVM、LR、Boosting算法等纷纷面世。(19902000)多伦多大学教授Hinton开启深度学习在学术界和工业界的浪潮(2006)人工智能出现新的研究高潮,机器开始通过视频学习识别人和事物,AlphaGo战胜围棋冠军(2011今)随着新的算法和模型不断涌现,学科交叉现象日趋明显,人工智能的研究进入了新的阶段。奠定了人工
12、智能的数学基础,出现了人工智能历史上的第一个应用。-西蒙和纽厄尔提出了“Logic Theorist”自动定理证明系统。大数据时代的到来给人工智能的发展带来契机,人工智能全面融入人们的社会生活。18人工智能发展的真实历史过程(波浪式前进)最近一次的人工智能热潮兴起,是由于大数据时代使得数据需求得到了满足。达特茅斯会议标志AI的诞生自然语言探索式推理微世界第一款神经网络感知机,将人工智能推向第一个高峰人工智能计算机DARPA无条件拨款放弃联结主义计算能力突破没能使机器完成大规模数据训练和复杂任务,AI进入第一个低谷DARPA停止拨款集成电路技术提高反向传播算法提出霍普菲尔德神经网络被提出DARP
13、A受到认可重获拨款反向传播算法获得广泛关注,AI进入第二黄金时期循环神经网络狂热追捧带来失望LISP机市场的崩溃DARPA失败,政府投入缩减,AI跌入第二次谷底行为主义提出非线性多层自适应网络循环神经网络出现IBM深蓝战胜人类象棋冠军深度卷积神经网络提出人工智能加速发展人脸识别率超过99%欧盟、美国脑工程计划AlphaGo挑战人类围棋冠军计算能力数据需求下一个问题呢启蒙阶段低潮时期复兴阶段遇冷时期快速发展195520162005199119861970195819内容提纲 人工智能基本概念与发展历史 人工智能与大数据 人工智能在气象领域的应用案例 人工智能在环保领域的应用案例 人工智能在网络安
14、全领域的应用案例 人工智能面临的机遇与挑战 总结与展望20大数据是什么? 大数据( Big Data ):是指大小大小超出了常用软件工具在运行时间内运行时间内可以承受的收集、管理和处理数据能力的数据集。 大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概相对概念念。21大数据真正价值不在于大数据本身,而在于数据内容的分析和洞察。大数据时代的5V特点22大数据时代的要求 大数据规模大小是一个不断演化的指标当前任务处理的单一的数据集当前数据规模:从数十TB到十几PB级 处理大数据的可等待的合理时间依赖应用场景地震数据预测要求在几分钟内才有效气象数据应该在小时级别
15、失联飞机数据处理要在7天之内数据挖掘一般要求在12小时内大数据时代需要人工智能技术同时满足以上两个要求。23大数据时代需要什么样的人工智能? 能适应反映大数据分布的抽样方法解剖麻雀 基于大数据分布的算法庖丁解牛 追求高效并行的人工智能算法曹冲称象 反映全量特征的人工智能算法治大国如烹小鲜24大数据时代的人工智能技术不断涌现互联网搜索生物特征识别汽车自动驾驶智能机器人选举结果预测智能客服系统25人工智能的应用范围和领域不断拓展人工智能应用图像识别语音识别文字识别其他信号识别无人驾驶人脸识别场景感知气象预报文献筛选污染预报医学影像分析虹膜识别视频监控计算机春联手写数字识别智能交通智能客服智能庭审记
16、录小米基因筛选网络安全计算机写诗26内容提纲 人工智能基本概念与发展历史 人工智能与大数据 人工智能在气象领域的应用案例 人工智能在环保领域的应用案例 人工智能在网络安全领域的应用案例 人工智能面临的机遇与挑战 总结与展望人机交互层基于人工智能技术的强对流天气聚焦与推演 方案目方案目标标: :聚焦:辅助决策。聚焦:辅助决策。 从海量数据中聚焦关键特征和重点区域,辅助气象专家进行决策;推演:协助研判。推演:协助研判。 提供智能推演,协助气象专家对未来3小时的天气形势进行研判。 方案特点:方案特点:采用人工智能技术采用人工智能技术综合运用多种深度学习算法综合运用多种深度学习算法半结构化与非结构化大
17、数据处理技半结构化与非结构化大数据处理技术术雷达反射图雷达反射图核心模块核心模块气象数据气象数据展示效果展示效果模型算法模型算法多层神经多层神经网络网络Softmax线性模型线性模型卷积神经卷积神经网络网络(CNN)循环神经循环神经网络网络(LSTM)卫星云图卫星云图GRIB2在分析预在分析预报场资料报场资料关键特征关键特征识别识别重点区域识重点区域识别别时空特征时空特征学习学习天气变化推天气变化推演演未来未来3小时强对小时强对流天气模拟推演流天气模拟推演关键特征和重点关键特征和重点区域区域2维效果维效果展示层系统层模型层数据层辅助人工决策提供智能推演气象专家最终气象预报结果历史对流过程历史对
18、流过程标注数据标注数据与传统方法的比较u 拥有深度自学习能力。认知计算无需先验知识,即可从海量历史数据中进行训练学习,并挖掘潜在的规律和模式。同时,认知计算能够根据每天产生的气象数据进行自动学习,自我调整以适应天气变化的最新情况。u 拥有基于大数据的辅助决策能力。能够充分利用气象历史数据。气象数据越多,收集时间越长,认知计算模型的分析结果越准确。u 数据依赖程度低。认知计算系统只需少量的观察和再分析数据即可完成分析和推演。u 基于空气动力学进行数值计算。传统数值方法主要依赖空气动力学公式对气象数据进行分析,计算开销高。u 基于少量历史数据进行人工决策。传统数值方法主要基于少量历史数据,进行人工
19、外推。其历史气象数据未得到充分利用。u 依赖专家经验。传统数值方法依赖专家根据其掌握的经验进行分析和调整。u 需要大量的物理变量组合分析。传统数值方法很难处理物理变量缺失的情况。传统数值方法人工智能方法强对流天气聚焦700mb高度垂直速度,地面能见度,10米风,80米风,地表温度,历史对流天气标注结果输入参数关键特征识别重点区域可视化 子系子系统统的构成:的构成:气象气象图图片片资资料的自料的自动动解析解析多多层层神神经经网网络络模型模型Softmax线性模型线性模型特征特征预测预测效果效果评评估模估模块块多特征自动排序模块多特征自动排序模块重点区域可视化模块重点区域可视化模块 子系子系统统的
20、特点:的特点:支持支持43+种气象图片的自动分析种气象图片的自动分析综合运用领先的深度学习技术综合运用领先的深度学习技术支持端到端的关键特征识别和排序支持端到端的关键特征识别和排序支持基于计算机视觉技术的重点区域可视支持基于计算机视觉技术的重点区域可视化化气象图片资料气象图片资料历史对流天气历史对流天气标注集标注集多层神经网多层神经网络模型络模型单特征预测单特征预测效果评估效果评估训练数据验证数据多特征自动多特征自动排序排序气象图片资料气象图片资料历史对流天气历史对流天气标注集标注集Softmax线性模型线性模型格网不同位格网不同位置权重解析置权重解析重点区域可重点区域可视化视化待分析特征待分
21、析特征注:深度学习的结果只能揭示区域和预测目标的相关性,但不能解释区域和预测目标的因果关系。关键技术1-关键特征识别与排序候选气象特征候选气象特征(43个)个)地面对流有效位能2米露点温度 可降水相对湿度 入射短波辐射 地面对流抑制 2米相对湿度 700mb高度温度 行星边界层高度 混合对流有效位能 累计降水 700mb高度垂直速度 雪水当量 最不稳定对流有效位能 降水类型 500mb高度温度 1小时降雪 最不稳定层对流有效位能可降水 500mb高度涡度 雪深 10米风 航空飞行规则 250mb高度风场 2米位温80米风925mb高度温度 250mb高度风速 850mb高度相对湿度 地面能见度
22、850mb高度温度 云顶高度 高层云量地表温度 850mb高度风场 云底高度 低层云量 2米温度850mb高度风速 总云量 中层云量 模拟雷达反射率2米温度 - 地表温度 850-500mb平均相对湿度 高 低6-10月历史对流天气标注集 针对2016年6月-10月间48个对流天气过程,根据其中43个候选气象特征,收集10w+张图片。 针对每个候选特征,应用深度学习中的多层神经网络模型对其预测对流天气过程的能力进行评估。 根据评估结果,对不同特征按照预测效果进行排序。关键特征的识别与排序旨在从海量数据中提炼有效特征,协助气象专家提升对流天气过程的预报准确率。输入层输出层隐层I隐层II隐层III
23、误差反向传播信息正向传播31重点区域 针对待分析特征,按照发生对流过程的类型,对图片进行分别标注。关键技术2-重点区域识别 根据对流过程的类型,应用softmax线性模型对不同位置网格点(RGB取值)的重要性(权重)进行评估,进而识别出不同类型天气的重点区域,如右图所示。31 网格点权重可视化。示例示例 250mb高度风场高度风场(b)待分析图片重点区域可视化旨在从海量地理气象数据中快速发现重要区域,辅助气象专家提升对流天气过程的预报精度。如上图所示,通过比较待分析图片和标准模板,可以计算对应区域的偏差。通过对偏差的分析比较,可以准确地识别出待分析图片未来1-3h内可能发生的天气过程的类型。(
24、a)无对流过程标准模板无对流过程台风过程大尺度天气系统降水过程局地对流天气过程32重点区域识别结果验证重点区域识别结果验证(示例:(示例:250mb高度风场)高度风场)局地对流天气局地对流天气2016年10月04日14:0017:00偏差0.030.410.210.09偏差0.030.330.190.11偏差0.050.210.070.14偏差0.010.010.10.12重点区域无对流过程台风过程大尺度天气系统降水过程局地对流天气过程根据重点区域的分析结果,可以分析出未来出现不同天气类型的概率。 结结果果验证验证: :系统为预报员提供无对流天气过程模板和重点区域具体位置。预报员可以通过比较重
25、点区域的偏差情况,分析未来0-3h出现的天气类型。2016年10月04日 14:002016年10月04日 15:002016年10月04日 16:002016年10月04日 17:00强对流天气推演强对流天气推演 子系统的构成:子系统的构成:卫星云图和雷达反射图的自动解析卫星云图和雷达反射图的自动解析卷积神经网络模型卷积神经网络模型循环神经网络模型循环神经网络模型多层网络的深度学习模型多层网络的深度学习模型支持未来天气的自动推演模块支持未来天气的自动推演模块 系系统统特点:特点:通过海量历史数据训练模型通过海量历史数据训练模型时空特征认知时空特征认知 空间特征:卷积神经网络(空间特征:卷积神
26、经网络(CNN) 时序特征:循环神经网络(时序特征:循环神经网络(LSTM)利用深度学习优化模型利用深度学习优化模型历史卫星云历史卫星云图,雷达反图,雷达反射图射图卷积神经网络层卷积神经网络层(空间特征提取)(空间特征提取)多层网络连多层网络连接接数据集未来天气自未来天气自动推演动推演循环神经网络层循环神经网络层(时间特征提取)(时间特征提取)时空特征学习深度学习优化输出结果无监督学习实时卫星云实时卫星云图,雷达反图,雷达反射图射图34关键技术3-基于多层卷积的时空特征学习 技技术术路路线线 -1.通通过过卷卷积积神神经经网网络络( (CNN)提取空)提取空间间特特征:在每一征:在每一层层神神
27、经经网网络络中,空中,空间间数据做卷数据做卷积积等等操作,并通操作,并通过误过误差反向差反向传传播学播学习习卷卷积积核核-2.通通过过循循环环神神经经网网络络( (LSTM)提取)提取时间时间特特征:循征:循环环利用卷利用卷积积神神经经网网络络学学习习天气天气变变化的化的规规律律-3.采用多采用多层层卷卷积层积层,并循,并循环环利用参数空利用参数空间间进进行建模,行建模,优优化后的模型可以很好的掌握天化后的模型可以很好的掌握天气在空气在空间间和和时间时间上的上的变变化化规规律律1. 卷积神经网络层:通过卷积学习天气的空间特征天气序列输入天气序列输出3. 多层网络连接2. 循环神经网络层:通过循
28、环层学习天气变化的时间特征35示例:强对流天气推演-雷达反射图(示例一)观测序列观测序列2016年8月1日00:0004:00实际发生实际发生2016年8月1日05:0007:00天气推演天气推演2016年8月1日05:0007:00利用模型推演未来3个小时的天气变化模型推演到了台风登陆的位置和时间模型推演到了台风移动的方向和旋转36示例:强对流天气推演-雷达反射图(示例一)实时天气实时天气2016年8月1日04:003小时后天气小时后天气2016年8月1日07:003小时后天气推演小时后天气推演2016年8月1日07:00模型可以推演出左上角逐渐消散的过程模型可以推演出左下角的从无到有利用模
29、型推演未来3个小时的天气变化推演到了台风登陆的位置和时间37示例:强对流天气推演-卫星云图(示例二)实时天气实时天气2016年8月3日04:003小时后天气小时后天气2016年8月3日07:003小时后天气推演小时后天气推演2016年8月3日07:00模型可以推演出左上角的从无到有模型可以推演出右下角的移动利用模型推演未来3个小时的天气变化推演出右上角向下方移动38内容提纲 人工智能基本概念与发展历史 人工智能与大数据 人工智能在气象领域的应用案例 人工智能在环保领域的应用案例 人工智能在网络安全领域的应用案例 人工智能面临的机遇与挑战 总结与展望业务需求:需要利用大数据分析人工智能等技术,以
30、数据驱动业务,以分析支持科研 业务需求业务需求 许多小的功能由于结合不同时期的需求自主开发,较为零散,导致操作分散 需要整合多维度数据辅助人工数据审核 人工生成报表,查询指定时间、指定维度数据困难、工作量大 使用excel模板生成报表,易出错分析分析层次1. 多维度综合查询,从Excel中解放出来2. 常规统计分析报表,业务轻松一览3. 高级模型挖掘,获取深入洞察*室*室空气质量监测数据气象监测数据特殊VOC监测数据监测中心的综合监测站监测数据各类设备运行状态数据PM2.5/TSP/PM10采集称重数据*室重金属分析OC/EC分析有机组分分析阴阳离子分析*室空气质量监测审核数据空气质量监测统计
31、数据潜势预报产品数据*室PM2.5反演图污染气体反演图沙尘反演图火点反演图简报/月报数据*室区县监督性监测数据区县比对监测数据中心监督性监测数据激光雷达监测数据垂直气象要素监测数据FDMS分析监测数据空气环境遥感应用监测数据污染物化学组分监测数据空气质量日报数据空气质量月报数据空气质量年报数据空气质量数值模型数据统计预报产品数据气象模型预报产品数据空气重污染预报预警污染源处理模型数据案例库数据面源遥感数据激光雷达数据在线源解析结果情景模拟结果基准污染源清单减排污染源清单国控污染物数据简报/月报数据监测数据库业务产品数据库辅助数据库运行支撑管理数据库目录和元数据库第三方数据GIS数据总站空气监测
32、数据气象数据。大气环境业务数据和信息的数据视图未来小型监测设备京津冀数据设计方案数数 据据 层层模模 型型 层层应应 用用 层层展展 示示 层层内部网站报表GIS曲线外部网站发布外部移动应用报表GIS曲线社交图像报表GIS曲线图像模型特征业务规则综合观测实验室数据应用环境空气质量分析及业务应用大气污染源管理及应用重污染过程分析与案例库管理统计与数值模型预报综合会商重污染应急决策支持统计模型库自动室分析室遥感室污染源室专家知识库空气质量预报预警空气质量综合分析NAQPMSCMAQMM5/WRFSMOKE 数值模型库CAMxAQMDSSARIAWRF-CHEMADMS基于案例的推理认知计算特征场挖
33、掘时空模式分析模型融合深度学习关联分析场分析误差模式挖掘大气室外部数据在线源解析数据审核,管理与融合基于情景的污染过程仿真污染控制方案效果评估空气质量大数据分析空气质量指标体系空气质量高级统计分析工具集基于GIS的数据耦合展示业务知识积累数值模型工作原理输入数据输入数据模型库模型库MM5WRF源排放清单源排放清单CMAQ重污染案例再分析重污染案例再分析数据数据空气质量预报空气质量预报 (包括(包括集合预报集合预报)NAQPMSCAMxWRF-CHEM卫星遥感数据卫星遥感数据气象观测数据气象观测数据科研试验数据科研试验数据空气质量观测数据空气质量观测数据人工观测数据人工观测数据ADMSAQMDS
34、SARIA作业管理与调度优化作业管理与调度优化在线源解析在线源解析排放控制情景模拟排放控制情景模拟重污染影响参数模拟重污染影响参数模拟污染同化统计模型工作原理数数 据据 层层模模 型型 层层应应 用用 层层展展 示示 层层内部网站报表GIS曲线外部网站发布外部移动应用报表GIS曲线社交图像报表GIS曲线图像模型特征(气象场、污染变化趋势等)业务规则(平稳天气研判、逆温识别等)综合观测实验室数据应用环境空气质量分析及业务应用大气污染源管理及应用重污染过程分析与案例库管理统计与数值模型预报综合会商重污染应急决策支持统计模型库自动室分析室遥感室污染源室专家知识库空气质量预报预警空气质量综合分析NAQ
35、PMSCMAQMM5/WRFSMOKE 数值模型库CAMxAQMDSS ARIAWRF-CHEM ADMS基于案例的推理认知计算特征场挖掘时空模式分析多预报模型融合深度学习多污染物关联分析气象场关联分析预报误差模式挖掘大气室外部数据在线源解析数据审核,管理与融合基于情景的污染过程仿真污染控制方案效果评估空气质量大数据分析空气质量指标体系空气质量高级统计分析工具集基于GIS的数据耦合展示业务知识积累自动室分析室遥感室污染源室大气室外部数据统计模型库基于案例的推理认知计算特征场挖掘时空模式分析多预报模型融合深度学习多污染物关联分析气象场关联分析预报误差模式挖掘空气质量大数据分析空气质量指标体系空气
36、质量高级统计分析工具集基于GIS的数据耦合展示业务知识积累重污染过程分析与案例库管理现有业务提升个性业务分析技术方案设计人工智能技术应用-重污染案例分析相关分析区域传输分析气象条件分析时序分析分布分析跨行业分析重污染案例设计预报会商设计现有业务提升个性业务分析技术方案设计重污染案例展示人工智能技术应用-重污染案例分析重污染案例设计预报会商设计现有业务提升个性业务分析技术方案设计重污染案例匹配人工智能技术应用-重污染案例匹配重污染案例设计预报会商设计现有业务提升个性业务分析技术方案设计人工智能技术应用-预报预警重污染案例设计预报会商设计现有业务提升个性业务分析技术方案设计人工智能技术应用-个性化
37、业务分析模模 型型 层层应应 用用 层层展展 示示 层层内部网站报表GIS曲线外部网站发布外部移动应用报表GIS曲线社交图像报表GIS曲线图像模型特征(气象场、污染变化趋势等)业务规则(平稳天气研判、逆温识别等)综合观测实验室数据应用环境空气质量分析及业务应用大气污染源管理及应用重污染过程分析与案例库管理统计与数值模型预报综合会商重污染应急决策支持统计模型库自动室分析室遥感室污染源室专家知识库空气质量预报预警空气质量综合分析NAQPMSCMAQMM5/WRFSMOKE 数值模型库CAMxAQMDSS ARIAWRF-CHEM ADMS基于案例的推理认知计算特征场挖掘时空模式分析多预报模型融合深
38、度学习多污染物关联分析气象场关联分析预报误差模式挖掘大气室外部数据在线源解析数据审核,管理与融合基于情景的污染过程仿真污染控制方案效果评估空气质量大数据分析空气质量指标体系空气质量高级统计分析工具集基于GIS的数据耦合展示业务知识积累自动室分析室遥感室污染源室大气室外部数据空气质量大数据分析空气质量指标体系空气质量高级统计分析工具集基于GIS的数据耦合展示业务知识积累现有业务提升个性业务分析技术方案设计1. 选择有效指标进行选择有效指标进行PM2.5等级与气象条件的规律挖掘等级与气象条件的规律挖掘2. 自动挖掘规律自动挖掘规律 3. 语义化展示,业务人员根据专业知语义化展示,业务人员根据专业知
39、识总结结论识总结结论人工智能技术应用-个性化业务分析现有业务提升个性业务分析技术方案设计模型全生命周期管理模型全生命周期管理人工智能模式挖掘时空分布/演化特征多污染物关联特征气象场的关联分析预报模型的误差性能特征预报特征库统计/数值模型(新建/更新)专家知识库业务规则引擎业务经验模型融合深度学习算法统计/数据挖掘引擎 神经元网络 随机森林 C5.0, CART, CHAID 广义线性回归 SVM KNN Case based Reasoning模型评估模型上线模型归档模型升级知识集成统一数据资源池人工智能技术应用-技术方案设计现有业务提升个性业务分析技术方案设计51内容提纲 人工智能基本概念与
40、发展历史 人工智能与大数据 人工智能在气象领域的应用案例 人工智能在环保领域的应用案例 人工智能在网络安全领域的应用案例 人工智能面临的机遇与挑战 总结与展望52背景 什么样的网页会被称为恶意网页? 便利的网络服务吸引了网络攻击者们通过钓鱼网站1-1,垃圾广告1-2和恶意软件1-3推广等方式进行非法牟利。尽管这些不法活动的目的和手段各不相同,但他们都需要不知情的用户访问攻击者提供的网页地址以达到攻击目的。这些网页因此被称为恶意网页。53背景 恶意网页的威胁有多大? 国际反钓鱼组织APWG的数据显示,2012下半年间,使用恶意网页进行网络钓鱼从93,46293,462起攀升到123,486123
41、,486起。 卡巴斯基报告1-4显示,恶意网页在87.36%87.36%的网络攻击中出现,并已成为黑客谋求经济利益的重要工具。 Google的研究指出,其搜索结果中1.3%1.3%的页面为被挂马网页1-4.1。因此,如何有效地识别恶意网页已经成为亟待解决的网络安全问题之一。54背景 恶意网页识别的一些研究进展 观点:恶意网页的识别与检测是一个攻防博弈攻防博弈问题。 攻击者视角: 自动生成域名技术、隐匿技术。 防御者视角: 学术界:URL语法特征,DNS特征,网页内容特征等。 工业界:SmartScreen筛选器和Safebrowsing采用的内置黑白名单方法等。下面分别从恶意网页识别问题的基本
42、概念,识别技术和面临挑战三个方面介绍。55 目前,恶意网页尚无一个明确的、统一的定义。 GoogleGoogle2-12-1将恶意网页限定为一种不安全的网站,发生的场景可以是恶意软件自动下载2-2,网页弹窗2-3诱骗用户输入自己的用户名和密码等。 Birhanu EBirhanu E.等人2-3.1将恶意网页定义为一类通过利用漏洞对一次性的访问行为发起攻击的网页。 百度百科百度百科上2-4对恶意网站定义为故意在计算机系统上执行恶意任务的病毒、蠕虫和特洛伊木马的非法网站,并指出他们的共同特征是采用网页形式让人们正常浏览页面内容,同时非法获取电脑里的各种数据。 一般来说,恶意网页是以网页木马,钓鱼
43、网站为代表的一类网页。不同于正常网页,恶意网页往往通过伪装成合法网站或在网页中嵌入恶意脚通过伪装成合法网站或在网页中嵌入恶意脚本本,从而在用户访问时用户访问时对其网络网络安全安全构成威胁。恶意网页基本概念与评价指标因此,将恶意网页定义为以网页形式出现,以访问时窃取用户隐私,安装恶意程序或运行恶意代码等恶意行为为目的的网页集合。56恶意网页识别概述 恶意网页识别概述 恶意网页识别系统基本框架 包括网页采集,特征抽取,网页判别三个步骤。 恶意网页识别的应用场景 攻击场景 检测位置 主要识别特征57恶意网页识别框架 恶意网页识别系统基本框架图 1. 恶意网页识别的基本框架(1) 网页采集网页采集。负
44、责对互联网上的网页进行收集、去重和过滤。其中,按照网页收集方式,一般可分为主动和被动两种。(2) 特征抽取特征抽取。依据网页自身特点和识别方法的不同,对网页信息的特征进行抽取,作为识别恶意网页的依据。这些特征包括但不限于URL词汇特征,主机信息特征,网页内容特征,URL(DNS)黑名单,链接关系以及跳转关系等。 (3) 网页判别网页判别。主要判别方法包括:黑名单过滤法,规则匹配法,机器学习方法以及基于交互式主机行为的识别方法。58恶意网页识别概述 恶意网页识别概述 恶意网页识别的应用场景 攻击场景:钓鱼网页,恶意软件下载,跨站脚本执行(XSS),SQL注入,网页木马 检测位置服务器端,客户端,
45、网关端 主要识别特征此外,一些研究从HTTP会话3-23, 搜索引擎提供的相似网页3-24出发,对恶意网页的识别提供了新的思路。图 2. 识别恶意网页的特征分类59恶意网页识别研究进展 恶意网页识别的方法 基于黑名单技术的识别方法 基于启发式规则的识别方法 基于机器学习的识别方法 基于交互式主机行为的识别方法。60恶意网页识别研究进展 恶意网页识别的方法 基于黑名单技术的识别方法 典型应用:Google Safebrowsing,DNSBL, PhishTank等。 存在问题:不能及时更新,容易漏判 基于启发式规则的识别方法 基于机器学习的识别方法 基于交互式主机行为的识别方法61恶意网页识别
46、研究进展 恶意网页识别的方法 基于黑名单技术的识别方法 基于启发式规则的识别方法 典型应用:火狐Firefox, IE 存在问题:误报率高,规则更新难。 基于机器学习的识别方法 基于交互式主机行为的识别方法图2启发式规则示例/a-z*.phish.a-z*/a-z*.malicious.a-z*/a-z*.y0utube.a-z*/62恶意网页识别研究进展 恶意网页识别的方法 基于黑名单技术的识别方法 基于启发式规则的识别方法 基于机器学习的识别方法 常用分类算法:PA,CW,SVM 存在问题:标注数据集较少,过拟合。 基于交互式主机行为的识别方法图 3. 分类算法的工作过程图2启发式规则示例
47、/a-z*.phish.a-z*/a-z*.malicious.a-z*/a-z*.y0utube.a-z*/图3特征示例LabelFeatures01 0 0 0 1 010 1 0 0 1 010 1 1 0 0 163恶意网页识别研究进展 恶意网页识别的方法 基于黑名单技术的识别方法 基于启发式规则的识别方法 基于机器学习的识别方法 基于交互式主机行为的识别方法 一般与蜜灌技术,虚拟化技术相结合使用。 按照检测行为的不同,蜜罐技术可以细分为基于模拟的低交互式蜜罐和基于真实系统的高交互式蜜罐。64恶意网页识别研究进展 不同类别恶意网页识别方法的比较识别方法基于黑名单技术基于启发式规则基于机
48、器学习基于主机行为误判率低高低低漏判率高低低低分类速度快一般一般慢优点技术简单,易操作,计算开销小,分类速度快,可实时响应。识别漏判率低,可以识别一些尚未收录的恶意网页准确率较高,可扩展性强,能够对尚未收录的恶意网页进行识别识别准确率很高,可以对特定类别的恶意网页(主要是网页木马等)进行准确分析缺点不能识别未收录黑名单的恶意网页,黑名单更新周期长规则生成和更新难,依赖于领域知识,且容易误判需要事先了解网页样本集,容易出现“过拟合”现象。无法识别其他类别的恶意网页。分类速度慢。适用场景实时在线环境实时在线环境实时在线环境离线环境表 2.不同识别方法的比较65内容提纲 人工智能基本概念与发展历史
49、人工智能与大数据 人工智能在气象领域的应用案例 人工智能在环保领域的应用案例 人工智能在网络安全领域的应用案例 人工智能面临的机遇与挑战 总结与展望66人工智能的发展机遇(1)-大数据时代为人工智能提供了广阔的数据资源 大数据价值利用的最大瓶颈不是千万亿次的计算能力和千兆级的网络通信能力,而是智能化的信息处理能力。“目前,全球数据总量每年都以倍增的速度增长,预计到年将达到万亿万亿,中国数据量到年将占全球数据总量的近。” -中国科学院院长白春礼人工智能是发掘数据金矿的钥匙,数据资源和识别任务的不断快速增长为人工智能提供了燃料和方向。67人工智能的发展机遇(2)-深度学习等新技术提供了方法创新20
50、07年前后逐渐发展起来的深度神经网络深度神经网络,深度置信深度置信网络网络以及对抗神经网络对抗神经网络等多种网络模型结构,并在语音识别、图像识别等领域得到广泛应用。通过运用这一类技术,人类首次在图像识别领域战胜人类,首次在围棋正式比赛中战胜人类冠军。深度学习技术的不断发展为人工智能提供了引擎和动力。68人工智能的发展机遇(3)-学科领域交叉与渗透 人工智能的广泛应用使得若干传统学科的研究方法出现了巨大创新。而相关领域在大数据时代的研究成果也能够对人工智能理论与方法带来影响,进而推动人工智能学科与其他学科的协同创新。常常识识性性推推理理演演绎绎、问问题题求求解解逻逻辑辑心心理理学学知知识识的的模