1、QUST2022年10月3日18时04分Management Information System青岛科技大学青岛科技大学MIS课程组课程组第 2 页2022年10月3日18时04分第 3 页2022年10月3日18时04分本章学习目的本章学习目的v了解人工智能的代表性技术和发展前沿了解人工智能的代表性技术和发展前沿v了解大数据分析技术的代表性技术和发展前沿了解大数据分析技术的代表性技术和发展前沿v了解量子技术的基本原理和相关专业名词意义了解量子技术的基本原理和相关专业名词意义v了解区块链技术的基本原理和相关专业名词意义了解区块链技术的基本原理和相关专业名词意义第 4 页2022年10月3日1
2、8时04分本章典型英文词汇本章典型英文词汇人工智能人工智能Artificial Intelligence(AI)机器学习机器学习Machine Learning模式识别模式识别Pattern Classification启发式算法启发式算法Heuristic Algorithm爬虫爬虫Web crawler或或Web spider缺失值缺失值Missing Value规范化模式规范化模式Normal Form(NF)量子计算机量子计算机quantum computer区块链区块链Blockchain交叉交叉crossover变异变异mutation量子纠缠量子纠缠 quantum entang
3、lement 第 5 页2022年10月3日18时04分第第1212章章 信息系统前沿技术信息系统前沿技术 人工智能技术人工智能技术12.1大数据分析技术大数据分析技术12.2 量子技术量子技术12.3 区块链技术区块链技术12.4第 6 页2022年10月3日18时04分 定定义义人工智能人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是指由人工制造出来的系统所表现出来的智能。术科学,是指由人工制造出来的系统所
4、表现出来的智能。人工智能目前在计算机领域内,在机器人、经济政治决策、控制人工智能目前在计算机领域内,在机器人、经济政治决策、控制系统、仿真系统中得到应用。系统、仿真系统中得到应用。人工智能是计算机学科的一个分支,二十世纪七十年代以来被称人工智能是计算机学科的一个分支,二十世纪七十年代以来被称为世界三大尖端技术之一(空间技术、能源技术、人工智能)。为世界三大尖端技术之一(空间技术、能源技术、人工智能)。也被认为是二十一世纪三大尖端技术(基因工程、纳米科学、人也被认为是二十一世纪三大尖端技术(基因工程、纳米科学、人工智能)之一。工智能)之一。12.1 人工智能技术人工智能技术第 7 页2022年1
5、0月3日18时04分统计学统计学对人工对人工智能的智能的意义意义人工智能的核心技术之一就是机器学习(人工智能的核心技术之一就是机器学习(Machine Machine LearningLearning),它是使计算机具有智能的根本途径),它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习正,其应用遍及人工智能的各个领域。机器学习正是利用了统计学(大多是推断统计学)来开发自是利用了统计学(大多是推断统计学)来开发自学习算法,因此统计分析技术也是人工智能技术学习算法,因此统计分析技术也是人工智能技术的关键基础之一。的关键基础之一。统计学是一门研究怎样收集,组织,分析和解释统计学
6、是一门研究怎样收集,组织,分析和解释数据中的数字化信息的科学。统计学可以分为两数据中的数字化信息的科学。统计学可以分为两大类:描述统计学和推断统计学。描述统计学涉大类:描述统计学和推断统计学。描述统计学涉及组织,累加和描绘数据中的信息。推断统计学及组织,累加和描绘数据中的信息。推断统计学涉及使用抽样数据来推断总体。涉及使用抽样数据来推断总体。统计学统计学12.1.1 12.1.1 统计分析统计分析第 8 页2022年10月3日18时04分 描述统计描述统计与与推断统计推断统计一般来说,一般来说,数据的来源数据的来源无非是试验无非是试验和调查和调查收集数据收集数据整理数据整理数据分析数据分析数据
7、当把分析结当把分析结果表述给人果表述给人家看,需要家看,需要经过一定的经过一定的“转化转化”表述数据表述数据数据收集上来并不能马上作分析,应该事先做一些处理才能进行下一步的统计分析,不然会对统计结果产生一些不良影响第 9 页2022年10月3日18时04分 定定义义模式识别是指对表征事物或现象的各种形式的模式识别是指对表征事物或现象的各种形式的(数值的、文字的和数值的、文字的和逻辑关系的逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。认、分类和解释的过程,是信息科学和人工智能的重要
8、组成部分。12.1.2 12.1.2 模式识别模式识别模式识别研究主要集中在两方面,模式识别研究主要集中在两方面,一是研究生物体一是研究生物体(包括人包括人)是如何感知对象的,属是如何感知对象的,属于认识科学的范畴,于认识科学的范畴,二是在给定的任务下,如何用计算机实现模式二是在给定的任务下,如何用计算机实现模式识别的理论和方法识别的理论和方法第 10 页2022年10月3日18时04分模式识别的几个要点识别模式识别学科中,模式可以看做是对象的组成成分或影响因素间存在的规律性关系,或者是因素间存在的确定性或随机性规律的对象、过程或事件的集合。因此,也有人把模式成为模式类,模式识别也被称作为模式
9、分类(Pattern Classification)1.模式与模式模式识别的方法主要有:模式识别的方法主要有:模板匹配法,模板匹配法,ANN法、基于知识的方法和基于数据的方法、基于知识的方法和基于数据的方法。法。基于知识的方法就是专家系统;基于数据的方法也就是基于知识的方法就是专家系统;基于数据的方法也就是基于统计的方法,即依据统计原理构造分类器,对未知基于统计的方法,即依据统计原理构造分类器,对未知样本进行预测,是机器学习中研究最多的一个方向,也样本进行预测,是机器学习中研究最多的一个方向,也是模式识别采用的最主要方法。是模式识别采用的最主要方法。第 11 页2022年10月3日18时04分
10、有线信道有线信道模式模式识别识别常见的模式识别系统主要有:常见的模式识别系统主要有:语音识别,说话人识别,语音识别,说话人识别,OCROCR,复杂图像中特定目标的识别,根据地震勘探数据,复杂图像中特定目标的识别,根据地震勘探数据对地下储层性质的识别,利用基因表达数据进行癌症的分类等等。对地下储层性质的识别,利用基因表达数据进行癌症的分类等等。典型的模式识别系统主要分为四个部分:典型的模式识别系统主要分为四个部分:对原始数据的获取和预处理,特征提取与特征选择,分类或聚类,后处理。对原始数据的获取和预处理,特征提取与特征选择,分类或聚类,后处理。模式识别可以划分为有监督的和无监督的,类别已定的叫做
11、监督分类,反之则无监督分类。第 12 页2022年10月3日18时04分模式识别的专业术语:模式识别的专业术语:样本(样本(samplesample),要研究对象的一个个体,注意与统计学中的不同,类,要研究对象的一个个体,注意与统计学中的不同,类似于统计学中的实例(似于统计学中的实例(instanceinstance););样本集(样本集(sample setsample set),样本的集合,统计学中的样本就是指样本集;,样本的集合,统计学中的样本就是指样本集;类或类别(类或类别(classclass),在所有样本上定义的一个子集,处于同一类的样本,在所有样本上定义的一个子集,处于同一类的样
12、本,我们说她们具有相同的模式;习惯性地,我们用我们说她们具有相同的模式;习惯性地,我们用w1w1,w2w2等来表示类别,等来表示类别,两类问题中也会用两类问题中也会用0,10,1或或-1,1-1,1;特征(特征(featurefeature),表征样本的特点或性状的量化集合,通常是数值表示,表征样本的特点或性状的量化集合,通常是数值表示(对于非数值形式,要转化为数值特征),也被称作为属性,如果是多(对于非数值形式,要转化为数值特征),也被称作为属性,如果是多个特征,就组成了特征向量(个特征,就组成了特征向量(feature vectorfeature vector)。样本的特征构成了样)。样本
13、的特征构成了样本特征空间,空间的维数就是特征的个数,每一个样本就是特征空间中本特征空间,空间的维数就是特征的个数,每一个样本就是特征空间中的一个点。的一个点。已知样本(已知样本(known sampleknown sample),已经事先知道类别的样本;,已经事先知道类别的样本;未知样本(未知样本(unknown sampleunknown sample),类别标签未知但特征已知的样本;,类别标签未知但特征已知的样本;第 13 页2022年10月3日18时04分模式识别的几个要点支持向量机(SVM:Support vector machines)能为模式识别的分类问题找出最优方案。训练过程中,
14、SVM可以理解为:先在平面图表上标绘所有数据,然后找出到那条能够最好区分这两类数据点的线。这条线能把数据分为两部分,线的这边全是史努比,线的那边全是加菲猫。而后移动并优化该直线,令两边数据点到直线的距离最大化。分类新的数据,则将该数据点画在这个图表上,然后察看这个数据点在分隔线的哪一边。通过使用核方法,SVM便可用来分类n维空间的数据。这就引出了在3维空间中标绘数据点,从而让SVM可以区分史努比、加菲猫与西蒙,甚至在更高的维度对更多卡通人物进行分类。SVM并不总被视为神经网络。)2.支持向量机(SVM)第 14 页2022年10月3日18时04分 定定义义1 1定义定义2 2启发式算法是一种技
15、术,这种技术使得在可接受的计算成本内启发式算法是一种技术,这种技术使得在可接受的计算成本内去搜寻最好的解,但不一定能保证所得的可行解和最优解,甚去搜寻最好的解,但不一定能保证所得的可行解和最优解,甚至在多数情况下,无法阐述所得解同最优解的近似程度至在多数情况下,无法阐述所得解同最优解的近似程度一个基于直观或经验的构造的算法,对优化问题的实例能给出可接一个基于直观或经验的构造的算法,对优化问题的实例能给出可接受的计算成本(计算时间、占用空间等)内,给出一个近似最优解受的计算成本(计算时间、占用空间等)内,给出一个近似最优解,该近似解于真实最优解的偏离程度不一定可以事先预计,该近似解于真实最优解的
16、偏离程度不一定可以事先预计12.1.3 12.1.3 启发式算法启发式算法第 15 页2022年10月3日18时04分启发式算法启发式算法蚁群算法蚁群算法模拟退火法模拟退火法粒子群算法粒子群算法神经网络神经网络遗传算法遗传算法以仿自然体算法为主,主要有:以仿自然体算法为主,主要有:第 16 页2022年10月3日18时04分v遗传算法遗传算法(Genetic Algorithm,GA)遵循遵循“适者生存、优胜劣汰适者生存、优胜劣汰”的原则,是一类借的原则,是一类借鉴生物界自然选择和自然遗传机制的随机化搜索鉴生物界自然选择和自然遗传机制的随机化搜索算法。算法。遗传算法模拟一个人工种群的进化过程,
17、通过选遗传算法模拟一个人工种群的进化过程,通过选择择(Selection)、交叉、交叉(Crossover)以及变异以及变异(Mutation)等机制,在每次迭代中都保留一组候选等机制,在每次迭代中都保留一组候选个体,重复此过程,种群经过若干代进化后,理个体,重复此过程,种群经过若干代进化后,理想情况下其适应度达到近似最优的状态。想情况下其适应度达到近似最优的状态。第 17 页2022年10月3日18时04分遗传算法组成遗传算法组成第 18 页2022年10月3日18时04分实数编码:直接用实数表示基因,容易理解且不需要解码过程,但实数编码:直接用实数表示基因,容易理解且不需要解码过程,但容易
18、过早收敛,从而陷入局部最优。容易过早收敛,从而陷入局部最优。二进制编码:稳定性高,种群多样性大,但需要的存储空间大,需二进制编码:稳定性高,种群多样性大,但需要的存储空间大,需要解码且难以理解。要解码且难以理解。染色体表达了某种特征,这种特征的载体,称为个体。许多这样的个染色体表达了某种特征,这种特征的载体,称为个体。许多这样的个体组成了一个种群。体组成了一个种群。遗传算法中,一个个体遗传算法中,一个个体(解解)的好坏用适应度函数值来评价。适应度函的好坏用适应度函数值来评价。适应度函数值越大,解的质量越高。适应度函数是遗传算法进化的驱动力,数值越大,解的质量越高。适应度函数是遗传算法进化的驱动
19、力,也是进行自然选择的唯一标准,它的设计应结合求解问题本身的也是进行自然选择的唯一标准,它的设计应结合求解问题本身的要求而定。要求而定。第 19 页2022年10月3日18时04分对于给定的种群,赋予其进化的能力主要通过三个途径:选择交叉变异我们希望有这样一个种群,它所包含的个体所对应的适应度函数值我们希望有这样一个种群,它所包含的个体所对应的适应度函数值值都很接近于最大值(或最小值),但是这个种群一开始可能不那值都很接近于最大值(或最小值),但是这个种群一开始可能不那么优秀,因为个体的染色体串是随机生成的。么优秀,因为个体的染色体串是随机生成的。那么如何让种群变得优秀呢?答案是不断的进化。每
20、一次进化都尽那么如何让种群变得优秀呢?答案是不断的进化。每一次进化都尽可能保留种群中的优秀个体,淘汰掉不理想的个体,并且在优秀个可能保留种群中的优秀个体,淘汰掉不理想的个体,并且在优秀个体之间进行染色体交叉,有些个体还可能出现变异。种群的每一次体之间进行染色体交叉,有些个体还可能出现变异。种群的每一次进化,都会产生一个最优个体。种群所有世代的最优个体,可能就进化,都会产生一个最优个体。种群所有世代的最优个体,可能就是适应度函数最大值对应的定义域中的点。如果种群无休止地进化,是适应度函数最大值对应的定义域中的点。如果种群无休止地进化,那总能找到最好的解。但实际上,我们的时间有限,通常在得到一那总
21、能找到最好的解。但实际上,我们的时间有限,通常在得到一个看上去不错的解时,便终止了进化。个看上去不错的解时,便终止了进化。第 20 页2022年10月3日18时04分v蚁群算法蚁群算法(AntColonyAlgorithm,ACA)是由意大利学者是由意大利学者A.Colomi等人于等人于1992年提出来的一种年提出来的一种模拟蚂蚁群体在食物采集过程中表现出来的智能行为模拟蚂蚁群体在食物采集过程中表现出来的智能行为的仿生优化算法。的仿生优化算法。与大多数基于梯度应用优化算法不同,蚁群算法依靠与大多数基于梯度应用优化算法不同,蚁群算法依靠的是概率搜索算法,该方法已经成功求解了旅行商问的是概率搜索算
22、法,该方法已经成功求解了旅行商问题、指派问题以及调度问题等,得到了较好的实验效题、指派问题以及调度问题等,得到了较好的实验效果。果。第 21 页2022年10月3日18时04分人们发现单个蚂蚁往往很难找到食物源,然而整个蚁群在觅食过程中总人们发现单个蚂蚁往往很难找到食物源,然而整个蚁群在觅食过程中总能寻找到到达食物源的最短路径。进一步研究发现,蚂蚁个体之间通过能寻找到到达食物源的最短路径。进一步研究发现,蚂蚁个体之间通过一种称之为信息素的物质进行信息传递,每只蚂蚁在它经过的路径上留一种称之为信息素的物质进行信息传递,每只蚂蚁在它经过的路径上留下这种物质,在决定行动方向时,总是倾向于朝着该物质强
23、度高的方向下这种物质,在决定行动方向时,总是倾向于朝着该物质强度高的方向移动,从而相互协作,完成寻找食物源工作。因此,由大量蚂蚁组成的移动,从而相互协作,完成寻找食物源工作。因此,由大量蚂蚁组成的蚁群的集体行动表现出一种信息正反馈现象,即某一路径上走过的蚂蚁蚁群的集体行动表现出一种信息正反馈现象,即某一路径上走过的蚂蚁越多,则其他蚂蚁选择该路径的概率越大。越多,则其他蚂蚁选择该路径的概率越大。蚁群算法来源蚁群算法来源每只蚂蚁能释放信息素蚂蚁能判断出是否有食物以及同类的信息素轨迹信息素有时效性,其数量会随时间而逐步变弱第 22 页2022年10月3日18时04分蚁群算法起初随机地选择路径,记住搜
24、索路径,并留下信息素,随着信蚁群算法起初随机地选择路径,记住搜索路径,并留下信息素,随着信息素的增加以及对路径的记忆,逐步了解搜索空间,指导下一次路径的息素的增加以及对路径的记忆,逐步了解搜索空间,指导下一次路径的选择,搜索开始变得有目的,迭代直至搜索得到空间内的最优解。选择,搜索开始变得有目的,迭代直至搜索得到空间内的最优解。遗传算法模拟遗传算法模拟集群活动信息素蚂蚁的记忆每条路径代表着解空间中的一个解,一只蚂蚁搜索过的路径在每条路径代表着解空间中的一个解,一只蚂蚁搜索过的路径在下次搜索时就不会再被选择,在蚁群算法中通过建立禁忌表进下次搜索时就不会再被选择,在蚁群算法中通过建立禁忌表进行模拟
25、,提高了效率,真实蚂蚁则没有记忆。行模拟,提高了效率,真实蚂蚁则没有记忆。蚂蚁在其经过的路径上会释放一种称为信息素的物质,当其他蚂蚂蚁在其经过的路径上会释放一种称为信息素的物质,当其他蚂蚁进行路径选择的时候,会依据路径上的信息素强度进行选择。蚁进行路径选择的时候,会依据路径上的信息素强度进行选择。随着单个蚂蚁的搜索进行,倾向于最优路径上的蚂蚁会越来随着单个蚂蚁的搜索进行,倾向于最优路径上的蚂蚁会越来越多,信息素数量也会越来越多,导致这些路径上的信息素越多,信息素数量也会越来越多,导致这些路径上的信息素强度增大,被下一只蚂蚁选择行走的概率就会增加,产生了强度增大,被下一只蚂蚁选择行走的概率就会增
26、加,产生了信息的正反馈。蚁群算法利用的就是这种信息的正反馈机制信息的正反馈。蚁群算法利用的就是这种信息的正反馈机制,逐步了解解空间,使搜索向最优解推进。,逐步了解解空间,使搜索向最优解推进。第 23 页2022年10月3日18时04分v模拟退火模拟退火(Simulated Annealing,SA)(1)爬山算法。介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。第 24 页2022年10月3日18时04分假设假设C点为
27、当前解,爬山算法搜索到点为当前解,爬山算法搜索到A点这个局部最优点这个局部最优解就会停止搜索,因为在解就会停止搜索,因为在A点无论向那个方向小幅度移点无论向那个方向小幅度移动都不能得到更优的解。动都不能得到更优的解。爬山法是完完全全的贪心法,每次都目光短浅的选择爬山法是完完全全的贪心法,每次都目光短浅的选择一个当前最优解,因此只能搜索到局部的最优值。一个当前最优解,因此只能搜索到局部的最优值。爬山算法爬山算法第 25 页2022年10月3日18时04分 (2)模拟退火)模拟退火(Simulated Annealing,SA)思想。思想。模拟退火其实也是一种贪心算法,但是它的搜索过程引入了随机因
28、素。模拟退模拟退火其实也是一种贪心算法,但是它的搜索过程引入了随机因素。模拟退火算法以一定的概率来接受一个比当前解要差的解,因此有可能会跳出这个局火算法以一定的概率来接受一个比当前解要差的解,因此有可能会跳出这个局部的最优解,达到全局的最优解。部的最优解,达到全局的最优解。爬山算法:兔子朝着比现在高的地方跳去,爬山算法:兔子朝着比现在高的地方跳去,它找到了不远处的最高山峰,但是这座山它找到了不远处的最高山峰,但是这座山不一定是珠穆朗玛峰,这就是爬山算法,不一定是珠穆朗玛峰,这就是爬山算法,它不能保证局部最优值就是全局最优值。它不能保证局部最优值就是全局最优值。模拟退火:兔子喝醉了,它随机地跳了
29、很模拟退火:兔子喝醉了,它随机地跳了很长时间,这期间,它可能走向高处,也可长时间,这期间,它可能走向高处,也可能踏入平地,但是它渐渐清醒了并朝最高能踏入平地,但是它渐渐清醒了并朝最高方向跳去,这就是模拟退火。方向跳去,这就是模拟退火。第 26 页2022年10月3日18时04分以以下下图为例,模拟退火算法在搜索到局部最优解图为例,模拟退火算法在搜索到局部最优解A后,会以一定的概率接受到后,会以一定的概率接受到E的移动。也许经过几的移动。也许经过几次这样的不是局部最优的移动后会到达次这样的不是局部最优的移动后会到达D点,于是点,于是就跳出了局部最大值就跳出了局部最大值A。这里的这里的“一定的概率
30、一定的概率”的计算参考了金属冶炼的退火的计算参考了金属冶炼的退火过程,这也是模拟退火算法名称的由来。过程,这也是模拟退火算法名称的由来。模拟退火模拟退火第 27 页2022年10月3日18时04分v 粒子群优化算法(粒子群优化算法(Particle Swarm Optimization,简称,简称PSO)源于对鸟群捕食行为的研究。它的基本核心是利用群体中的个体源于对鸟群捕食行为的研究。它的基本核心是利用群体中的个体对信息的共享从而使得整个群体的运动在问题求解空间中产生从对信息的共享从而使得整个群体的运动在问题求解空间中产生从无序到有序的演化过程,从而获得问题的最优解。无序到有序的演化过程,从而
31、获得问题的最优解。最简单有效的策略就是是搜寻目前距离玉米地最近的鸟群的周围最简单有效的策略就是是搜寻目前距离玉米地最近的鸟群的周围区域。区域。PSOPSO就是从这种群体觅食的行为中得到了启示,从而构建的就是从这种群体觅食的行为中得到了启示,从而构建的一种优化模型。一种优化模型。第 28 页2022年10月3日18时04分Step 1种群初始化种群初始化:可以进行随机初始化或者根据被优:可以进行随机初始化或者根据被优化的问题设计特定的初始化方法,然后计算个体的适应化的问题设计特定的初始化方法,然后计算个体的适应值,从而选择出个体的局部最优位置向量和种群的全局值,从而选择出个体的局部最优位置向量和
32、种群的全局最优位置向量。最优位置向量。Step 2迭代设置迭代设置:设置迭代次数,并令:设置迭代次数,并令当前迭代次数当前迭代次数g=1。Step 3速度更新速度更新:更新每个个体的速度向量。:更新每个个体的速度向量。Step 4位置更新位置更新:更新每个个体的位置向量。:更新每个个体的位置向量。Step 5局部位置向量和全局位置向量更新局部位置向量和全局位置向量更新:更新每个个:更新每个个体的和种群的。体的和种群的。Step 6终止条件判断终止条件判断:判断迭代次数时都达到,如果满:判断迭代次数时都达到,如果满足,输出足,输出Gbest;否则继续进行迭代,跳转至;否则继续进行迭代,跳转至St
33、ep 3。粒子群优化算法的算法框架粒子群优化算法的算法框架对于粒子群优化算法的运用,主要是对速度和位置向量迭代算子的设计。迭代算子是否有效将决定整个PSO算法性能的优劣,所以如何设计PSO的迭代算子是PSO算法应用的研究重点和难点。第 29 页2022年10月3日18时04分神经元模型神经元模型以监督学习为例,假设我们有训练样本集以监督学习为例,假设我们有训练样本集 ,那么神经网络算法那么神经网络算法能够提供一种复杂且非线性的假设模型能够提供一种复杂且非线性的假设模型 ,它具有参数,它具有参数W、b,可以以此参数来拟合我们的数据。先从最简单的神经网络讲起,这可以以此参数来拟合我们的数据。先从最
34、简单的神经网络讲起,这个神经网络仅由一个个神经网络仅由一个“神经元神经元”构成,构成,这个这个“神经元神经元”的输出为的输出为 其中函数被称为其中函数被称为“激活函数激活函数”。可以选用。可以选用sigmoid函数作为激活函函数作为激活函数:数:。除了。除了sigmoid函数,也可以选择双曲正切函数,也可以选择双曲正切函数(函数(tanh):):。tanh 函数是函数是sigmoid函数函数的一种变体,它的取值范围为的一种变体,它的取值范围为-1,1,而不是,而不是sigmoid函数的函数的0,1。12.1.4 12.1.4 神经网络神经网络神经网络本质上也是一种启发式算法。但在当今机器学习、
35、深度学习等概念愈趋愈热的大背景下,神经网络是这些技术的关键基础。第 30 页2022年10月3日18时04分 定定义义1 1神经网络模型神经网络模型所谓神经网络就是将许多个单一所谓神经网络就是将许多个单一“神经元神经元”联结在联结在一起,这样,一个一起,这样,一个“神经元神经元”的输出就可以是另一的输出就可以是另一个个“神经元神经元”的输入的输入 神经网络的算法模型(单隐含层)使用圆圈来表示神经网络的输入,标上使用圆圈来表示神经网络的输入,标上“+1”的圆圈被称为偏的圆圈被称为偏置节点,也就是截距项。置节点,也就是截距项。神经网络最左边的一层叫做输入层,最右的一层叫做输出层(神经网络最左边的一
36、层叫做输入层,最右的一层叫做输出层(上图中的输出层只有一个节点)。上图中的输出层只有一个节点)。中间所有节点组成的一层叫做隐藏层,因为我们不能在训练样中间所有节点组成的一层叫做隐藏层,因为我们不能在训练样本集中观测到它们的值。本集中观测到它们的值。可以看到右图神经网络的例子中有3个输入单元(偏置单元不计在内),3个隐藏单元及一个输出单元。第 31 页2022年10月3日18时04分 定定义义1 1构建更复杂的神经网络,即包含多个隐藏层、多个输出的神经网构建更复杂的神经网络,即包含多个隐藏层、多个输出的神经网络。络。比如下图的神经网络有两层隐藏层:比如下图的神经网络有两层隐藏层:L2及及L3,输
37、出层输出层L4有两个输出单元。有两个输出单元。神经网络的算法模型(双隐含层)上图的神经网络可以预测多个输出,例如在医疗诊断应用中,患上图的神经网络可以预测多个输出,例如在医疗诊断应用中,患者的体征指标就可以作为向量的输入值,而不同的输出值者的体征指标就可以作为向量的输入值,而不同的输出值yi可以可以表示不同的疾病存在与否。表示不同的疾病存在与否。第 32 页2022年10月3日18时04分 常见神经网络模型常见神经网络模型 前馈神经网络前馈神经网络(FFNN)前馈神经感知网络(前馈神经感知网络(Feed Forward Neural Networks,FFNN)与感)与感知机(知机(Perce
38、ptrons)非常简单,)非常简单,一般是提供一对数据集,然后通过反向传播算法来训练。这就是所一般是提供一对数据集,然后通过反向传播算法来训练。这就是所谓的谓的。与此相反的是与此相反的是:只给输入,然后让神经网络去寻找数据:只给输入,然后让神经网络去寻找数据当中的规律。当中的规律。反向传播的误差往往是神经网络当前输出和给定输出之间差值的某反向传播的误差往往是神经网络当前输出和给定输出之间差值的某种变体。如果神经网络具有足够的隐层神经元,那么理论上它总是种变体。如果神经网络具有足够的隐层神经元,那么理论上它总是能够建立输入数据和输出数据之间的关系。能够建立输入数据和输出数据之间的关系。在实践中,
39、在实践中,FFNN的使用具有很大的局限性,但是,它们通常和其他的使用具有很大的局限性,但是,它们通常和其他神经网络一起组合成新的架构。神经网络一起组合成新的架构。第 33 页2022年10月3日18时04分 卷积神经网络(卷积神经网络(Convolutional Neural Networks,CNN)或深度卷)或深度卷积神经网络(积神经网络(Deep Convolutional Neural Networks,DCNN)主)主要用于处理图像数据,但也可用于其他形式数据的处理,如语音数据。要用于处理图像数据,但也可用于其他形式数据的处理,如语音数据。一个典型的应用就是给它输入一个图像,而后它会
40、给出一个分类结果。一个典型的应用就是给它输入一个图像,而后它会给出一个分类结果。卷积神经网络卷积神经网络(CNN)第 34 页2022年10月3日18时04分 除了卷积层,池化层(除了卷积层,池化层(pooling layers)也非常重要。)也非常重要。池化是一种过滤掉细节的方式:一种常用的池化方式是最大池化,比如用池化是一种过滤掉细节的方式:一种常用的池化方式是最大池化,比如用2X2的像素,然后取四个像素中值最大的那个传递。的像素,然后取四个像素中值最大的那个传递。为了让卷积神经网络处理语音数据,需要把语音数据切分,一段一段输入。为了让卷积神经网络处理语音数据,需要把语音数据切分,一段一段
41、输入。在实际应用中,通常会在卷积神经网络后面加一个前馈神经网络,以进一步在实际应用中,通常会在卷积神经网络后面加一个前馈神经网络,以进一步处理数据,从而对数据进行更高水平的非线性抽象。处理数据,从而对数据进行更高水平的非线性抽象。池化层(pooling layers)第 35 页2022年10月3日18时04分第第1212章章 信息系统前沿技术信息系统前沿技术 人工智能技术人工智能技术12.1大数据分析技术大数据分析技术12.2 量子技术量子技术12.3 区块链技术区块链技术12.4第 36 页2022年10月3日18时04分12.2 大数据分析技术大数据技术能够将大规模数据中隐藏的信息和知识
42、挖掘出来,为大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。个社会经济的集约化程度。文献计量爬虫技术复杂网络第 37 页2022年10月3日18时04分 12.2.1 12.2.1 文献计量文献计量文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献情报的分布结构、数量关系、变化规律和定量管理计量研究方法,研究文献情报的分布结构、数量关系、变化规律和定
43、量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。,并进而探讨科学技术的某些结构、特征和规律的一门学科。文献计量学的分析数据指标取自各种不同数据源,目前获取分析数文献计量学的分析数据指标取自各种不同数据源,目前获取分析数据主要途径有:据主要途径有:使用机构内部的文件,如:研究报告、年度报告等;使用机构内部的文件,如:研究报告、年度报告等;如果所需信息不包括在书目数据库中,要通过查找原始文献;如果所需信息不包括在书目数据库中,要通过查找原始文献;大规模的分析需要利用商用文献数据库来获取;大规模的分析需要利用商用文献数据库来获取;利用专门为指标统计而提供数据的数据库来获取数据;利用专门为
44、指标统计而提供数据的数据库来获取数据;选择与国际上某机构签订协议来获取这方面的服务。选择与国际上某机构签订协议来获取这方面的服务。第 38 页2022年10月3日18时04分齐夫定律齐夫定律(二八原则)(二八原则)洛特卡定律洛特卡定律布拉德福布拉德福定律定律文献计量学三大定律文献计量学三大定律第 39 页2022年10月3日18时04分布拉德福定律如果将科技期刊按其刊载某学科专业论文的数量多少,以递减顺序排列,那么可以把期刊分为专门面对这个学科的核心区、相关区和非相关区。各个区的文章数量相等,此时核心区、相关区,非相关区期刊数量成的 关系。洛特卡定律洛特卡定律:它描述的是科学工作者人数与其所著
45、论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;写N篇论文的作者数量约为写一篇论文作者数量的,而写一篇论文作者的数量约占所有作者数量的60%。第 40 页2022年10月3日18时04分齐夫定律(二八原则)如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为Zipf定律。它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。这个定律后来在很多领域得到了同样的验证,包括网站访问者数量、城镇大小和
46、每个国家公司数量。所以以其名字命名的定律却早已走出语言学,进入了信息学、计算机科学、经济学、社会学、生物学、地理学、物理学等众多研究领域。例如:80%财富集中在20%人手中;80%用户只使用20%功能;20%用户贡献了80%访问量。第 41 页2022年10月3日18时04分基于共引基于共引(co-citation)分析理论和寻径分析理论和寻径(PathFinder)网络算法等,对特定领域网络算法等,对特定领域文献进行计量,以探寻出学科领域演化文献进行计量,以探寻出学科领域演化的关键路径及其知识拐点,并通过一系的关键路径及其知识拐点,并通过一系列可视化知识图谱的绘制来形成对学科列可视化知识图谱
47、的绘制来形成对学科演化潜在动力机制的分析和学科发展前演化潜在动力机制的分析和学科发展前沿的探测。沿的探测。Bibexcel软件的核心原理是软件的核心原理是“共词分共词分析法析法”。共词分析法的原理可描述为。共词分析法的原理可描述为:两个词的:两个词的“共词强度共词强度”指两个词同指两个词同时出现于一篇论文中的次数时出现于一篇论文中的次数,该值越高该值越高,则这两个词之间的关联越紧密。,则这两个词之间的关联越紧密。CitespaceCitespaceBibexcel文献计量学软件第 42 页2022年10月3日18时04分 12.2.2 12.2.2 爬虫技术爬虫技术 在互联网领域,爬虫(在互联
48、网领域,爬虫(Web crawler或或Web spider)一般指抓取众多公开网站网页上数据的相关)一般指抓取众多公开网站网页上数据的相关技术。网络爬虫又被称为网页蜘蛛、网络机器人、网技术。网络爬虫又被称为网页蜘蛛、网络机器人、网页追逐者等,它是一种按照一定的规则,自动地抓取页追逐者等,它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。万维网信息的程序或者脚本。第 43 页2022年10月3日18时04分 复杂网络(复杂网络(Complex Network),是指具有自组织、自相似、吸引子、小世),是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。界
49、、无标度中部分或全部性质的网络称为复杂网络。钱学森给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子、钱学森给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。小世界、无标度中部分或全部性质的网络。12.2.3 12.2.3 复杂网络复杂网络第 44 页2022年10月3日18时04分 节点多样性:复杂网络中的节点可以代表任何事物动力学复杂性:节点集可能属于非线性动力学系统连接多样性:节点之间的连接权重存在差异,且有可能存在方向性网络进化:表现在节点或连接的产生与消失结构复杂:节点数目巨大,网络结构呈现多种不同特征复杂网络的复杂网络的复
50、杂性复杂性多重复杂性融合:即以上多重复杂性相互影响,导致更为难以预料的结果第 45 页2022年10月3日18时04分 特征小世界小世界集群即集聚集群即集聚程度的概念程度的概念幂律的度幂律的度分布概念分布概念描述了大多数网络尽管规模很大但是任意两个节(顶)点间却有一条相当短的路径的事实。它反映的是相互关系的数目可以很小但却能够连接世界的事实,例如,在社会网络中,人与人相互认识的关系很少,但是却可以找到很远的无关系的其他人。例如,社会网络中总是存在熟人圈或朋友圈,其中每个成员都认识其他成员。集聚程度的意义是网络集团化的程度;这是一种网络的内聚倾向。连通集团概念反映的是一个大网络中各集聚的小网络分