1、了解数据、大数据及信息的定义了解数据、大数据及信息的定义区分数据与信息的概念区分数据与信息的概念理解教育大数据与信息处理的特点和理解教育大数据与信息处理的特点和采集方法采集方法掌握教育大数据与信息处理的内容和掌握教育大数据与信息处理的内容和方法方法1一、数据与大数据的的含义一、数据与大数据的的含义一般来讲,一般来讲,数据是数据是指对客观事件进行记录并指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这态以及相互关系等进行记载的物理符号或这些物理符号的组合。些物理符号的组合。它是可识别的、抽象的符号,是用于表示客
2、它是可识别的、抽象的符号,是用于表示客观事物的未经加工的原始素材。观事物的未经加工的原始素材。数据经过加工处理成为可以被人们认知的对数据经过加工处理成为可以被人们认知的对象后就成为信息。象后就成为信息。2第一节 数据与大数据的含义大数据(大数据(Big dataBig data)是指无法在一定时间范)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理围内用常规软件工具进行捕捉、管理和处理的数据集合。的数据集合。研究机构高德纳咨询公司(研究机构高德纳咨询公司(Gartner Gartner GroupGroup)给出的定义为:给出的定义为:“大数据是需要新处理模式大数据是需要新处理模式才
3、能具有更强的决策力、洞察发现力和流程才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息优化能力的海量、高增长率和多样化的信息资产资产”3价值性。价值性。价值高是大数据的核心特点。价值高是大数据的核心特点。容量性。容量性。数据存储单位从过去的数据存储单位从过去的GBGB到到TBTB(1024GB1024GB),乃至现在的),乃至现在的PB(1024TB)PB(1024TB)、EB(1024PB)EB(1024PB)级级4二、大数据的特点二、大数据的特点快速性。快速性。随着现代感测技术、互联网技术、随着现代感测技术、互联网技术、计算机技术的发展,数据生成、储存、分析、计算
4、机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象,这是大数处理的速度远远超出人们的想象,这是大数据区别于传统数据或小数据的显著特征。据区别于传统数据或小数据的显著特征。多样性。多样性。与传统数据相比,大数据的数据来与传统数据相比,大数据的数据来源广、维度多、类型复杂。源广、维度多、类型复杂。真实性。真实性。大数据有可靠的真实性,由于其全大数据有可靠的真实性,由于其全面、完整的表现形式,可以避免抽样数据的面、完整的表现形式,可以避免抽样数据的概率性。概率性。5三、三、教育大数据教育大数据(一)什么是教育大数据(一)什么是教育大数据目前,学术界对教育大数据(目前,学术界对教育大数据
5、(Big Data in Big Data in EducationEducation,BDEBDE)的概念尚未有明确的界定。)的概念尚未有明确的界定。所谓教育大数据特指教育领域的大数据,即整所谓教育大数据特指教育领域的大数据,即整个教育活动过程中所产生的以及根据教育需要个教育活动过程中所产生的以及根据教育需要采集到的、一切用于教育发展并可创造巨大潜采集到的、一切用于教育发展并可创造巨大潜在价值的数据集合。在价值的数据集合。6(二)教育大数据的特性(二)教育大数据的特性与传统教育数据相比,教育大数据的与传统教育数据相比,教育大数据的采集具有更强的实时性、连贯性、全采集具有更强的实时性、连贯性、
6、全面性和自然性,分析处理更加复杂多面性和自然性,分析处理更加复杂多样,应用更加多元深入样,应用更加多元深入。与电子商务、交通、医疗等领域的大与电子商务、交通、医疗等领域的大数据相比,教育大数据的特性主要表数据相比,教育大数据的特性主要表现为以下三个方面。现为以下三个方面。7(1 1)教育大数据的采集呈现高度的复杂性)教育大数据的采集呈现高度的复杂性(2 2)教育大数据的应用需要高度的创造性)教育大数据的应用需要高度的创造性(3 3)教育大数据注重相关关系,更要强调因果)教育大数据注重相关关系,更要强调因果关系关系8四、教育大数据的分类与结构四、教育大数据的分类与结构(一)(一)教育大数据的分类
7、教育大数据的分类l从数据产生的来源来看包括教学类数据、从数据产生的来源来看包括教学类数据、管理类数据、科研类数据以及服务类数据。管理类数据、科研类数据以及服务类数据。l从数据产生的技术场景来看,包括感知数从数据产生的技术场景来看,包括感知数据、业务数据和互联网数据等类型。据、业务数据和互联网数据等类型。910(二)教育大数据的结构(二)教育大数据的结构 整体来说,教育大数据可以分为四层,整体来说,教育大数据可以分为四层,由内到外分别是基础层、状态层、资源由内到外分别是基础层、状态层、资源层和行为层层和行为层.l基础层存储国家教育基础性数据基础层存储国家教育基础性数据l状态层存储各种教育装备、教
8、育环境以状态层存储各种教育装备、教育环境以及教育业务的运行状态信息及教育业务的运行状态信息l资源层存储教育过程中建设各种形态的资源层存储教育过程中建设各种形态的教学资源教学资源l行为层存储教育相关用户(教师、学生、行为层存储教育相关用户(教师、学生、教研员和教育管理者等)的行为数据教研员和教育管理者等)的行为数据11一、信息的含义一、信息的含义美国数学家、信息论创始人香农美国数学家、信息论创始人香农定义信息为:定义信息为:“信息是熵的减少信息是熵的减少”,即信息可以消除对事,即信息可以消除对事物认识的不确定性,并将消除不确定程度的物认识的不确定性,并将消除不确定程度的多少作为信息量的量度。多少
9、作为信息量的量度。同时,同时,提出了信息量的概念和信息熵的计算提出了信息量的概念和信息熵的计算方法方法。12第二节 信息及教育信息(一)信息、消息和信号(一)信息、消息和信号消息是信息的外壳,信息是消息的内核。消息是信息的外壳,信息是消息的内核。信号是运载消息的工具,是消息的载体信号是运载消息的工具,是消息的载体,是是消息的运载工具消息的运载工具。一条消息是否包含信息,还与消息接收者的一条消息是否包含信息,还与消息接收者的知识状况有关,信息是消息接收者从消息中知识状况有关,信息是消息接收者从消息中得到的新知识。得到的新知识。13信号是载荷信息的实体,信号仅仅是外壳,信号是载荷信息的实体,信号仅
10、仅是外壳,信息则是内核。信息则是内核。信息与信号相比,信号是信息的载体,信号信息与信号相比,信号是信息的载体,信号是消息的物理体现。是消息的物理体现。消息包含在信号之中,信号是消息的载体。消息包含在信号之中,信号是消息的载体。通信的结果是消除或部分消除不确定性,从通信的结果是消除或部分消除不确定性,从而获得信息。而获得信息。14(二)数据、信息和知识(二)数据、信息和知识知识是事物运动状态和方式在人们头脑中一种知识是事物运动状态和方式在人们头脑中一种有序的、规律性的表达,是信息加工的产物有序的、规律性的表达,是信息加工的产物。数据强调形式数据强调形式;信息注重内容信息注重内容;知识反映规律知识
11、反映规律性性。数据是对客观事物、事件的记录、描述,是可数据是对客观事物、事件的记录、描述,是可由人工或自动化手段加以处理的数字、文字、由人工或自动化手段加以处理的数字、文字、图形、图像、声音等符号的集合。图形、图像、声音等符号的集合。数据经过加工处理之后,成为信息。数据经过加工处理之后,成为信息。15二、信息的特点二、信息的特点(一)可度量(一)可度量信息可采用某种度量单位进行度量,并进行信信息可采用某种度量单位进行度量,并进行信息编码。息编码。(二二)可识别)可识别信息可采用直观识别、比较识别和间接识别等信息可采用直观识别、比较识别和间接识别等多种方式来把握。多种方式来把握。16(三)可转换
12、(三)可转换信息可以从一种形态转换为另一种形态。信息可以从一种形态转换为另一种形态。(四)可存储(四)可存储大脑就是一个天然信息存储器。人们可以用文字、大脑就是一个天然信息存储器。人们可以用文字、图像、音频、视频以及计算机存储器等进行信息图像、音频、视频以及计算机存储器等进行信息存储。存储。(五)可处理(五)可处理人脑人脑就是就是最佳的信息处理器最佳的信息处理器;计算机也具有信息计算机也具有信息处理功能。处理功能。17(六)可传递(六)可传递信息的传递是与物质和能量的传递同时进行的。信息的传递是与物质和能量的传递同时进行的。(七)可再生(七)可再生信息经过处理后,可以以其它形式再生。信息经过处
13、理后,可以以其它形式再生。(八)可共享(八)可共享信息具有扩散性,因此可共享信息具有扩散性,因此可共享。18三、信息的分类三、信息的分类(一)根据信息的作用范围信息分(一)根据信息的作用范围信息分类类19外部信息外部信息 环境作用于学习者感官的信息环境作用于学习者感官的信息内内部信息部信息 存在或活动在学习者个体内部的信息存在或活动在学习者个体内部的信息(二)根据信息的生产方式信息分(二)根据信息的生产方式信息分类类20自然信息自然信息 存在于自然界中表现了物质活动本身特点的存在于自然界中表现了物质活动本身特点的信息,信息的内容有其必然性而非人为指定的。信息,信息的内容有其必然性而非人为指定的
14、。人工信息人工信息 人类约定的,与信息本身的物质特点关系不大。人类约定的,与信息本身的物质特点关系不大。(三)根据信息的用途信息分(三)根据信息的用途信息分类类21有用信息有用信息信息接收者所需要的信息信息接收者所需要的信息 干扰信息干扰信息在信息接收过程中阻碍在信息接收过程中阻碍获得有用信息并与有用获得有用信息并与有用信息混在一起的无关信信息混在一起的无关信息息 冗余冗余信息信息在信息形式上对在信息形式上对 信息内容的多余信息内容的多余一、教育信息的含义一、教育信息的含义广义的教育信息是指在教育系统中传递的各广义的教育信息是指在教育系统中传递的各种信息,包括社会、家庭和学校中与教育活种信息,
15、包括社会、家庭和学校中与教育活动有关的各种信息、消息和情报。动有关的各种信息、消息和情报。狭义的教育信息是指可以减少或消除受教育狭义的教育信息是指可以减少或消除受教育者对于事物的不确定性的教育内容,即与教者对于事物的不确定性的教育内容,即与教育活动有关的事物运动的状态和方式育活动有关的事物运动的状态和方式,包括包括教师信息、学生信息、教材信息、课堂信息教师信息、学生信息、教材信息、课堂信息等等。等等。22四、教育信息的含义五、教育信息的特点五、教育信息的特点(一)低度量性(一)低度量性大多数的教育信息难以度量,处理较为困难。大多数的教育信息难以度量,处理较为困难。(二)次统计性(二)次统计性实
16、际教学研究时,样本较少,给数据的统计实际教学研究时,样本较少,给数据的统计带来不便,并影响统计的准确性,统计结果带来不便,并影响统计的准确性,统计结果难以表示通用情况。难以表示通用情况。23(三)个体性(三)个体性在个性化教育的过程中,教育者比较关注学在个性化教育的过程中,教育者比较关注学生个体的发展,因此教育信息多是个体信息。生个体的发展,因此教育信息多是个体信息。(四)模糊性(四)模糊性包括教育活动状态的模糊性和方式的模糊性。包括教育活动状态的模糊性和方式的模糊性。24(五)科学性(五)科学性教育信息来自于实践,经过一定阶段的检验,教育信息来自于实践,经过一定阶段的检验,具有较强的科学性。
17、具有较强的科学性。(六)系统性(六)系统性按照教学目标,教学信息环环相扣,组织严按照教学目标,教学信息环环相扣,组织严密,按照知识传递的梯度结构和先后顺序安密,按照知识传递的梯度结构和先后顺序安排教学,因此教育信息具有较强的系统性。排教学,因此教育信息具有较强的系统性。25(七)针对性(七)针对性教育信息的目的性较强,要根据不同的教育教育信息的目的性较强,要根据不同的教育对象选择不同要求的教学内容。对象选择不同要求的教学内容。(八)新颖性(八)新颖性及时更新教学内容,吸取最新的研究成果,及时更新教学内容,吸取最新的研究成果,讲出知识的发展前沿。讲出知识的发展前沿。26六、教育信息的分型六、教育
18、信息的分型(一)按照教育信息的来源划分(一)按照教育信息的来源划分27来自教育管理来自教育管理部门的信息部门的信息来自教育科研来自教育科研部门的信息部门的信息教学教学设计设计信息信息教学教学实施实施信息信息教学教学评价评价信息信息来自教学过程的信息来自教学过程的信息(二)按照教育信息的载体形式划分(二)按照教育信息的载体形式划分28教育信息教育信息文本信息文本信息图像信息图像信息声音信息声音信息视频信息视频信息(三)按照记录教育信息的方法划分(三)按照记录教育信息的方法划分可可分为分为:手写品、印刷品、缩微品、磁录品、手写品、印刷品、缩微品、磁录品、光盘类、网络类和数字类等。光盘类、网络类和数
19、字类等。(四)按照教育信息传播方式划分(四)按照教育信息传播方式划分可将教育信息划分为课堂传播方式的教育信可将教育信息划分为课堂传播方式的教育信息、个别传播方式的教育信息和自学传播方息、个别传播方式的教育信息和自学传播方式的教育信息。式的教育信息。29七、信息的量化七、信息的量化(一)信息量(一)信息量信源就是信息的来源信源就是信息的来源信源消息的出现,或者说发送者选择哪个消信源消息的出现,或者说发送者选择哪个消息,具有一定的不确定性息,具有一定的不确定性。信息量就是信息大小或多少的度量,即解除信息量就是信息大小或多少的度量,即解除信源不确定性所需的信息的度量。信源不确定性所需的信息的度量。3
20、0定义:某一信源发出某一消息,所携带的信定义:某一信源发出某一消息,所携带的信息大小,简称信息量。一般情况,它们用概息大小,简称信息量。一般情况,它们用概率的倒数的对数函数来表示某一事件(某一率的倒数的对数函数来表示某一事件(某一符号)出现所带来的信息量。符号)出现所带来的信息量。H(x)=fp(x)=logH(x)=fp(x)=log2 2=-log=-log2 2 p(x)p(x)其中其中H H表示信息量,表示信息量,x x表示某一事件,表示某一事件,p(x)p(x)表示发生表示发生 事件的概率。事件的概率。31例例1 1:某学院有三个系,各系学生数情况如:某学院有三个系,各系学生数情况如
21、下表所示。从该学院所有学生中抽签产生一下表所示。从该学院所有学生中抽签产生一名火炬手,名火炬手,x xi i表示信息表示信息“火炬手来自第火炬手来自第i i系系”,求,求“火炬手来自第火炬手来自第i i系系”的信息量的信息量H(xH(xi i)。32编号编号院系名称院系名称人数人数1 1教育技术学教育技术学5005002 2教育学教育学3003003 3心理学心理学200200解:解:信源的概率空间如表所示。信源的概率空间如表所示。H(xH(x1 1)=-log p(x)=-log p(x1 1)=-log0.5=1)=-log0.5=1(bitbit););H(xH(x2 2)=-log p
22、(x)=-log p(x2 2)=-log0.3=1.74)=-log0.3=1.74(bitbit););H(xH(x3 3)=-log p(x)=-log p(x3 3)=-log0.2=2.32)=-log0.2=2.32(bitbit)。33编号编号院系名称院系名称概率概率P(xP(xi i)1 1教育技术学教育技术学0.50.52 2教育学教育学0.30.33 3心理学心理学0.20.2(二)信息熵(二)信息熵信息熵简称为熵信息熵简称为熵(entropy)(entropy),表示的是信源,表示的是信源每个状态的平均不确定性。熵的大小可用于每个状态的平均不确定性。熵的大小可用于表示概率
23、系统的不确定程度。符号集的平均表示概率系统的不确定程度。符号集的平均信息量就用信息熵来度量。信息量就用信息熵来度量。定义:设概率系统中有定义:设概率系统中有n n个事件,每一事件个事件,每一事件产生的概率为:产生的概率为:p pi i(i i=1=1 n)n),当事件当事件i i产生产生后,给予它们的信息量为:后,给予它们的信息量为:34iipHlog对于对于n n个事件构成的概率系统,每一事件产个事件构成的概率系统,每一事件产生的平均信息量为:生的平均信息量为:称称H H(X X)为信息熵,简称为熵。为信息熵,简称为熵。熵表示的是不确定性的大小熵表示的是不确定性的大小35iniinipppp
24、XHlog1log)(1i1i例例2 2:某学院有三个系,各系学生数情况如某学院有三个系,各系学生数情况如例例1 1。从该学院所有学生中抽签产生一名火。从该学院所有学生中抽签产生一名火炬手,炬手,x xi i表示信息表示信息“火炬手来自第火炬手来自第i i系系”,求选出火炬手产生的平均信息量,即信息熵求选出火炬手产生的平均信息量,即信息熵H H(X X)。解:解:36)bit(486.12.32*0.21.74*0.31*.50log)(1ippXHni例例3 3:有三个选择题,每个题目均有两个选:有三个选择题,每个题目均有两个选项。每个题目被选中的概率如下表所示,求项。每个题目被选中的概率如
25、下表所示,求每个题目的信息熵。每个题目的信息熵。37题目题目选项选项A A被选择概率被选择概率P(AP(Ai i)选项选项B B被选择概率被选择概率P(BP(Bi i)选择题选择题X X1 10.50.50.50.5选择题选择题X X2 20.70.70.30.3选择题选择题X X3 30.990.990.010.01解:解:三个选择题的信息熵分别为:三个选择题的信息熵分别为:H(XH(X1 1)=-0.5log0.5-0.5log0.5=1(bit)=-0.5log0.5-0.5log0.5=1(bit)H(XH(X2 2)=-0.7log0.7-0.3log0.3=0.88(bit)=-0
26、.7log0.7-0.3log0.3=0.88(bit)H(XH(X3 3)=-0.99log0.99-0.01log0.01=0.08(bit)=-0.99log0.99-0.01log0.01=0.08(bit)382.2.信息熵的基本性质信息熵的基本性质(1 1)非负性)非负性 H(X)=H(p H(X)=H(p1 1,p p2 2,p pn n)0 0(2 2)对称性)对称性(3 3)确定性)确定性39),(),(13221ppppHpppHnn0)0,0,1()0,0,1()0,1(HHH(三)信息量与信息熵(三)信息量与信息熵信息熵是描述信源本身统计特性的一个物理信息熵是描述信源本
27、身统计特性的一个物理量。量。它是信源平均不定度,是信源统计特性的一它是信源平均不定度,是信源统计特性的一个客观表征量。个客观表征量。信息量则往往是针对接收者而言的,所谓接信息量则往往是针对接收者而言的,所谓接收者获得了信息,是指接收者收到消息后解收者获得了信息,是指接收者收到消息后解除了对信源的平均不定度,它具有相对性。除了对信源的平均不定度,它具有相对性。40一、教育数据的采集领域一、教育数据的采集领域数据采集就是利用工具将分布的、异构数源数据采集就是利用工具将分布的、异构数源中的数据如关系数据、平面数据文件等抽取中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换和集成,最到
28、临时中间层后进行清洗、转换和集成,最后加载到数据仓库或数据集中,成为联机分后加载到数据仓库或数据集中,成为联机分析处理、数据挖掘的基础的过程。析处理、数据挖掘的基础的过程。不同层次教育数据的采集与生成方式、应用不同层次教育数据的采集与生成方式、应用场景也有所不同。数据采集的难度从内向外场景也有所不同。数据采集的难度从内向外逐步增加,尤其是行为层数据的采集最为复逐步增加,尤其是行为层数据的采集最为复杂多变。杂多变。41第三节 教育大数据与信息处理(一)基础层数据(一)基础层数据基础层数据的产生主要有两种方式:一种是人基础层数据的产生主要有两种方式:一种是人工采集,另一种是数据交换。工采集,另一种
29、是数据交换。(二)状态层数据(二)状态层数据状态层数据的采集有两种方式:人工记录和传状态层数据的采集有两种方式:人工记录和传感器感知。感器感知。(三)资源层数据(三)资源层数据资源层数据的产生主要有两种途径:一种是专资源层数据的产生主要有两种途径:一种是专门建设,另一种是动态生成。门建设,另一种是动态生成。(四)行为层数据(四)行为层数据教与学行为数据在所有行为层数据中占据主导教与学行为数据在所有行为层数据中占据主导地位地位42二、教育信息的收集方法二、教育信息的收集方法(一)观察法(一)观察法43观察要素观察要素观察原则观察原则观察手段观察手段观察的对象观察的对象观察对象的状态观察对象的状态
30、要坚持从事实出要坚持从事实出发、以事实为依发、以事实为依据的原则,保证据的原则,保证观察对象、材料观察对象、材料的真实性。的真实性。坚持观察的全面坚持观察的全面性原则,保证观性原则,保证观察材料的全面性察材料的全面性和正确性,防止和正确性,防止片面性,从整体片面性,从整体出发,全面系统出发,全面系统地观察。地观察。(二)调查法(二)调查法44访谈法访谈法问卷法问卷法汇报法汇报法通过与教育对象谈话收集信息通过与教育对象谈话收集信息通过设计问卷向教育对象了解书面信息通过设计问卷向教育对象了解书面信息通过口头或书面汇报获取教育信息通过口头或书面汇报获取教育信息(三)阅读资料法(三)阅读资料法阅读资料
31、法是学习他人研究成果和信息资料阅读资料法是学习他人研究成果和信息资料的重要方法,主要指从各种报纸、文件、书的重要方法,主要指从各种报纸、文件、书籍以及网络中寻找和发现教育信息籍以及网络中寻找和发现教育信息(四)测试法(四)测试法测试法是教师了解学生学习效果的主要方式测试法是教师了解学生学习效果的主要方式之一,是指通过学生对测验试卷或口头问题之一,是指通过学生对测验试卷或口头问题的回答情况,以获取教学效果信息的方法的回答情况,以获取教学效果信息的方法此外,还有个案法、实验法、人物推定法、投此外,还有个案法、实验法、人物推定法、投射法等。射法等。45三、教育数据及教育信息的处理内容三、教育数据及教
32、育信息的处理内容(一)教育数据处理内容(一)教育数据处理内容 (1 1)课堂教学数据。)课堂教学数据。(2 2)网络教学数据。)网络教学数据。(3 3)数字化管理的数据。)数字化管理的数据。(4 4)教研的数据。)教研的数据。46(二)、教育信息处理内容(二)、教育信息处理内容(1 1)教学目标和教材信息)教学目标和教材信息教学目标是教学设计的起点,是教学评价的根据,教学目标是教学设计的起点,是教学评价的根据,在教学中占有重要的位置。在教学过程中教师的在教学中占有重要的位置。在教学过程中教师的教学目标也是学生的学习目标教学目标也是学生的学习目标教材是一种信息源,对教材的分析主要是对教材教材是一
33、种信息源,对教材的分析主要是对教材结构的分析,分析教材的层级结构,基于教材的结构的分析,分析教材的层级结构,基于教材的层级结构对教学内容序列化是教材分析的基本内层级结构对教学内容序列化是教材分析的基本内容。容。47(2 2)教学过程信息)教学过程信息教学过程是一种教师与学生间的信息传递过程。教学过程是一种教师与学生间的信息传递过程。它是一种在时间轴上展开和变化的过程。教学分它是一种在时间轴上展开和变化的过程。教学分析方法应基于教学过程的这种特点,有效地记录析方法应基于教学过程的这种特点,有效地记录教学过程中的各种数据,通过对这些数据的分析、教学过程中的各种数据,通过对这些数据的分析、处理,得到
34、一定的信息,并将这种信息用于评价处理,得到一定的信息,并将这种信息用于评价和完善教学过程。和完善教学过程。(3 3)测试的信息)测试的信息测试是评价的基础,评价则是改善的依据,因此测试是评价的基础,评价则是改善的依据,因此测试是教育系统获得反馈信息的重要途径,是教测试是教育系统获得反馈信息的重要途径,是教育系统有效运行的保障。育系统有效运行的保障。48(4 4)教师评价信息)教师评价信息教师评价信息包括教师基本素质、教师工作过程、教教师评价信息包括教师基本素质、教师工作过程、教师工作绩效等信息。师工作绩效等信息。(5 5)教育管理信息)教育管理信息在教育管理系统内的信息从内容的角度可分为三类:
35、在教育管理系统内的信息从内容的角度可分为三类:一是关于人的信息。一是关于人的信息。二是关于物的信息二是关于物的信息三是关于以货币为计量单位的信息三是关于以货币为计量单位的信息(6 6)教育信息化考试)教育信息化考试基于信息技术的无纸化考试已成为未来考试形式发展基于信息技术的无纸化考试已成为未来考试形式发展的必然趋势的必然趋势49四、教育大数据的处理方法四、教育大数据的处理方法(一)教育大数据的处理方法(一)教育大数据的处理方法(1 1)统计分析与可视化)统计分析与可视化l统计分析将基于假设的检验作为最终目标统计分析将基于假设的检验作为最终目标l可视化是将数据信息转化为有意义的、易于理可视化是将
36、数据信息转化为有意义的、易于理解的图像的过程,解的图像的过程,50(2 2)聚类性分析聚类性分析聚类性分析包括聚类和离群点分析。常见的聚类性分析包括聚类和离群点分析。常见的聚类算法有最大期望算法聚类算法有最大期望算法(EM(EM算法算法)与与K-K-均值均值(k-means)(k-means)算法等。算法等。(3 3)预测性分析)预测性分析决策树、回归分析、时序分析等算法均可实现决策树、回归分析、时序分析等算法均可实现某种预测功能,即由一些已知属性或记录来预某种预测功能,即由一些已知属性或记录来预知另一属性或新记录的取值情况。知另一属性或新记录的取值情况。51(4 4)关系挖掘)关系挖掘关系挖
37、掘包括关联规则挖掘、序列模式挖掘关系挖掘包括关联规则挖掘、序列模式挖掘和社会网络分析。和社会网络分析。(5 5)文本挖掘文本挖掘文本挖掘是指将数据挖掘技术应用在大量的文本挖掘是指将数据挖掘技术应用在大量的文本集合上,发现其中隐含知识的过程文本集合上,发现其中隐含知识的过程52(二)教育大数据环境下的信息获得方法(二)教育大数据环境下的信息获得方法1 1信息论方法信息论方法 含义含义:信息论方法就是运用信息观点的方信息论方法就是运用信息观点的方法,把研究的客体视为信息的获取、转换、法,把研究的客体视为信息的获取、转换、处理、反馈而重视目的性运动的过程,以处理、反馈而重视目的性运动的过程,以此达到
38、对复杂运动过程的规律性认识。此达到对复杂运动过程的规律性认识。信息论方法的基本特点。信息论方法的基本特点。信息反馈过程。信息反馈过程。532 2教育统计学法教育统计学法教育统计学是教育科学的分支学科,是教育统计学是教育科学的分支学科,是运用数理统计的原理和方法来研究、分运用数理统计的原理和方法来研究、分析各种教育问题的一门科学。析各种教育问题的一门科学。教育统计学应用数理统计方法对教育规律进教育统计学应用数理统计方法对教育规律进行数量化研究,就其内容来说可以分为行数量化研究,就其内容来说可以分为描述描述统计、推断统计和多元统计分析统计、推断统计和多元统计分析三大部分。三大部分。543.3.图论
39、方法图论方法图论模型属于离散类数学模型,是数学模型图论模型属于离散类数学模型,是数学模型中比较容易为学生接受的一类模型,具有直中比较容易为学生接受的一类模型,具有直观性、趣味性和简洁性。对于结构化的各种观性、趣味性和简洁性。对于结构化的各种教育信息教育信息。例如,教材的结构化关系,学生认知的结构例如,教材的结构化关系,学生认知的结构化关系都可以用有向图来表示。化关系都可以用有向图来表示。554.4.模糊理论法模糊理论法模糊综合评价法是应用模糊模糊综合评价法是应用模糊(Fuzzy)(Fuzzy)集理论集理论对系统进行综合评价的一种方法对系统进行综合评价的一种方法(1)(1)模糊数学模糊数学模糊数
40、学是研究和处理模糊性现象的数学模糊数学是研究和处理模糊性现象的数学,模糊数学中,归属度是建立模糊集合的基础,模糊数学中,归属度是建立模糊集合的基础,归属函数是描述模糊性的关键。归属函数是描述模糊性的关键。56(2)(2)模糊集合模糊集合表示界限或边界不明确的特定集合,以特征表示界限或边界不明确的特定集合,以特征函数来表示元素与集合间之归属程度,一般函数来表示元素与集合间之归属程度,一般特征函数又称为归属函数,其值介于特征函数又称为归属函数,其值介于0 0,1 1区间。区间。(3)(3)模糊关系模糊关系并非是简单的并非是简单的“是与否是与否”或或“有与无有与无”的关的关系,而是有着不同程度的关系
41、存在系,而是有着不同程度的关系存在。57五、教育大数据的处理关键技术五、教育大数据的处理关键技术(一)采集技术(一)采集技术。大数据采集一般可在大数据采集一般可在大数据智能感知层大数据智能感知层及及基础支撑层基础支撑层进行。进行。(二)预处理技术(二)预处理技术预处理主要完成对已接收数据的预处理主要完成对已接收数据的抽取、清洗抽取、清洗等操作。等操作。(三)存储及管理技术(三)存储及管理技术58(四)分析及挖掘技术(四)分析及挖掘技术 分析及数据挖掘就是从大量的、不完全的、有噪声的、分析及数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、模糊的、随机的实
42、际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过人们事先不知道的、但又是潜在有用的信息和知识的过程。程。(五)展现与应用技术(五)展现与应用技术 大数据技术能够将隐藏于海量数据中的信息和知识挖掘大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的活动提供依据,从而提高各个领域的运出来,为人类的活动提供依据,从而提高各个领域的运行效率。行效率。59课后任务课后任务1 1区分数据与信息的意义及其各自的特点。区分数据与信息的意义及其各自的特点。2 2举例说明数据和大数据的区别和联系。举例说明数据和大数据的区别和联系。3 3用观察法和调查法去收集身边的教育信息用观察法和调查法去收集身边的教育信息60