(完整PPT)weka数据挖掘教程课件.ppt

上传人(卖家):三亚风情 文档编号:3183899 上传时间:2022-07-30 格式:PPT 页数:300 大小:14.29MB
下载 相关 举报
(完整PPT)weka数据挖掘教程课件.ppt_第1页
第1页 / 共300页
(完整PPT)weka数据挖掘教程课件.ppt_第2页
第2页 / 共300页
(完整PPT)weka数据挖掘教程课件.ppt_第3页
第3页 / 共300页
(完整PPT)weka数据挖掘教程课件.ppt_第4页
第4页 / 共300页
(完整PPT)weka数据挖掘教程课件.ppt_第5页
第5页 / 共300页
点击查看更多>>
资源描述

1、2022-7-301数据挖掘工具-WEKA教程oWEKAWEKA简介简介.2.2o数据集数据集.11.11o数据准备数据准备.24.24o数据预处理数据预处理3636o分类分类6363o聚类聚类.184.184o关联规则关联规则225225o选择属性选择属性244244o数据可视化数据可视化253253o知识流界面知识流界面2752752022-7-3021、WEKA简介简介oWEKA的全名是怀卡托智能分析环境的全名是怀卡托智能分析环境n(Waikato Environment for Knowledge Analysis)nweka也是新西兰的一种鸟名也是新西兰的一种鸟名o是新西兰怀卡托大学

2、是新西兰怀卡托大学WEKA小组用小组用Java开发的机器学习开发的机器学习/数据挖掘开源软件。其源代码获取数据挖掘开源软件。其源代码获取nhttp:/www.cs.waikato.ac.nz/ml/weka/nhttp:/ SIGKDD国际会议上,怀国际会议上,怀卡托大学的卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的小组荣获了数据挖掘和知识探索领域的最高服务奖,最高服务奖,WEKA系统得到了广泛的认可,被誉为数据系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今挖掘和机器学习历史上的里程碑,是现今最完备最完备的数据挖的数据挖掘工具之一。掘工具之一。WEKA的每月下载次

3、数已超过万次。的每月下载次数已超过万次。2022-7-303WEKA软件软件o主要特点主要特点n它是集数据预处理、学习算法(分类、回归、聚类、关它是集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体的综合性数据挖掘工具。联分析)和评估方法等为一体的综合性数据挖掘工具。n具有交互式可视化界面。具有交互式可视化界面。n提供算法学习比较环境提供算法学习比较环境n通过其接口,可实现自己的数据挖掘算法通过其接口,可实现自己的数据挖掘算法WEKA的界面2022-7-304探索环境探索环境命令行环境命令行环境知识流环境知识流环境算法试验环境算法试验环境2022-7-305Explorer

4、环境环境 2022-7-306把“Explorer”界面分成8个区域o区域区域1的几个选项卡是用来切换不同的挖掘任务面板。的几个选项卡是用来切换不同的挖掘任务面板。nPreprocess(数据预处理)数据预处理):选择和修改要处理的数据。选择和修改要处理的数据。nClassify(分类)分类):训练和测试分类或回归模型。训练和测试分类或回归模型。nCluster(聚类)聚类):从数据中聚类。从数据中聚类。nAssociate(关联分析)关联分析):从数据中学习关联规则。从数据中学习关联规则。nSelect Attributes(选择属性)选择属性):选择数据中最相关的属性。选择数据中最相关的属

5、性。nVisualize(可视化)可视化):查看数据的二维散布图。查看数据的二维散布图。o区域区域2是一些常用按钮。包括打开、编辑、保存数据及数据转换等功是一些常用按钮。包括打开、编辑、保存数据及数据转换等功能。例如能。例如,我们可以把文件我们可以把文件“bank-data.csv”另存为另存为“bank-data.arff”。o区域区域3中可以选择中可以选择(Choose)某个筛选器某个筛选器(Filter),),以实现筛选以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。数据或者对数据进行某种变换。数据预处理主要就利用它来实现。2022-7-307o区域区域4展示了数据集

6、的关系名、属性数和实例数等基本情况。展示了数据集的关系名、属性数和实例数等基本情况。o区域区域5中列出了数据集的所有属性。中列出了数据集的所有属性。n勾选一些属性并勾选一些属性并“Remove”就可以删除它们,删除后还可以利就可以删除它们,删除后还可以利用区域用区域2的的“Undo”按钮找回。按钮找回。n区域区域5上方的一排按钮是用来实现快速勾选的。上方的一排按钮是用来实现快速勾选的。o区域区域6中显示在区域中显示在区域5中选中的当前某个属性的摘要。中选中的当前某个属性的摘要。n摘要包括属性名(摘要包括属性名(Name)、)、属性类型(属性类型(Type)、)、缺失值缺失值(Missing)数

7、及比例数及比例、不同值(不同值(Distinct)数数、唯一值唯一值(Unique)数及比例数及比例n对于数值属性和标称属性,摘要的方式是不一样的。图中显示的对于数值属性和标称属性,摘要的方式是不一样的。图中显示的是对数值属性是对数值属性“income”的摘要。的摘要。o数值属性显示最小值(数值属性显示最小值(Minimum)、最大值最大值(Maximum)、均值(、均值(Mean)和标准差(和标准差(StdDev)o标称属性显示每个不同值的计数标称属性显示每个不同值的计数2022-7-308o区域区域7是区域是区域5中选中属性的直方图。中选中属性的直方图。n若数据集的最后一个属性(这是分类或

8、回归任务的默认目标若数据集的最后一个属性(这是分类或回归任务的默认目标变量)是类标变量(例如变量)是类标变量(例如“pep”),直方图中的每个长方),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。形就会按照该变量的比例分成不同颜色的段。n要想换个分段的依据,在区域要想换个分段的依据,在区域7上方的下拉框中选个不同的上方的下拉框中选个不同的分类属性就可以了。分类属性就可以了。n下拉框里选上下拉框里选上“No Class”或者一个数值属性会变成黑白或者一个数值属性会变成黑白的直方图。的直方图。2022-7-309o区域区域8窗口的底部区域窗口的底部区域,包括状态栏、包括状态栏、logl

9、og按钮和按钮和WekaWeka鸟鸟。n状态栏(状态栏(Status)显示一些信息让你知道正在做什么。例如,)显示一些信息让你知道正在做什么。例如,如果如果 Explorer 正忙于装载一个文件,状态栏就会有通知。正忙于装载一个文件,状态栏就会有通知。n在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜单给了你两个选项:单给了你两个选项:oMemory Information-显示显示WEKA可用的内存量。可用的内存量。oRun garbage collector-强制运行强制运行Java垃圾回收器,垃圾回收器,搜索不再需要的内存空间并

10、将之释放,从而可为新任务分搜索不再需要的内存空间并将之释放,从而可为新任务分配更多的内存。配更多的内存。nLog按钮按钮可以查看以可以查看以weka操作日志操作日志。n右边的右边的weka鸟在动的话,说明鸟在动的话,说明WEKA正在执行挖掘任务。正在执行挖掘任务。2022-7-3010KnowledgeFlow环境环境2022-7-30112、WEKA数据集oWEKA所处理的数据集是一个所处理的数据集是一个.arff文件的二维表文件的二维表2022-7-3012o表格里的一个横行称作一个实例(表格里的一个横行称作一个实例(Instance),),相当相当于统计学中的一个样本,或者数据库中的一条

11、记录。于统计学中的一个样本,或者数据库中的一条记录。o竖行称作一个属性(竖行称作一个属性(Attribute),),相当于统计学中的相当于统计学中的一个变量,或者数据库中的一个字段。一个变量,或者数据库中的一个字段。o这样一个表格,或者叫数据集,在这样一个表格,或者叫数据集,在WEKA看来,呈现了看来,呈现了属性之间的一种关系属性之间的一种关系(Relation)。o上图中一共有上图中一共有14个实例,个实例,5个属性,关系名称为个属性,关系名称为“weather”。oWEKA存储数据的格式是存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种

12、文件,这是一种ASCII文文本文件。本文件。o上图所示的二维表格存储在如下的上图所示的二维表格存储在如下的ARFF文件中。这也文件中。这也就是就是WEKA自带的自带的“weather.arff”文件,在文件,在WEKA安装目录的安装目录的“data”子目录下可以找到。子目录下可以找到。relation weatherattribute outlook sunny,overcast,rainyattribute temperature realattribute humidity realattribute windy TRUE,FALSEattribute play yes,nodatasun

13、ny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,noovercast,64,65,TRUE,yessunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,TRUE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,no2022-7-3

14、014WEKA数据文件数据文件oWEKA存储数据的格式是存储数据的格式是ARFF(Attribute-Relation File Format)文件文件n这是一种这是一种ASCII文本文件文本文件n文件的扩展名为文件的扩展名为.arffn可以用写字板打开、编辑可以用写字板打开、编辑 ARFF文件文件o文件中以文件中以“%”开始的行是注释,开始的行是注释,WEKA将忽略这些行。将忽略这些行。o除去注释后,整个除去注释后,整个ARFF文件可以分为两个部分文件可以分为两个部分:n第一部分给出了头信息(第一部分给出了头信息(Head information),),包包括了对关系的声明和对属性的声明。括

15、了对关系的声明和对属性的声明。n第二部分给出了数据信息(第二部分给出了数据信息(Data information),),即数据集中给出的数据。从即数据集中给出的数据。从“data”标记开始,后标记开始,后面的就是数据信息了。面的就是数据信息了。2022-7-3016关系声明关系声明o关系名称在关系名称在ARFF文件的第一个有效行来定义,格式为:文件的第一个有效行来定义,格式为:relation o是一个字符串。如果这个字符串包含空格,它是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号)。必须加上引号(指英文标点的单引号或双引号)。2022-7-3017属性声明o

16、属性声明用一列以属性声明用一列以“attribute”开头的语句表示。开头的语句表示。o数据集中的每一个属性都有对应的数据集中的每一个属性都有对应的“attribute”语句,语句,来定义它的属性名称和数据类型(来定义它的属性名称和数据类型(datatype):attribute n其中其中必须以字母开头的字符串。和关系名必须以字母开头的字符串。和关系名称一样,如果这个字符串包含空格,它必须加上引号。称一样,如果这个字符串包含空格,它必须加上引号。o属性声明语句的顺序很重要,它表明了该项属性在数据属性声明语句的顺序很重要,它表明了该项属性在数据部分的位置。部分的位置。n例如,例如,“humid

17、ity”是第三个被声明的属性,这说明数是第三个被声明的属性,这说明数据部分那些被逗号分开的列中,第据部分那些被逗号分开的列中,第2列(从第列(从第0列开始)列开始)数据数据 85 90 86 96.是相应的是相应的“humidity”值。值。n其次,最后一个声明的属性被称作其次,最后一个声明的属性被称作class属性,在分类或属性,在分类或回归任务中,它是默认的目标变量。回归任务中,它是默认的目标变量。2022-7-3018数据类型数据类型oWEKA支持四种数据类型支持四种数据类型nnumeric数值型数值型 n标称(标称(nominal)型型nstring字符串型字符串型ndate 日期和时

18、间型日期和时间型o还可以使用两个类型还可以使用两个类型“integer”和和“real”,但是但是WEKA把它们都当作把它们都当作“numeric”看待。看待。o注意:注意:“integer”,“real”,“numeric”,“date”,“string”这些关键字是区分大小写的,而这些关键字是区分大小写的,而“relation”、“attribute”和和“data”则不区分。则不区分。2022-7-3019o数值型属性数值型属性n数值型属性可以是整数或者实数,但数值型属性可以是整数或者实数,但WEKA把它们把它们都当作实数看待。例如:都当作实数看待。例如:attribute temper

19、ature real o字符串属性字符串属性n字符串属性可以包含任意的文本。例如:字符串属性可以包含任意的文本。例如:attribute LCC string2022-7-3020o标称属性标称属性n标称属性由标称属性由列出一系列可列出一系列可能的类别名称并放在花括号中:能的类别名称并放在花括号中:,.。n数据集中该属性的值只能是其中一种类别。数据集中该属性的值只能是其中一种类别。n例如属性声明:例如属性声明:attribute outlook sunny,overcast,rainy 说明说明“outlook”属性有三种类别:属性有三种类别:“sunny”,“overcast”和和“rain

20、y”。而数据集中每个实例对而数据集中每个实例对应的应的“outlook”值必是这三者之一。值必是这三者之一。n如果类别名称带有空格,仍需要将之放入引号中。如果类别名称带有空格,仍需要将之放入引号中。2022-7-3021o日期和时间属性日期和时间属性n日期和时间属性统一用日期和时间属性统一用“date”类型表示,它的格式是:类型表示,它的格式是:attribute date n其中其中是一个字符串,来规定该怎样是一个字符串,来规定该怎样解析和显示日期或时间的格式,默认的字符串是解析和显示日期或时间的格式,默认的字符串是ISO-8601所给的日期时间组合格式:所给的日期时间组合格式:“yyyy-

21、MM-dd HH:mm:ss”n数据信息部分表达日期的字符串必须符合声明中规定的数据信息部分表达日期的字符串必须符合声明中规定的格式要求,例如:格式要求,例如:ATTRIBUTE timestamp DATE yyyy-MM-dd HH:mm:ss DATA 2011-05-03 12:59:552022-7-3022数据信息数据信息o数据信息中数据信息中“data”标记独占一行,剩下的是各个实标记独占一行,剩下的是各个实例的数据。例的数据。o每个实例占一行,实例的各属性值用逗号每个实例占一行,实例的各属性值用逗号“,”隔开。隔开。o如果某个属性的值是缺失值(如果某个属性的值是缺失值(miss

22、ing value),),用用问号问号“?”表示,且这个问号不能省略。表示,且这个问号不能省略。n例如:例如:data sunny,85,85,FALSE,no?,78,90,?,yes2022-7-3023稀疏数据稀疏数据o有的时候数据集中含有大量的有的时候数据集中含有大量的0值,这个时候用稀疏格式的值,这个时候用稀疏格式的数据存储更加省空间。数据存储更加省空间。o稀疏格式是针对数据信息中某个对象的表示而言,不需要稀疏格式是针对数据信息中某个对象的表示而言,不需要修改修改ARFF文件的其它部分。例如数据:文件的其它部分。例如数据:ndata 0,X,0,Y,class A 0,0,W,0,c

23、lass B n用稀疏格式表达的话就是用稀疏格式表达的话就是 data 1 X,3 Y,4 class A 2 W,4 class B o注意:注意:ARFF数据集最左端的属性列为第数据集最左端的属性列为第0列,因此,列,因此,1 X表示表示X为第为第1列属性值。列属性值。2022-7-30243、数据准备、数据准备o数据获取数据获取n直接使用直接使用ARFF文件数据。文件数据。n从从CSV,C4.5,binary等多种格式文件中导入。等多种格式文件中导入。n通过通过JDBC从从SQL数据库中读取数据。数据库中读取数据。n从从URL(Uniform Resource Locator)获取网络资

24、源的获取网络资源的数据。数据。o数据格式转换数据格式转换nARFF格式是格式是WEKA支持得最好的文件格式。支持得最好的文件格式。n使用使用WEKA作数据挖掘,面临的第一个问题往往是数据不是作数据挖掘,面临的第一个问题往往是数据不是ARFF格式的。格式的。nWEKA还提供了对还提供了对CSV文件的支持,而这种格式是被很多其他文件的支持,而这种格式是被很多其他软件(比如软件(比如Excel)所支持。所支持。n可以利用可以利用WEKA将将CSV文件格式转化成文件格式转化成ARFF文件格式。文件格式。2022-7-3025数据资源数据资源oWEKA自带的数据集自带的数据集C:Program File

25、sWeka-3-6datao网络数据资源网络数据资源 http:/archive.ics.uci.edu/ml/datasets.html2022-7-3026.XLS.CSV.ARFFoExcel的的XLS文件可以让多个二维表格文件可以让多个二维表格放到不同的工作表(放到不同的工作表(Sheet)中,只能中,只能把每个工作表存成不同的把每个工作表存成不同的CSV文件。文件。o打开一个打开一个XLS文件并切换到需要转换的文件并切换到需要转换的工作表,另存为工作表,另存为CSV类型,点类型,点“确定确定”、“是是”忽略提示即可完成操作。忽略提示即可完成操作。o在在WEKA中打开一个中打开一个CS

26、V类型文件,再类型文件,再另存为另存为ARFF类型文件即可。类型文件即可。2022-7-3027打开打开Excel的的Iris.xls文件文件2022-7-30282022-7-3029将将iris.xls另存为另存为iris.csv文件文件2022-7-30302022-7-30312022-7-3032在weka的Explorer中打开Iris.csv文件2022-7-30332022-7-3034将将iris.csv另存为另存为iris.arff 文件文件2022-7-30352022-7-30364、数据预处理、数据预处理 preprocesso在在WEKA中数据预处理工具称作筛选器中

27、数据预处理工具称作筛选器(filters)o可以定义筛选器来以各种方式对数据进行变换。可以定义筛选器来以各种方式对数据进行变换。oFilter 一栏用于对各种筛选器进行必要的设置。一栏用于对各种筛选器进行必要的设置。oChoose 按钮:点击这个按钮就可选择按钮:点击这个按钮就可选择 WEKA 中的某中的某个筛选器。个筛选器。o选定一个筛选器后,它的名字和选项会显示在选定一个筛选器后,它的名字和选项会显示在 Choose 按钮旁边的文本框中。按钮旁边的文本框中。2022-7-3037载入数据oExplorer的预处理的预处理(preprocess)页区域页区域2的的前前4个按钮用来把数据载入个

28、按钮用来把数据载入WEKA:nOpen file.打开一个对话框,允许你浏览本地打开一个对话框,允许你浏览本地文件系统上的数据文件。文件系统上的数据文件。nOpen URL.请求一个存有数据的请求一个存有数据的URL地址。地址。nOpen DB.从数据库中读取数据从数据库中读取数据。nGenerate.从一些数据生成器从一些数据生成器(DataGenerators)中生成人造数据。)中生成人造数据。2022-7-3038去除无用属性去除无用属性o通常对于数据挖掘任务来说,像通常对于数据挖掘任务来说,像ID这样的信息是无用这样的信息是无用的,可以将之删除。的,可以将之删除。n在区域在区域5勾选属

29、性勾选属性“id”,并点击并点击“Remove”。n将新的数据集保存将新的数据集保存,并重新打开。并重新打开。2022-7-3039数据离散化o有些算法有些算法(如关联分析如关联分析),只能处理标称型属性,这时候就需要对数,只能处理标称型属性,这时候就需要对数值型的属性进行离散化。值型的属性进行离散化。o对取值有限的数值型属性可通过修改对取值有限的数值型属性可通过修改.arff文件中该属性数据类型实文件中该属性数据类型实现离散化。现离散化。n例如,在某数据集中的例如,在某数据集中的“children”属性只有属性只有4个数值型取值:个数值型取值:0,1,2,3。n我们直接修改我们直接修改ARF

30、F文件,把文件,把 attribute children numeric 改为改为 attribute children 0,1,2,3 就可以了。就可以了。n在在“Explorer”中重新打开中重新打开“bank-data.arff”,看看选中看看选中“children”属性后,区域属性后,区域6那里显示的那里显示的“Type”变成变成“Nominal”了。了。2022-7-3040o对取值较多的数值型属性,离散化可借助对取值较多的数值型属性,离散化可借助WEKA中名中名为为“Discretize”的的Filter来完成。来完成。n在区域在区域2中点中点“Choose”,出现一棵出现一棵“F

31、ilter树树”,逐级找到逐级找到“weka.filters.unsupervised.attribute.Discretize”,点击。点击。n现在现在“Choose”旁边的文本框应该显示旁边的文本框应该显示“Discretize-B 10-M-0.1-R first-last”。n点击这个文本框会弹出新窗口以修改离散化的参数。点击这个文本框会弹出新窗口以修改离散化的参数。2022-7-3041在weka的Explorer中打开Iris.arff文件2022-7-30422022-7-30432022-7-3044查看Iris数据集2022-7-30452022-7-3046查看Iris数据

32、属性分布图,选择属性2022-7-30472022-7-30482022-7-3049通过观察发现petallength最能区分各类2022-7-3050将属性petallength离散化2022-7-30512022-7-30522022-7-30532022-7-30542022-7-30552022-7-3056离散化成离散化成10段数据段数据等频离散化等频离散化离散化成离散化成10段数据段数据2022-7-30572022-7-30582022-7-30592022-7-30602022-7-3061查看离散化后的Iris数据集2022-7-30622022-7-30635、分类、分类

33、 ClassifyoWEKA把分类把分类(Classification)和回归和回归(Regression)都放在都放在“Classify”选项卡中。选项卡中。o在这两个数据挖掘任务中,都有一个目标属性(类别属性,输出变在这两个数据挖掘任务中,都有一个目标属性(类别属性,输出变量)。量)。o我们希望根据一个我们希望根据一个WEKA实例的一组特征属性实例的一组特征属性(输入变量),对(输入变量),对目标属性进行分类预测。目标属性进行分类预测。o为了实现这一目的,我们需要有一个训练数据集,这个数据集中每为了实现这一目的,我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练

34、集中的实例,可以建立个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的分类起预测的分类/回归模型。回归模型。o有了这个模型,就可以对新的未知实例进行分类预测。有了这个模型,就可以对新的未知实例进行分类预测。o衡量模型的好坏主要在于预测的准确程度。衡量模型的好坏主要在于预测的准确程度。2022-7-3064WEKA中的典型分类算法oBayes:贝叶斯分类器贝叶斯分类器nBayesNet:贝叶斯信念网络贝叶斯信念网络nNaveBayes:朴素贝叶斯网络朴素贝叶斯网络oFunctions:人工神经网络和支持向量机人工神经网络和支持向量机nMultilayerPerceptron:多层

35、前馈人工神经网络多层前馈人工神经网络nSMO:支持向量机(采用顺序最优化学习方法)支持向量机(采用顺序最优化学习方法)oLazy:基于实例的分类器基于实例的分类器nIB1:1-最近邻分类器最近邻分类器nIBk:k-最近邻分类器最近邻分类器2022-7-3065选择分类算法选择分类算法nMeta:组合方法组合方法oAdaBoostM1:AdaBoost M1方法方法oBagging:袋装方法袋装方法nRules:基于规则的分类器基于规则的分类器oJRip:直接方法直接方法Ripper算法算法oPart:间接方法从间接方法从J48产生的决策树抽取规则产生的决策树抽取规则nTrees:决策树分类器决

36、策树分类器oId3:ID3决策树学习算法(决策树学习算法(不支持连续属性不支持连续属性)oJ48:C4.5决策树学习算法(第决策树学习算法(第8版本)版本)oREPTree:使用降低错误剪枝的决策树学习算法使用降低错误剪枝的决策树学习算法:基于决策树的组合方法基于决策树的组合方法2022-7-3066选择分类算法选择分类算法2022-7-30672022-7-3068选择模型评估方法选择模型评估方法o四种方法四种方法nUsing training set 使用训练集评估使用训练集评估nSupplied test set 使用测试集评估使用测试集评估nCross-validation 交叉验证交

37、叉验证o设置折数设置折数FoldsnPercentage split 保持方法。使用一定比保持方法。使用一定比例的训练实例作评估例的训练实例作评估o设置训练实例的百分比设置训练实例的百分比2022-7-3069选择模型评估方法选择模型评估方法2022-7-3070oOutput model.输出基于整个训练集的分类模型,从而模型可以被输出基于整个训练集的分类模型,从而模型可以被查看,可视化等。该选项默认选中。查看,可视化等。该选项默认选中。oOutput per-class stats.输出每个输出每个class的准确度的准确度/反馈率反馈率(precision/recall)和正确和正确/错

38、误(错误(true/false)的统计量。该选的统计量。该选项默认选中。项默认选中。oOutput evaluation measures.输出熵估计度量。该选项默认没有输出熵估计度量。该选项默认没有选中。选中。oOutput confusion matrix.输出分类器预测结果的混淆矩阵。该选输出分类器预测结果的混淆矩阵。该选项默认选中。项默认选中。oStore predictions for visualization.记录分类器的预测结果使得记录分类器的预测结果使得它们能被可视化表示。它们能被可视化表示。oOutput predictions.输出测试数据的预测结果。注意在交叉验证时,输

39、出测试数据的预测结果。注意在交叉验证时,实例的编号不代表它在数据集中的位置。实例的编号不代表它在数据集中的位置。oCost-sensitive evaluation.误差将根据一个价值矩阵来估计。误差将根据一个价值矩阵来估计。Set 按钮用来指定价值矩阵。按钮用来指定价值矩阵。oRandom seed for xval/%Split.指定一个随即种子,当出于评指定一个随即种子,当出于评价的目的需要分割数据时,它用来随机化数据。价的目的需要分割数据时,它用来随机化数据。点击点击More options 按钮可以设置更多的测试选项:按钮可以设置更多的测试选项:2022-7-3071文字结果分析文字

40、结果分析o单击单击start按钮,按钮,Classifier output窗口显示的文字结窗口显示的文字结果信息:果信息:nRun information 运行信息运行信息nClassifier model(full training set)使用全部训练数据使用全部训练数据构造的分类模型构造的分类模型nSummary 针对训练针对训练/检验集的预测效果汇总。检验集的预测效果汇总。nDetailed Accuracy By Class 对每个类的预测准确度的详对每个类的预测准确度的详细描述。细描述。nConfusion Matrix 混淆矩阵,混淆矩阵,其中矩阵的行是实际的类,其中矩阵的行是实

41、际的类,矩阵的列是预测得到的类,矩阵元素就是相应测试样本的个矩阵的列是预测得到的类,矩阵元素就是相应测试样本的个数。数。2022-7-3072文字结果文字结果2022-7-3073主要指标主要指标oCorrectly Classified Instances 正确分类率正确分类率oIncorrectly Classified Instances 错误分类率错误分类率oKappa statistic Kappa Kappa 统计数据统计数据oMean absolute error 平均绝对误差平均绝对误差oRoot mean squared error 根均方差根均方差oRelative abs

42、olute error 相对绝对误差相对绝对误差oRoot relative squared error 相对平方根误差相对平方根误差oTP Rate(bad/good)正确肯定率正确肯定率oFP Rate(bad/good)错误肯定率错误肯定率oPrecision(bad/good)精确率精确率oRecall(bad/good)反馈率反馈率oF-Measure(bad/good)F F测量测量oTime taken to build model 建模花费的时间建模花费的时间 2022-7-3074输出图形结果输出图形结果鼠标右键鼠标右键2022-7-3075oView in main win

43、dow(View in main window(查看主窗口查看主窗口)。在主窗口中查看输出结果。在主窗口中查看输出结果。oView in separate window(View in separate window(查看不同的窗口查看不同的窗口)。打开一个独立的新窗。打开一个独立的新窗口来查看结果。口来查看结果。oSave result buffer(Save result buffer(保存结果的缓冲区保存结果的缓冲区)。弹出对话框来保存输出。弹出对话框来保存输出结果的文本文件。结果的文本文件。oLoad model(Load model(下载模式下载模式)。从二进制文件中载入一个预训练模

44、式对象。从二进制文件中载入一个预训练模式对象。oSave model(Save model(保存模式保存模式)。将一个模式对象保存到二进制文件中,也。将一个模式对象保存到二进制文件中,也就是保存在就是保存在JAVA JAVA 的串行对象格式中。的串行对象格式中。oRe-evaluate model on current test set(Re-evaluate model on current test set(对当前测试集进行重新对当前测试集进行重新评估评估)。通过已建立的模式,并利用。通过已建立的模式,并利用Supplied test set(Supplied test set(提供的测试

45、提供的测试集集)选项下的选项下的Set.Set.按钮来测试指定的数据集。按钮来测试指定的数据集。2022-7-3076oVisualize classifier errors(Visualize classifier errors(可视化分类器错误可视化分类器错误)。弹出一个可视化。弹出一个可视化窗口来显示分类器的结果图。其中,正确分类的实例用叉表示,然而窗口来显示分类器的结果图。其中,正确分类的实例用叉表示,然而不正确分类的实例则是以小正方形来表示的。不正确分类的实例则是以小正方形来表示的。oVisualize tree(Visualize tree(树的可视化树的可视化)。如果可能的话,则

46、弹出一个图形化的。如果可能的话,则弹出一个图形化的界面来描述分类器模型的结构界面来描述分类器模型的结构(这只有一部分分类器才有的这只有一部分分类器才有的)。右键单。右键单击空白区域弹出一个菜单,在面板中拖动鼠标并单击,就可以看见每击空白区域弹出一个菜单,在面板中拖动鼠标并单击,就可以看见每个节点对应的训练实例。个节点对应的训练实例。oVisualize margin curve(Visualize margin curve(边际曲线的可视化边际曲线的可视化)。产生一个散点图来描。产生一个散点图来描述预测边际的情况。边际被定义为预测为真实值的概率和预测为真实述预测边际的情况。边际被定义为预测为真

47、实值的概率和预测为真实值之外的其它某类的最高概率之差。例如加速算法通过增加训练数据值之外的其它某类的最高概率之差。例如加速算法通过增加训练数据集的边际来更好地完成测试数据集的任务。集的边际来更好地完成测试数据集的任务。2022-7-3077oVisualize threshold curve(Visualize threshold curve(阈曲线的可视化阈曲线的可视化)。产生一个散点。产生一个散点图来描述预测中的权衡问题,其中权衡是通过改变类之间阈值图来描述预测中的权衡问题,其中权衡是通过改变类之间阈值来获取的。例如,缺省阈值为来获取的。例如,缺省阈值为0.50.5,一个实例预测为,一个实

48、例预测为positivepositive的的概率必须要大于概率必须要大于0.50.5,因为,因为0.50.5时实例正好预测时实例正好预测为为positivepositive。而而且图表可以用来对精确率且图表可以用来对精确率/反馈率权衡进行可视化,如反馈率权衡进行可视化,如ROC ROC 曲线曲线分析分析(正确的正比率和错误的正比率正确的正比率和错误的正比率)和其它的曲线。和其它的曲线。oVisualize cost curve(Visualize cost curve(成本曲线的可视化成本曲线的可视化)。产生一个散点图,。产生一个散点图,来确切描述期望成本,正如来确切描述期望成本,正如Drum

49、mond Drummond 和和Holte Holte 所描述的一样。所描述的一样。2022-7-3078oVisualize classifier errors.可视化分类错误可视化分类错误n实际类与预测类的散布图实际类与预测类的散布图。其中正确分类的结果用叉表示,其中正确分类的结果用叉表示,分错的结果用方框表示。分错的结果用方框表示。2022-7-3079Visualize tree可视化树可视化树2022-7-30802022-7-30812022-7-3082可视化边际曲线(Visualize margin curve)o创建一个散点图来显示预测边际值。创建一个散点图来显示预测边际值。

50、n四个变量四个变量oMargin:预测边际值预测边际值oInstance_number:检验实例的序号检验实例的序号oCurrent:具有当前预测边际值的实例个数具有当前预测边际值的实例个数oCumulative:小于或等于预测边际值的实例个小于或等于预测边际值的实例个数数(与(与Instance_number一致)一致)2022-7-30832022-7-3084o单击单击8号检验实例,显示该点的边际值为号检验实例,显示该点的边际值为0.5,有,有7个实例的边际值个实例的边际值小于小于0.5。2022-7-3085可视化阈值曲线(基于类)o阈值是将检验实例归为当前类的最小概率,使阈值是将检验

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文((完整PPT)weka数据挖掘教程课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|