1、2 23 34 45 5事务数据库事务数据库D6 67 7nc confidence。n如如 面包面包,水果水果牛奶牛奶,鸡蛋,鸡蛋(1%,40%)n收入高,大学毕业收入高,大学毕业 旅游,购股票旅游,购股票5%,30%n用用 X Ys,c表示。表示。8 8面包,水果,鸡蛋1占12.5%支持度:购置物占总数的比例,购置面包支持度为62.5%,购置面包和牛奶 为37.5%置信度:购置面包中又购置牛奶的比例,支持度37.5%,置信度60%9 910101111121213131414指纹识别,人脸识别,汉字识别指纹识别,人脸识别,汉字识别预测就是预测一个事务将是哪类或什么值。预测就是预测一个事务将
2、是哪类或什么值。151516161717学习器训练器学习器训练器 分类器分类器 类类1 类类2 类类m 未被分类的数据未被分类的数据 训练例训练例训练例训练例 训练例训练例学习训练过程学习训练过程 分分 类类 过过 程程模型模型 1818根据具体问题和具体要求根据具体问题和具体要求来选择不同的方法。来选择不同的方法。19192020ageincomestudentcredit_ratingbuys_computer=30highnofairno40mediumnofairyes40lowyesfairyes40lowyesexcellentno3140lowyesexcellentyes=30
3、mediumnofairno40mediumyesfairyes40mediumnoexcellentno 选哪个属性为选哪个属性为类属性类属性由关心的问题而定,可为由关心的问题而定,可为buys_computer,12345678910111213142121age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.4022222323 v1jmjj2j1mjj2j1m1ii2i),.,(IS.sslogssSSSSSS24242525输入3032=960,隐单元3,输出4,96034的网路。2626输入单元输
4、入单元303032=96032=960,隐单元,隐单元4 4,输出单元输出单元3030代表从最左到最右方向代表从最左到最右方向 960 9604 430 30 的网路。的网路。27270 1 9输入输入手写数字手写数字人工神人工神经网络经网络输出结果输出结果28282929wij wjkwij wjk oi oi oj okoj ok前馈是指信号先前传播,输入前馈是指信号先前传播,输入 隐层隐层 输出输出误差信号向后传播;误差信号向后传播;BPBP算法称反传算法算法称反传算法结点结点.xiO1O2Ok30303131 ijiijjOwI jIje11O 每个每个都是非线性变换单元都是非线性变换
5、单元IjOi323233333434近器近器nn神经网络的设计者们用高超的工程技巧弥补了数学上的缺陷。神经网络的设计者们用高超的工程技巧弥补了数学上的缺陷。n综合利用各种启发式算法,使得用较少的计算取得一个合理的局部综合利用各种启发式算法,使得用较少的计算取得一个合理的局部极小点成为可能。极小点成为可能。35353636373721()2()1,1,.,iiwwyw xbil38383939404041414242)()()|()|(XPHPHXPXHP 贝叶斯定理为:贝叶斯定理为:4343)()()|()|(XPHPHXPXHP)H|X(P n1kkHxPHXP)|()|(数据对象有数据对象
6、有n个属性,每个数据属性是独立的,就可计算每个个属性,每个数据属性是独立的,就可计算每个)|(HxPk44444545)()()|()|(XPHPHXPXHP 464647474848494950505151数据训练集测试集导出分类法评估准确性5252数据S1S2Sk训练集测试集5353数据C1C2Ct组合得票新数据样本类预测545455555656C1 C2 CT traintraintrainxc1(x)c2(x)cT(x)C*c*(x)=max cntt ct(x)S1 S2 ST 5757585859596060Set of weightedinstances Classifier C
7、t train classifier adjust weights6161n每个分类法Ct的投票价值为log 1/t 6262xc1(x)c2(x)cT(x)C*c*(x)=argmaxcm Sct(x)=cm log(1/bt)C1 trainS,w1trainC2 S,w2CT trainS,wT636364646565666667676868X1X2X3X4X5X6X1X2X4X3X5X6谱系关系图谱系关系图69697070717172727373747475757676美国一所大学中空手道俱乐部成员间关系的网络美国一所大学中空手道俱乐部成员间关系的网络77777878797980808
8、18182828383848485858686878788888989文本文本集集预处理与预处理与文本表示文本表示分类器分类器评价评价分类结果特分类结果特征和概要征和概要 词典词典分类模型分类模型标准结果标准结果特征抽取特征抽取文本分类一般包括了文本表达、分类器的文本分类一般包括了文本表达、分类器的选择与训练、分类结果的评价与反响等过选择与训练、分类结果的评价与反响等过程,如下图:程,如下图:文本分类系统文本分类系统909091919292网络挖掘网络挖掘网络构造挖掘网络构造挖掘网络内容挖掘网络内容挖掘网络使用挖掘网络使用挖掘网页网页内容内容挖掘挖掘检索检索结果结果挖掘挖掘定制定制使用使用跟踪
9、跟踪存取存取模式模式挖掘挖掘网络网络组织组织挖掘挖掘网络网络引用引用挖掘挖掘媒体媒体信息信息挖掘挖掘9393949495959696 扩大智能数据分析算法扩大智能数据分析算法 将智能数据分析应用到新的数据类型将智能数据分析应用到新的数据类型 开展分布的智能数据分析算法开展分布的智能数据分析算法 提高智能数据分析方法的容易度提高智能数据分析方法的容易度所面临的挑战所面临的挑战9797 数据量的增长数据量的增长 对交互式反响和真实反响时间减少的要对交互式反响和真实反响时间减少的要 求的加强求的加强 需要多种算法的组合或新的算法需要多种算法的组合或新的算法 算法要具有可扩展性算法要具有可扩展性扩大智
10、能数据分析算法扩大智能数据分析算法9898 时间序列数据时间序列数据 未组织数据未组织数据,如文本如文本 半组织数据半组织数据,如如HTML和和XML文件文件 多媒体的合作数据多媒体的合作数据 多层次的多层次的,多度量单位的数据多度量单位的数据 集合数据,图数据集合数据,图数据将智能数据分析应用到新的数据类将智能数据分析应用到新的数据类型型9999 数据的分布特性数据的分布特性 计算环境越来越普及计算环境越来越普及 必须开展与之匹配的数据分析系统和算法必须开展与之匹配的数据分析系统和算法开展分布的智能数据分析算法开展分布的智能数据分析算法100100 数据分析自动化程度的提高数据分析自动化程度
11、的提高 提高用户界面提高用户界面,支持随机用户的浏览支持随机用户的浏览 提高大型分布数据的可视化程度提高大型分布数据的可视化程度 开展用以管理数据分析的元数据的技术和系统开展用以管理数据分析的元数据的技术和系统 开展恰当的语言和协议支持随机提取数据开展恰当的语言和协议支持随机提取数据 提高智能数据分析的环境提高智能数据分析的环境收集收集加工加工 分析与挖掘分析与挖掘可视化以及必要的合作报告可视化以及必要的合作报告提高智能数据分析方法的容易度提高智能数据分析方法的容易度101101支持单个研究数据分析者的研究支持单个研究数据分析者的研究 支持数据挖掘的根底学科的研究支持数据挖掘的根底学科的研究 支持多学科和穿插学科研究组研究支持多学科和穿插学科研究组研究 重要的重要的,根底的实用数据分析问题根底的实用数据分析问题 提供对大的提供对大的,大型的大型的,分布的数据组分布的数据组 分析的恰当的实验场所分析的恰当的实验场所智能数据分析技术改进的要求智能数据分析技术改进的要求102102103103104104