1、决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法抽样预处理数据挖掘解释/评价数据中心样本集预处理结果变换结果挖掘结果知识任务描述变换决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理
2、论与方法-智能决策理论与方法NBASupport|ABAConfidence决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法neurallinerprofit01 0 005000mins 回归模型回归模型m-male,f-femalemfmmmmmmmfmmmmmmmmmffmmmmmmmmmmmfmmmmmmmmmmmmmmmmmmmf16K64K32K20304050ageincome聚类模型聚类模型决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法
3、决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法定义 对于任意对象 ,属性子集 ,称 为对象x的B相关属性集;称 为x关于B的特征值组。UxAB*)(:)(xaBaaxBBaxaxB:)(决策理论与方法-智能决策理论与方法定义 设 为非空属性子集,SB是U上的二元关系,对于任意 及 ,有 则称SB是U上的相似关系。定义 对于数据集 及任意对象 ,若 ,则称x与y相容。所有与x相容的对象集称为相容类,记为SB(x)。AB)()(yBxBa)()(yaxaiffySxBfVAUI,Uyx,ySxBUyx,决策理论与方法-智能决策理论与方法决策理
4、论与方法-智能决策理论与方法各对象之间的相容关系两个相容可以互相补偿缺失值:若对象x的a属性值是空,则可用与x相容的对象的非空a属性值替换即可获得数据集I的一个完全集p3p1p7p2p6p4p5)(S:)()(xyyaxaB从以上分析可以看出,SB关系是关于属性集B等价关系(即对于任意两个对象 ,x,y关于B等价当且仅当对于任意属性 ,有 )的一种推广即x与y关于B描述相同当且仅当 且 。Uyx,bbyx ByBxB)()(BByxBb决策理论与方法-智能决策理论与方法缺失值填补的一般性陈述:对于任意对象 ,其属性a的可能值记为v(x,a),则:缺失值填补算法:输入:含有缺失值的数据集输出:填
5、补缺失值后的数据集输入数据集Ux其它情况已定义,未定义,但对于某些已定义?)()()()(:)()()(),(yaxSyxaxSyyaxaxaaxvBBfVAUI,决策理论与方法-智能决策理论与方法对于每个对象x 计算其相容类SB(x)对于每个属性aA,每个对象xU,计算v(x,a)IF|v(x,a)|=1 THENELSE IF|v(x,a)|1 THEN ELSE ),()(axvxa?)(xa*)(xa决策理论与方法-智能决策理论与方法若数据集内容不再变化至,否则返回。若数据集中存在a(x)=?,则用投票策略确定a(x),否则退出。该方法既没有将含空值的对象移去,也没有形成多个数据集,与
6、统计方法相比充分考虑了数据之间的相容性和属性之间的依赖关系。决策理论与方法-智能决策理论与方法问题描述 设 为一样本数据集,为非空有限集合,C是条件属性集,D是决策属性集。假设对于任意有 ,R是实数集,则 为连续属性。设 是 上的分割点集合,记为其中 ,为一整数,表示离散化程度,可以看作按属性将论域中的对象分成 类。3kik ki i-121iikeciikic1ic2ic1iics0DCUA,21nxxxUCciR),iiiesViciPiV,10ikiiiicccPiikiiiieccccsi210ikik决策理论与方法-智能决策理论与方法对于需要离散化的连续属性集 ,其分割点集合记为将c
7、i属性的连续取值映射到离散空间,即对于任意若其属性ci 的取值在区间 内,则将属性值重新标记为j。这样就把原来含有连续属性的样本数据集A转换成离散化的数据集 。因此离散化问题本质上可归结为利用选取的分割点对属性的值域空间进行划分的问题。CC),(,),(),(),(PcP210iikiiiiiiiCciCciiicccccccc),2,1(nkUxk),2,1()(,1iijijkjccPA决策理论与方法-智能决策理论与方法离散化方法典型的有等区间方法、等信息量方法、基于信息熵的方法、Holte的1R离散化方法、统计试验方法、超平面搜索方法以及用户自定义区间等。应用不同的准则可将现有的离散化方
8、法分为局部与全局方法(论域空间)、静态与动态方法(属性空间)和有导师与无导师方法(是否依赖决策属性)。(1)等区间离散化方法等区间分割是将连续属性的值域等分成 ()个区间,一般由用户确定。Nkiik决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法(3)统计试验方法统计试验方法根据决策属性分析区间划分之间的独立程度,确定分割点的有效性。对于任意分割点 ,均可将 分成2个区间 和 ,两区间的独立程度为:其中:r是决策类数目nij是在第l区间中属于第j决策类的对象数)0(iiijkjPc),iies),ijiccsL),(iijcecR 21122)(lrjljljljEEn决策
9、理论与方法-智能决策理论与方法 若 ,则取 基于统计试验的离散化方法是将 值较大的分割点作为有效分割点。211121krmkmrkkkjlkljnnnE0ljE1.0ljE2决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法Transaction IDItems Bought2000A,B,C1000A,C4000A,D5000B,E,FFrequent Itemset SupportA75%B50%C50%A,C50%Min.support 50%Min.confidence 50%决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方法决策理论与方法-智能决策
10、理论与方法决策理论与方法-智能决策理论与方法TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5Database Ditemset sup.1223334153itemset sup.12233353Scan DC1L1itemset1 21 31 52 32 53 5itemset sup1 211 321 512 322 533 52itemset sup1 322 322 533 52L2C2C2Scan DC3L3itemset2 3 5Scan Ditemset sup2 3 52决策理论与方法-智能决策理论与方法决策理论与方法-智能决策理论与方
11、法2112)(),(pkjkikjixxxxdpkjkikjixxxxd1|),()1(|),(11mxxxxdmpkmjkikji决策理论与方法-智能决策理论与方法v对于给定的对于给定的n个样品,先粗略地形成个样品,先粗略地形成k(kn)个分割,使得每个分割,使得每个分割对应一个类、每个类至少有一个样品并且每个样品精个分割对应一个类、每个类至少有一个样品并且每个样品精确地属于一个类,然后按照某种原则进行修正,直至分类比确地属于一个类,然后按照某种原则进行修正,直至分类比较合理为止。具体步骤如下:较合理为止。具体步骤如下:(1)聚点的选择聚点的选择:聚点是一批有代表性的样品,它的选择决:聚点是
12、一批有代表性的样品,它的选择决定了初始分类。首先确定分类数定了初始分类。首先确定分类数k,然后选择,然后选择k个有代表个有代表性的样品作为每个类的初始元素即聚点。聚点可由用户性的样品作为每个类的初始元素即聚点。聚点可由用户根据经验选择,也可将全部样品人为地或随机地分成根据经验选择,也可将全部样品人为地或随机地分成k类,类,以每类的重心作为聚点。以每类的重心作为聚点。决策理论与方法-智能决策理论与方法21,iixx)max(),(21ijiidxxd),2,1),2,1),(max(min(),2,1),(min(211rijiiiiijnjlrxxdlrxxdrrl1lix1lix,)0()0
13、(2)0(1)0(kxxxL决策理论与方法-智能决策理论与方法有了聚点集合后,可根据下列最靠近原则实现初始分类:若对于某样品x出现 ,则x任意归于Gi(0)或Gj(0)类。这样就得到了样品空间的初始分类:kiijkjxxdxxdxGjii,2,1,;,2,1),(),(:)0()0()0(),(),()0()0(jixxdxxd,)0()0(2)0(1)0(kGGGG决策理论与方法-智能决策理论与方法,)1()1(2)1(1)1(mkmmmxxxLkixGcardxmilGxlmimi,2,1,)(1)()()1(0,)1()1(2)1(1)1(mGGGGmkmmmkiijkjxxdxxdxGmjmimi,2,1,;,2,1),(),(:)1()1()1(0,)()(2)(1)(mGGGGmkmmm决策理论与方法-智能决策理论与方法