1、模型识别模型识别 已知某类事物的若干标准模型,现有这类事已知某类事物的若干标准模型,现有这类事物中的一个具体对象,问把它归到哪一模型,这物中的一个具体对象,问把它归到哪一模型,这就是模型识别就是模型识别.模型识别在实际问题中是普遍存在的模型识别在实际问题中是普遍存在的.例如,例如,学生到野外采集到一个植物标本,要识别它属于学生到野外采集到一个植物标本,要识别它属于哪一纲哪一目;投递员哪一纲哪一目;投递员(或分拣机或分拣机)在分拣信件时在分拣信件时要识别邮政编码等等,这些都是模型识别要识别邮政编码等等,这些都是模型识别.模糊模型识别模糊模型识别 所谓模糊模型识别所谓模糊模型识别,是指在模型识别中
2、是指在模型识别中,模型模型是模糊的是模糊的.也就是说也就是说,标准模型库中提供的模型是标准模型库中提供的模型是模糊的模糊的.为了能识别待判断的对象为了能识别待判断的对象x=(x1,x2,xn)T是是属于已知类属于已知类A1,A2,Am中的哪一类?中的哪一类?事先必须要有一个一般规则事先必须要有一个一般规则,一旦知道了一旦知道了x的的值值,便能根据这个规则立即作出判断便能根据这个规则立即作出判断,称这样的一称这样的一个规则为个规则为判别规则判别规则.判别规则往往通过的某个函数来表达判别规则往往通过的某个函数来表达,我们我们把它称为把它称为判别函数判别函数,记作记作W(i;x).一旦知道了一旦知道
3、了判别函数并确定了判别函数并确定了判别规则,最判别规则,最好将已知类别的对象代入检验,这一过程称为好将已知类别的对象代入检验,这一过程称为回回代检验代检验,以便检验你的,以便检验你的判别函数和判别函数和判别规则是否判别规则是否正确正确.模糊向量的内积与外积模糊向量的内积与外积 定义定义 称向量称向量a=(a1,a2,an)是模糊向量是模糊向量,其其中中0ai1.若若ai 只取只取0或或1,则称则称a=(a1,a2,an)是是Boole向量向量.设设 a=(a1,a2,an),b=(b1,b2,bn)都是模都是模糊向量,则定义糊向量,则定义 内积内积:a b=(akbk)|1kn;外积外积:a
4、b=(akbk)|1kn.内积与外积的性质内积与外积的性质(a b)c=a c b c;(a b)c=a c b c.设设A1,A2,An是论域是论域X上的上的n个模糊子集个模糊子集,称称以模糊集以模糊集A1,A2,An为分量的模糊向量为为分量的模糊向量为模糊模糊向量集合族向量集合族,记为,记为A=(A1,A2,An).若若X 上的上的n个模糊子集个模糊子集A1,A2,An的隶属函的隶属函数分别为数分别为A1(x),A2(x),An(x),则定义模糊向量则定义模糊向量集合族集合族 A=(A1,A2,An)的隶属函数为的隶属函数为A(x)=A1(x1),A2(x2),An(xn)或者或者A(x)
5、=A1(x1)+A2(x2)+An(xn)/n.其中其中x=(x1,x2,xn)为普通向量为普通向量.最大隶属原则最大隶属原则 设论域设论域X=x1,x2,xn 上有上有m个模糊子集个模糊子集A1,A2,Am(即即m个模型个模型),),构构成了一个标准模型库成了一个标准模型库,若对任一若对任一x0X,有有k1,2,m,使得使得Ak(x0)=A1(x0),A2(x0),Am(x0),则认为则认为x0相对隶属于相对隶属于Ak.最大隶属原则最大隶属原则 设论域设论域X上有一个标准模上有一个标准模型型A,待识别的对象有待识别的对象有n个:个:x1,x2,xnX,如果如果有某个有某个xk满足满足A(xk
6、)=A(x1),A(x2),A(xn),则应优先录取则应优先录取xk.例例1 1 在论域在论域X=0,1000,100分数上建立三个表示分数上建立三个表示学习成绩的模糊集学习成绩的模糊集A=“优优”,B=“良良”,C=“差差”.当一位同学的成绩为当一位同学的成绩为8888分时分时,这个成绩是属于哪这个成绩是属于哪一类?一类?.100901,9080,1080,800,0)(xxxxxAA(88)=0.8;10095,0,9585,1095,8580,1,8070,1070,700,0)(xxxxxxxxBB(88)=0.7.100800,8070,1080,700,1)(xxxxxCA(88)
7、=0.8,B(88)=0.7,C(88)=0.根据最大隶属原则根据最大隶属原则,88,88分这个成绩应隶属分这个成绩应隶属于于A,即为即为“优优”.例例2 论论域域 X=x1(71),x2(74),x3(78)表示三表示三个学生的成绩个学生的成绩,那一位学生的成绩最差?那一位学生的成绩最差?C(71)=0.9,C(74)=0.6,C(78)=0.2,根据最大隶属原则根据最大隶属原则,x1(71)最差最差.例例3 3 细胞染色体形状的模糊识别细胞染色体形状的模糊识别 细胞染色体形状的模糊识别就是几何图形的细胞染色体形状的模糊识别就是几何图形的模糊识别模糊识别,而几何图形常常化为若干个三角图形而几
8、何图形常常化为若干个三角图形,故设论域为三角形全体故设论域为三角形全体.即即X=(A,B,C)|A+B+C=180,ABC 标准模型库标准模型库=E(正三角形正三角形),),R(直角三角形直角三角形),),I(等腰三角形等腰三角形),),IR(等腰直角三角形等腰直角三角形),),T(任意三任意三角形角形).).某人在实验中观察到一染色体的几何形状,某人在实验中观察到一染色体的几何形状,测得其三个内角分别为测得其三个内角分别为94,50,36,94,50,36,即待识别对象即待识别对象为为x0=(94,50,36).=(94,50,36).问问x0应隶属于哪一种三角形?应隶属于哪一种三角形?先建
9、立标准模型库中先建立标准模型库中各种三角形的隶属函数各种三角形的隶属函数.直角三角形的隶属函数直角三角形的隶属函数R(A,B,C)应满足下列应满足下列约束条件:约束条件:(1)(1)当当A=90时时,R(A,B,C)=1;(2)(2)当当A=180时时,R(A,B,C)=0;(3)(3)0R(A,B,C)1.因此,不妨定义因此,不妨定义R(A,B,C)=1-|A-90|/90.则则R(x0)=0.955.或者或者.0,1,0,901),(1pppCBARp其中其中 p=|A 90|则则R(x0)=0.54.正三角形的隶属函数正三角形的隶属函数E(A,B,C)应满足下列约应满足下列约束条件:束条
10、件:(1)当当A=B=C=60时时,E(A,B,C)=1;(2)当当A=180,B=C=0时时,E(A,B,C)=0;(3)0E(A,B,C)1.因此,不妨定义因此,不妨定义E(A,B,C)=1 (A C)/180.则则E(x0)=0.677.或者或者.0,1,0,1801),(1pppCBAEp其中其中 p=A C 则则E(x0)=0.02.等腰三角形的隶属函数等腰三角形的隶属函数I(A,B,C)应满足下列约应满足下列约束条件:束条件:(1)(1)当当A=B 或者或者 B=C时时,I(A,B,C)=1;(2)(2)当当A=180,B=60,C=0时时,I(A,B,C)=0;(3)(3)0I(
11、A,B,C)1.因此,不妨定义因此,不妨定义I(A,B,C)=1 (A B)(B C)/60.则则I(x0)=0.766.或者或者.0,1,0,601),(1pppCBAIp p=(A B)(B C)则则I(x0)=0.10.等腰直角三角形的隶属函数等腰直角三角形的隶属函数(IR)(A,B,C)=I(A,B,C)R(A,B,C);(IR)(x0)=0.7660.955=0.766.任意三角形的隶属函数任意三角形的隶属函数T(A,B,C)=IcRcEc=(IRE)c.T(x0)=(0.7660.9550.677)c=(0.955)c=0.045.通过以上计算通过以上计算,R(x0)=0.955最
12、大最大,所以所以x0应隶应隶属于直角三角形属于直角三角形.或者或者(IR)(x0)=0.10;T(x0)=(0.54)c=0.46.仍仍然是然是R(x0)=0.54最大最大,所以所以x0应隶属于直角三角形应隶属于直角三角形.例例4 4 大学生体质水平的模糊识别大学生体质水平的模糊识别.陈蓓菲等人在福建农学院对陈蓓菲等人在福建农学院对240240名男生的体名男生的体质水平按质水平按中国学生体质健康调查研究中国学生体质健康调查研究手册上手册上的规定的规定,从从1818项体测指标中选出了反映体质水平项体测指标中选出了反映体质水平的的4 4个主要指标个主要指标(身高、体重、胸围、肺活量身高、体重、胸围
13、、肺活量),),根根据聚类分析法据聚类分析法,将将240240名男生分成名男生分成5 5类:类:A1(体质体质差差),),A2(体质中下体质中下),),A3(体质中体质中),),A4(体质良体质良),),A5 (体质优体质优),),作为论域作为论域U(大学生大学生)上的一个标准模上的一个标准模型库型库,然后用最大隶属原则然后用最大隶属原则,去识别一个具体学生去识别一个具体学生的体质的体质.5.5类标准体质的类标准体质的4 4个主要指标的观测数据个主要指标的观测数据如下表所示如下表所示.身高身高(cm)体重体重(kg)胸围胸围(cm)肺活量肺活量(cm3)A1158.43.047.98.484.
14、22.43380184A2163.44.850.08.689.06.23866800A3166.93.655.39.488.37.04128526A4172.64.657.78.289.26.44349402A5178.44.261.98.690.98.04536756 现有一名待识别的大学生现有一名待识别的大学生x=x1,x2,x3,x4 =175,55.1,86,3900,他应属于哪种类型?,他应属于哪种类型?设论域设论域X=x1,x2,xn 上有上有m个模糊子集个模糊子集A1,A2,Am(即即m个模型个模型),),构成了一个标准模构成了一个标准模型库型库,若对任一若对任一x0X,取定水平
15、取定水平 0,1.若存在若存在 i1,i2,ik,使使Aij(x0)(j=1,2,k),则判决为:则判决为:x0相对隶属于相对隶属于.21kiiiAAA 若若Ak(x0)|k=1,2,m,则判决为:不则判决为:不能识别能识别,应当找原因另作分析应当找原因另作分析.该方法也适用于判别该方法也适用于判别x0是否隶属于是否隶属于标准模型标准模型Ak.若若Ak(x0),则判决为:则判决为:x0相对隶属于相对隶属于Ak;若若Ak(x0),则判决为:则判决为:x0相对不隶属于相对不隶属于Ak.设在论域设在论域X=x1,x2,xn上有上有m个模糊子集个模糊子集A1,A2,Am(即即m个模型个模型),),构成
16、了一个标准模型构成了一个标准模型库库.被识别的对象被识别的对象B也是也是X上一个模糊集上一个模糊集,它与标它与标准模型库中那一个模型最贴近?这是第二类模糊准模型库中那一个模型最贴近?这是第二类模糊识别问题识别问题.先将模糊向量的内积与外积的概念扩充先将模糊向量的内积与外积的概念扩充.设设A(x),B(x)是论域是论域X上两个模糊子集的隶属上两个模糊子集的隶属函数函数,定义定义 内积:内积:A B=A(x)B(x)|xX;外积:外积:AB=A(x)B(x)|xX.(1)(1)(A B)c=AcBc;(2)(2)(AB)c=Ac Bc;(3)(3)A Ac 1/2;(4)(4)AAc 1/2.证明
17、证明(1)(1)(A B)c=1-A(x)B(x)|xX =1-A(x)1-B(x)|xX=Ac(x)Bc(x)|xX=AcBc.证明证明(3)(3)A Ac=A(x)1-A(x)|xX 1/2|xX 1/2.下面我们用下面我们用 (A,B)表示两个模糊集表示两个模糊集A,B之间之间的贴近程度的贴近程度(简称简称贴近度贴近度),),贴近度贴近度 (A,B)有一些有一些不同的定义不同的定义.0(A,B)=A B+(1-A B)/2 (格贴近度格贴近度)1(A,B)=(A B)(1-A B)择近原则择近原则 设在论域设在论域X=x1,x2,xn上有上有m个模糊子集个模糊子集A1,A2,Am构成了一
18、个标准模型库构成了一个标准模型库,B是待识别是待识别的模型的模型.若有若有k1,2,m,使得使得 (Ak,B)=(Ai,B)|1im,则称则称B与与Ak最贴近最贴近,或者说把或者说把B归于归于Ak类类.这就是这就是择择近原则近原则.213.07.3exp)(xxA223.09.2exp)(xxA233.06.5exp)(xxA243.09.3exp)(xxA252.07.3exp)(xxA228.043.3exp)(xxB 设在论域设在论域X=x1,x2,xn上有上有n个模糊子集个模糊子集A1,A2,An构成了一个标准模型库构成了一个标准模型库,每个模型又每个模型又由个特性来刻划:由个特性来刻
19、划:Ai=(Ai1,Ai2,Aim),i=1,2,n,待识别的模型待识别的模型B=(B1,B2,Bm).先求两个模糊向量集合族的贴近度:先求两个模糊向量集合族的贴近度:si=(Aij,Bj)|1jm,i=1,2,n,若有若有k1,2,n,使得使得 (Ak,B)=si|1in,则称则称B与与Ak最贴近最贴近,或者说把或者说把B归于归于Ak类类.这就是这就是多个特性的择近原则多个特性的择近原则.格贴近度的不足之处是一般格贴近度的不足之处是一般 0(A,A)1.定义定义(公理化定义公理化定义)若若 (A,B)满足满足 (A,A)=1;(A,B)=(B,A);若若ABC,则则 (A,C)(A,B)(B
20、,C).则称则称 (A,B)为为A与与B的贴近度的贴近度.显然显然,公理化定义显得自然、合理、直观公理化定义显得自然、合理、直观,避免了避免了格贴近度的不足之处格贴近度的不足之处,它具有理论价值它具有理论价值.但是公理化定但是公理化定义并未提供一个计算贴近度的方法义并未提供一个计算贴近度的方法,不便于操作不便于操作.于是于是,人们一方面尽管觉得格贴近度有缺陷人们一方面尽管觉得格贴近度有缺陷,但还但还是乐意采用易于计算的格贴近度来解决一些实际问题;是乐意采用易于计算的格贴近度来解决一些实际问题;另一方面另一方面,在实际工作中又给出了许多具体定义在实际工作中又给出了许多具体定义(P145).(P1
21、45).离散型离散型,)()()()(),(111nkkknkkkxBxAxBxABA连续型连续型,d)()(d)()(),(1xxBxAxxBxABA离散型离散型,)()()()(2),(112nkkknkkkxBxAxBxABA连续型连续型,d)()(d)()(2),(2xxBxAxxBxABA离散型离散型,)()(11),(13nkkkxBxAnBA连续型连续型.d)()(11),(3xxBxABA 事实上事实上,择近原则的核心就是最大隶属原则择近原则的核心就是最大隶属原则.如在小麦品种的模糊识别如在小麦品种的模糊识别(仅对百粒重考虑仅对百粒重考虑)中中,可重新定义可重新定义“早熟早熟”
22、、“矮秆矮秆”、“大粒大粒”、“高肥丰产高肥丰产”、“中肥丰产中肥丰产”的隶属函数的隶属函数.重新定义重新定义“早熟早熟”的隶属函数为的隶属函数为13.07.3exp21),(21A重新定义重新定义“矮秆矮秆”的隶属函数为的隶属函数为13.09.2exp21),(22A 左图给出了左图给出了9只只Af和和6只只Apf蠓的触角长和翼长蠓的触角长和翼长数据数据,其中其中“”表示表示Apf,“”表示表示Af.根据触角根据触角长和翼长来识别一个标本是长和翼长来识别一个标本是Af还是还是Apf是重要的是重要的.给定一只给定一只Af族或族或Apf族的蠓族的蠓,如如何正确地区分它属何正确地区分它属于哪一族?
23、于哪一族?将你的方法将你的方法用于触角长和翼长用于触角长和翼长分别为分别为(1.24,1.80),(1.28,1.84),(1.40,2.04)三个标本三个标本.模糊判别方法模糊判别方法 先将已知蠓重新进行分类先将已知蠓重新进行分类.当当 =0.919时时,分为分为3 3类类 1,2,3,6,4,5,7,8,9,10,11,12,13,14,15,三类的中心向量分别三类的中心向量分别为为(1.395,1.770),(),(1.560,2.080),(),(1.227,1.927).).用平移极差变换用平移极差变换227.108.2227.1xx将它们分别变为将它们分别变为A1=(0.200,0
24、.637)(Af 蠓蠓),A2=(0.390,1.000)(Af 蠓蠓),A3=(0.000,0.821)(Apf 蠓蠓),再将三只待识别的蠓用上述变换分别变为再将三只待识别的蠓用上述变换分别变为B1=(0.015,0.672),B2=(0.062,0.719),B3=(0.203,0.953).采用贴近度采用贴近度 3(A,B)=nkkkxBxAn1|)()(|11计算得:计算得:3(A1,B1)=0.89,3(A2,B1)=0.65,3(A3,B1)=0.92.3(A1,B2)=0.89,3(A2,B2)=0.69,3(A3,B2)=0.92.3(A1,B3)=0.84,3(A2,B3)=
25、0.88,3(A3,B3)=0.83.根据择近原则及上述计算结果根据择近原则及上述计算结果,第一只待识第一只待识别的蠓别的蠓(1.24,1.80)属于第三类属于第三类,即即Apf 蠓;第二只蠓;第二只待识别的蠓待识别的蠓(1.28,1.84)属于第三类属于第三类,即即Apf 蠓;第蠓;第三只待识别的蠓三只待识别的蠓(1.40,2.04)属于第二类属于第二类,即即Af 蠓蠓.设设Af是传粉益虫是传粉益虫,Apf是某种疾病的载体是某种疾病的载体,是否应修改你的分类方法?若需修改是否应修改你的分类方法?若需修改,为什么?为什么?2000 2000网易杯全国大学生数学建模竞赛题:生网易杯全国大学生数学
26、建模竞赛题:生物学家发现物学家发现DNA序列是由四种碱基序列是由四种碱基A,T,C,GA,T,C,G按一按一定顺序排列而成定顺序排列而成,其中既没有其中既没有“断句断句”,也没有标也没有标点符号点符号,同时也发现同时也发现DNADNA序列的某些片段具有一定序列的某些片段具有一定的规律性和结构的规律性和结构.由此人工制造两类序列由此人工制造两类序列(A(A类编类编号为号为1 11010;B B类编号为类编号为111120).20).网址:网址:.现在的问题是如何找出比较满意的方法来识现在的问题是如何找出比较满意的方法来识别未知的序列别未知的序列(编号为编号为212140),40),并判断它们那些
27、并判断它们那些属于属于A A类类,那些属于那些属于B B类类,那些既不属于那些既不属于A A类又不属类又不属于于B B类类.(1)(1)已知类别已知类别DNA序列的模糊分类序列的模糊分类 提取已知类别的提取已知类别的20个个DNA序列的序列的A,T,C,GA,T,C,G的的百分含量构成如下矩阵:百分含量构成如下矩阵:X=(xij)204,其中其中xi1,xi2,xi3,xi4分别表示第个分别表示第个DNA系列中的系列中的A,T,C,GA,T,C,G的百分的百分含量含量.采用切比雪夫距离法建立模糊相似矩阵采用切比雪夫距离法建立模糊相似矩阵,然然后用传递闭包法进行聚类后用传递闭包法进行聚类,动态聚
28、类图如下动态聚类图如下.(2)(2)确定最佳分类确定最佳分类将将20个已知个已知DNA序列分成如下序列分成如下3类为最佳:类为最佳:A1 1=1,2,3,5,6,7,8 9,10,=1,2,3,5,6,7,8 9,10,A2 2=4,17,=4,17,A3 3=11,12,13,14,15,16,18,19,20.=11,12,13,14,15,16,18,19,20.建立标准模型库:建立标准模型库:A1,A2,A3.(3)(3)未知未知DNADNA序列的模糊识别序列的模糊识别 采用格贴近度公式:采用格贴近度公式:0(A,B)=A B+(1-A B)/2,将隶属于将隶属于A1的的DNADNA序列序列归为归为A A类类,隶属于隶属于A3的的DNADNA序序列列归为归为B B类类,隶属于隶属于A2的的DNA序列序列归为非归为非A,BA,B类类.