数据统计与分析方法课件.ppt_163文库

资源描述

1、心电图的由来1780年有一天，年有一天，43岁的意大利解岁的意大利解剖学家伽伐尼剖学家伽伐尼Galvani Luigi，1737-1798），在实验室解剖青），在实验室解剖青蛙，在用银质手术刀触碰放在铁盘上蛙，在用银质手术刀触碰放在铁盘上的青蛙的时候，无意间发现青蛙腿部的青蛙的时候，无意间发现青蛙腿部肌肉抽搐了一下，仿佛受到电流的刺肌肉抽搐了一下，仿佛受到电流的刺激如果换用一种金属器械去触动青激如果换用一种金属器械去触动青蛙，就无此种反应。蛙，就无此种反应。1832年，一个晴朗的日子，还是年，一个晴朗的日子，还是意大利，还是青蛙，只是做实验的意大利，还是青蛙，只是做实验的人换成了马泰乌奇。人换

2、成了马泰乌奇。这一次，马泰乌奇探测到损伤和未这一次，马泰乌奇探测到损伤和未损伤的肌肉之间存在一种电流，他损伤的肌肉之间存在一种电流，他称之为称之为“肌肉电流肌肉电流”。他发现，包。他发现，包括心脏在内，一切正在收缩的肌肉括心脏在内，一切正在收缩的肌肉都会产生肌肉电流。都会产生肌肉电流。1、什么是数据？数据是指对客观事件进行记录并可以鉴数据是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的物理符号的组合。它是可识别的、抽象的符号。符号。数

3、据表现形式数据表现形式表现形式一表现形式一数据列表数据表现形式二数据表现形式二2 24 48 82 26 69 92 22 24 42 24 45 53 38 81 15 59 95 52 25 55 52 25 54 42 23 37 72 21 11 11 17 71 11 16 66 62 24 47 74 42 22 23 30 03 33 32 20 04 41 12 24 42 20 06 66 67 74 47 70 03 36 66 64 41 10 04 40 03 33 33 30 03 34 43 34 47 77 70 01 10 00 02 20 00 03 30 0

4、0 04 40 00 05 50 00 06 60 00 07 70 00 08 80 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月描述性分析：数据分时段走势、差距变化情况以及描述性分析：数据分时段走势、差距变化情况以及相应的时间背景相应的时间背景销售码洋趋势图销售码洋趋势图数据表现形式三数据表现形式三3 31 1.0 0%3 36 6.2 2%4 43 3.4 4%3 36 6.4 4%6 64 4.3 3%8 85 5.3 3%5 57 7.5 5%6 60 0.2 2%

5、5 53 3.5 5%4 47 7.4 4%3 39 9.5 5%3 35 5.5 5%3 33 3.0 0%1 13 3.2 2%2 21 1.1 1%3 30 0.8 8%3 36 6.1 1%4 49 9.0 0%6 67 7.0 0%5 51 1.5 5%4 47 7.3 3%4 43 3.3 3%3 37 7.4 4%3 30 0.4 4%2 25 5.5 5%2 27 7.3 3%0 0%1 10 0%2 20 0%3 30 0%4 40 0%5 50 0%6 60 0%7 70 0%8 80 0%9 90 0%1 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6

6、6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月销售码洋结构比销售码洋结构比1、计量资料(measurement data)用仪器、工具等测量方法获得的数据，又称数值变量。特点：有计量单位，如患者的身高(cm),体重(kg),血压(kPa)等.2、计数资料(count data)按某种属性分类计数后得到的数据，又称无序分类变量，有二分类和多分类两种情形.特点：无计量单位，如肤色(黑白)、血型(ABO)、职业(工农兵)、性别(男，女)等.3、等级资料(ordinal data)半定性或半定量的观察结果，有大小顺序，又称有序分类变量.如癌症分期：早、中、晚。药

7、物疗效：治愈、好转、无效、死亡。尿蛋白：,+,+及以上住院号住院号年龄年龄身高身高体重体重住院住院天数天数职业职业文化文化程度程度分娩分娩方式方式妊娠妊娠结局结局20256552716571.55无无中学中学顺产顺产足月足月20256532216074.05无无小学小学助产助产足月足月20258302515868.06管理员管理员大学大学顺产顺产足月足月20225432316169.05无无中学中学剖宫产剖宫产足月足月20224662515962.011商业商业中学中学剖宫产剖宫产足月足月20245352715768.02无无小学小学顺产顺产早产早产20258342015866.04无无中学中

8、学助产助产早产早产20194642415870.53无无中学中学助产助产足月足月20257832915457.07干部干部中学中学剖宫产剖宫产足月足月计量资料计数资料例：一组2040岁成年人的血压以12kPa为界分为正常与异常两组，统计每组例数 8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压计量资料等级资料计数资料什么是统计方法什么是统计方法统计方法统计方法是指有关收集、整理、是指有关收集、整理、分析和解释统计分析和解释统计数据数据，并对其所，并对其所反映的问题作出一定结论的方法反映的问题作出一定结论的方法。统计方法统计方法是一种从微观结构上是一种从微观结构

9、上来研究物质的宏观性质及其规律来研究物质的宏观性质及其规律的独特的方法。的独特的方法。一般统计方法根据数据的类型可以分为以下三种统计方法根据数据的类型可以分为以下三种统计方法 1、计量资料的统计方法、计量资料的统计方法*2、计数资料的统计方法、计数资料的统计方法 3、等级资料的统计方法、等级资料的统计方法运用统计方法应遵循的原则&坚持用数据说话的基本观点。&有目的地收集数据。&掌握数据的来源。&认真整理数据。统计分析流程统计分析流程确定问题确定分析目标采用科学方法收集数据考察数据时效性整理数据统计分析出具分析报告，提出解决意或建议1 1、频数分布、频数分布 (frequency distri

10、bution)(frequency distribution)为了了解数据的分布情况,可以编制频数表(frequency table).（1）求极差(range)：即最大值与最小值之差，又称为全距。（2）数据分组:由样本容量n确定组数、通常分10-15个组;一般采取等距分组,组距=极差/组数。（3）列出组段：第一组段的下限略小于最小值，最后一个组段上限必须包含最大值，其它组段上限值忽略。（4）划记计数：用划记法将所有数据归纳到各组段，得到各组段的频数。l 频数表的编制步骤编号编号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.

11、651.653 30.590.591541541.661.664 40.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.78 80.640.641591591.711.711601601.771.77 表2-1:160名正常成年女子的血清甘油三酯（mmol/L）组段组段（1）划划记记（2）频数，频数，f（3）组中值，组中值，X（4）fX(5)=(3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正

12、130.8511.050.9正正正正正正170.9516.151.0正正正正正正181.0518.901.1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正正正131.4518.851.5正正91.5512.401.6正正 81.6514.851.71.8 合计合计 31.755.25160182.30编制频数表,绘制频数分布图对称分布：以频数最多组段为中心左右大体对称.右(正)偏态分布:频数最多组段右侧组段数多.(skewed to the right distribution)左(负)偏态分布:频数最多组段左侧

13、组段数多.(skewed to the right distribution)2、集中趋势的描述统计上使用平均数(average)来反映计量资料的集中趋势(central tendency).常用平均数有：1.算术均数(arithmetic mean)，简称均数(mean)2.几何均数(geometric mean)3.中位数(median)4.百分位数(percentile)nXnXXXXn21iikkkffXffffXffXfXXfX32132111lglgiiifXGf12nnGX XX为偶数为奇数nxxnxMdnnn22/12/2/)1(3、离散趋势的描述反映数据的离散度(Disp

14、ersion),即个体观察值的变异(variation)程度,常用的统计指标有：1.极差(Range)(全距)2.四分位数间距(Quartile range)3.方差(Variance)4.标准差(Standard Deviation)5.变异系数(Coefficient of Variation)minmaxXXR221XXnSn四分位间距：QRP75 P25%100XSCV住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足

15、月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足月201991527无无中学中学顺产顺产死产死产202586129无无大学大学剖宫产剖宫产足月足月202460125农民农民中学中学顺产顺产足月足月200038626无无小学小学顺产顺产足月足月1、计数资料数据的整理、计数资料数据的整理按年龄（按年龄（2 2岁一组）与职业整理岁一组）与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0

16、 0 5 52020 9 9 2 2 6 61010 1818 0 0 454522222828 7 710102424 7070111115015024245050343428285252153153444436136126265050434325254545133133707036636628283434353510103434 7878575724824830301111141411112222 3939171711411432321414 2 2 3 31414 2424 3 3 60603434 4 4 2 2 5 5 3 3 1212 2 2 28283636 2 2 1 1 1

17、1 4 4 5 5 1 1 14143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0 0 0 0 0 2 2合计合计 207207 141141102102208208537537206206140114012、常用相对数指标计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数等.但绝对数不具可比性,需要计算相对数.l 率（rate）：说明某现象或某事物发生的频率或强度。率=（实际发生数/可能发生总数）比例基数比例基数：100%、1000、10000/万、100000（1/10万）等如：发病率、死亡率、发生率、阳性率、患病率等

18、l 构成比（proportion）：说明某一事物内部，各组成部分所占的比重,也叫百分比。构成比=（某部分观察单位数/各组成部分观察单位总数）100%如：教研室20人中高级职称有5人，占25。l 相对比（relative ratio）：是A、B两个有关指标之比，说明A是B的若干倍或百分之几，通常用倍数或分数表示。如：男：女、医生：护士、教师：学生年龄组年龄组受检人数受检人数白内障白内障例数例数患者年龄患者年龄构成比（构成比（%）患病率（患病率（%）=(3)/(2)4050607080合计合计560441296149 2268129135 97 1915.1828.7930.1321.65

19、4.2412.1429.2545.6165.1086.36 1468448100.0030.52例例:率与构成比率与构成比(1)不能以构成比代替率。(2)计算相对数的分母不宜过小,小则直接叙述。(3)进行率的对比分析时，应注意资料可比性。如比较疗效时，比较组间应病情轻重相同，性别影响，应按性别分组后再作比较。(4)正确求平均率。例：若P1=x1/n1 P2=x2/n2 P3=x3/n3 P（x1+x2+x3）/n1+n2+n3）(正确)P（P1+P2+P3）/3 (错误)3、相对数应用注意事项统计表(statistical table)数据代替文字描述，便于统计结果的精确、简洁的表达和对比分

20、析.统计图(statistical chart)用图形代替数据，获得直观、形象的效果.定义:将统计分析的事物及指标用表格列出.特点:避免长篇文字叙述,便于阅读和对比分析;数据具体.定义:用点的位置,线段的升降,直条的长短或面积的大小等形式表达统计资料.特点:直观,醒目,常给人以深刻印象.统计表由以下几个部分组成：标题、标目、线条、数字、备注表2-9 某省某工厂 1994、1998年四项检测指标异常检出率检测检测指标指标1994年年1998年年受检人数受检人数异常人数异常人数检出率检出率(%)受检人数受检人数异常人数异常人数检出率检出率(%)血压血压心率心率 TTT GPT 519519

21、5195195544362010.16 0.48 6.94 3.85582582582582383923166.526.703.952.75 ：TTT（麝香草酚浊度试验），（麝香草酚浊度试验），：GPT（谷丙转氨酶）。（谷丙转氨酶）。(丁建生等丁建生等.中国卫生统计中国卫生统计 1999;16(3):166)1、统计表的结构.纵标目总标目（单位）.合计 .横标目纵标目纵标目纵标目总标目横标目的总标目备注：表号标题（包括何时、何地、何事）2、三线表根据分组标目的复杂程度，统计表可大致分为简单表根据分组标目的复杂程度，统计表可大致分为简单表和复合表。和复合表。

22、简单表简单表(simple table)(simple table)：只按一个特征或标志分组。：只按一个特征或标志分组。如表如表2-8 2-8。复合表复合表(combinative table)(combinative table)：按两个或两个以上特：按两个或两个以上特征或标志结合起来分组。如表征或标志结合起来分组。如表2-92-9。3、统计表的分类表表 2-15 第第三三组组病病人人各各年年存存活活及及死死亡亡情情况况 (原原表表)年年份份(1)病病例例数数(2)存存活活数数(3)住住院院期期死死亡亡总总例例数数(4)=(2)+(3)急急性性期期死死亡亡数数(5)住住院院期期总总病病死死

23、率率(%)(6)=(4)/(2)急急性性期期病病死死率率(%)(7)=(5)/(2)1964 17 9 8 7 47.1 41.2 1965 13 8 5 4 38.5 30.8 1966 15 8 7 6 46.7 40.0 1967 15 9 6 6 40.0 40.0 1968 12 8 4 4 33.3 33.3 合合计计 72 42 30 27 41.7 37.5 表表 2-16 19641968 年年急急性性心心肌肌梗梗塞塞患患者者的的病病死死率率（修修改改表表）死死亡亡例例数数病病死死率率（%）年年份份病病例例数数住住院院数数急急性性期期住住院院期期急急性性期期 1

24、964 17 8 7 47.1 41.2 1965 13 5 4 38.5 30.8 1966 15 7 6 46.7 40.0 1967 15 6 6 40.0 40.0 1968 12 4 4 33.3 33.3 合合计计 72 30 27 41.7 37.5 3、不良统计表的修改统计图(statistical chart 或statistical graph)是用点、线、面等几何图形，直观形象地表达、描述数据或结果。3、统计图 SPSS绘制基本图形SPSS绘制基本图形条形图(Bar Chart)用途：用等宽直条的长短来表示相互独立的各统计指标的数值大小,也叫直条图.分单式和复式两种.单

25、式条形图复式条形图圆图(Pie Chart)用途：以圆的半径将圆面分割成多个大小不等的扇形，以扇形面积来表达构成比的图形。线图(Line Chart)用途：适用于连续变量资料，说明某事物因时间、条件推移而变迁的趋势。直方图(Histogram)用途：直方图是以面积表示数量，适用于表达连续性资料的频数或频率分布。什么是数据分析请牢记：所有的分析要从“结果结果”出发，没有结论的数字罗列并不是分析；“结果结果”：发现问题和解决问题。数据分析不是一门复杂的科学数据分析不是一门复杂的科学；而是一些简单的“common sense”；复杂的运算通常只是令分析结果更差而不是更好；绝大多数是简单的想法和简单

26、的沟通数据分析有时候是一门艺术数据分析有时候是一门艺术同样的数据会有不同的解读优秀和平庸的差异，有时候差在一种灵感数据分析目的让数据说话；行动的向导；杜绝浪费；提供决策的依据。数据分析误区数据分析误区误区一误区一:展示元素不宜大于展示元素不宜大于3 3个个0 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00 09 90 00 00 00 00 01 10 0

27、0 00 00 00 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月数据分析误区数据分析误区误区二误区二:时间序列数据最好使用折线图，而不宜使时间序列数据最好使用折线图，而不宜使用柱状图等用柱状图等0 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00

28、00 09 90 00 00 00 00 01 10 00 00 00 00 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月误区三:研究用数据最好不使用三维立体图研究用数据最好不使用三维立体图1 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月S S1 1S S3 30 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 0

29、4 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00 09 90 00 00 00 00 01 10 00 00 00 00 00 0数据分析误区数据分析误区误区四：为避免图表的欺骗性，图线最好占据误区四：为避免图表的欺骗性，图线最好占据2/3 2/3 至至3/43/4的高度（调整的高度（调整Y Y轴刻度）轴刻度）7 7 3 3.7 7%6 6 8 8.1 1%6 6 9 9.0 0%7 7 2 2.9 9%7 7 3 3.1 1%7 7 5 5.6 6%7 7 0 0.

30、9 9%7 7 1 1.9 9%7 7 1 1.6 6%6 6 9 9.0 0%6 6 2 2.2 2%6 6 7 7.1 1%7 7 5 5.7 7%8 8 3 3.5 5%7 7 1 1.5 5%7 7 5 5.4 4%7 7 9 9.0 0%7 7 5 5.8 8%7 7 6 6.9 9%7 7 4 4.5 5%6 6 8 8.9 9%7 7 2 2.9 9%7 7 7 7.3 3%6 6 7 7.7 7%7 7 5 5.5 5%7 7 9 9.6 6%0 0%1 1 0 0%2 2 0 0%3 3 0 0%4 4 0 0%5 5 0 0%6 6 0 0%7 7 0 0%8 8 0 0%

31、9 9 0 0%1 1 0 0 0 0%1 1 2 2 月月 1 1 月月 2 2 月月 3 3 月月 4 4 月月 5 5 月月 6 6 月月 7 7 月月 8 8 月月 9 9 月月 1 1 0 0 月月1 1 1 1 月月1 1 2 2 月月7 73 3.7 7%6 68 8.1 1%6 69 9.0 0%7 72 2.9 9%7 73 3.1 1%7 75 5.6 6%7 70 0.9 9%7 71 1.9 9%7 71 1.6 6%6 69 9.0 0%6 62 2.2 2%6 67 7.1 1%7 75 5.7 7%8 83 3.5 5%7 71 1.5 5%7 75 5.4 4%

32、7 79 9.0 0%7 75 5.8 8%7 76 6.9 9%7 74 4.5 5%6 68 8.9 9%7 72 2.9 9%7 77 7.3 3%6 67 7.7 7%7 75 5.5 5%7 79 9.6 6%6 60 0%6 65 5%7 70 0%7 75 5%8 80 0%8 85 5%1 12 2月月 1 1月月 2 2月月 3 3月月 4 4月月 5 5月月 6 6月月 7 7月月 8 8月月 9 9月月 1 10 0月月 1 11 1月月 1 12 2月月数据分析误区数据分析误区1 1、抽样法、抽样法*2 2、聚类分析（、聚类分析（Cluster AnalysisClus

33、ter Analysis）*3 3、因子分析（、因子分析（Factor AnalysisFactor Analysis）4 4、相关分析、相关分析(Correlation Analysis)(Correlation Analysis)5 5、对应分析对应分析（Correspondence Correspondence AnalysisAnalysis）6 6、回归分析（、回归分析（regression analysis)regression analysis)7 7、方差分析、方差分析(ANOVA/Analysis of(ANOVA/Analysis of Variance)Variance)

34、总体、个体总体、个体总体又叫母体，是研究对象的全体。总体又叫母体，是研究对象的全体。出版商一个批次到货出版商一个批次到货的全部都可以称为总体。的全部都可以称为总体。构成总体的基本单位，称为个体。构成总体的基本单位，称为个体。每册书都是一个个体。每册书都是一个个体。来货检验常用抽样方法进行，即从来货总件数中抽出一部分件数，并来货检验常用抽样方法进行，即从来货总件数中抽出一部分件数，并测试每件的有关册数是否够数的特性数据，进行统计分析后，对总体测试每件的有关册数是否够数的特性数据，进行统计分析后，对总体作出估计和判断。作出估计和判断。一般地，设一个总体含有一般地，设一个总体含有N N个个个体个体，

35、从，从中逐个不放回地中逐个不放回地抽取抽取n n个个体作为个个体作为样本样本（nNnN），如果每次抽取使），如果每次抽取使总体总体内的各内的各个个体被抽到的个个体被抽到的机会机会都相等，就把这种都相等，就把这种抽样方法叫做简单随机抽样。抽样方法抽样方法叫做简单随机抽样。抽样方法主要包括：随机抽样、分层抽样、整体主要包括：随机抽样、分层抽样、整体抽样、系统抽样。抽样、系统抽样。样本样本样本样本又叫又叫子样子样，是从总体中抽出来一部分个体的集合。，是从总体中抽出来一部分个体的集合。样本中每个个体叫样本中每个个体叫样品样品，样本中所包含样品数目称为样本大小，样本中所包含样品数目称为样本大小，又叫又叫

36、样本量样本量，常用，常用n n表示。表示。对样本的特性进行测定，所得的数据称为对样本的特性进行测定，所得的数据称为样本值样本值。当样本个数越多时，分析结果越接近总体的值，样本对总体的代当样本个数越多时，分析结果越接近总体的值，样本对总体的代表性就越好。表性就越好。抽样方法抽样方法用的统计抽样方法主要有以下三种用的统计抽样方法主要有以下三种随机抽样法随机抽样法分层抽样法分层抽样法系统抽样法系统抽样法书书业业公公司司抽样方法抽样方法随机抽样随机抽样指总体中每一个个体都有同等可能的机会被抽到。这种抽样方法事先不能考虑抽取哪一个样品，完全用偶然方法抽样，常用抽签或利用随机数表来抽取样品以保证样品代表性

37、。抽样当图书品种不多时，随机抽样是一种有效的抽样方法；抽样方法抽样方法分层抽样分层抽样分层抽样是先将总体按照研究内容密切有关的主要因素分类或分层，然后在各层中按照随机原则抽取样本。分层抽样可以减少层内差异，增加样本的代表性。抽样样本当到货产品较多时，分层抽样是一种有效的抽样方法；当到货产品较多时，分层抽样是一种有效的抽样方法；抽样方法抽样方法系统抽样系统抽样从总体中每隔K个个体抽取一个个体的抽样方法，比值K是总体容量N与样本容量n之比；当出版商批量发货及产品特别多时，并且易作某种次序的整理时，当出版商批量发货及产品特别多时，并且易作某种次序的整理时，系统抽样比分层抽样好；系统抽样比分层抽样好；

38、1，2，.K K+1，K+2，.，2K 2K+1，2K+2，.，3K 直到 N为止例，从具有1000个个体的总体中抽取50个个体。总体、样本、数据间的关系总体、样本、数据间的关系总体总体样本样本结论结论数据数据抽样分析管理测试数理整理和统计数理整理和统计抽样的目的是通过样本来反映总体。抽样的目的是通过样本来反映总体。在书业公司经营管理中，常常将测试的样本数据，通过整理加工，找在书业公司经营管理中，常常将测试的样本数据，通过整理加工，找出它们的特性，从而推断总体的变化规律、趋势和性质。出它们的特性，从而推断总体的变化规律、趋势和性质。一批数据的分布情况，可以用中心倾向及数据的分散程度来表示，表一

39、批数据的分布情况，可以用中心倾向及数据的分散程度来表示，表示中心倾向的有平均值、中位值等，表示数据分散程度的有方差、标示中心倾向的有平均值、中位值等，表示数据分散程度的有方差、标准偏差、极差等。准偏差、极差等。描述总体数据离散程度的参数为方差描述总体数据离散程度的参数为方差2 2 ，描述总体数据中心倾向的，描述总体数据中心倾向的数为均值数为均值。若利用样本参数近似描述总体状况时，可以利用样本。若利用样本参数近似描述总体状况时，可以利用样本方差方差S S2 2近似代替总体方差近似代替总体方差2 2，利用样本均值，利用样本均值X X近似代替总体均值近似代替总体均值p p。数理整理和统计数理整理和

40、统计样本平均值样本平均值样本中位值样本中位值X=X1+X2+X3.+Xnn中位值是按照数据大小顺序排列位于中间的数值，中位值记为X若n为偶数，则取位于中间两个数值的平均值为中位值；数理整理和统计数理整理和统计样本极差样本极差样本方差和样本标准偏差样本方差和样本标准偏差样本方差和样本标准差就是用来度量数据波动幅度大小的一个重要特性值。样本方差是一组数据中每一个数值与平均值之差的平方和的平均值，通常记为S2；样本方差的平方根S称作样本标准偏差，它与样本方差一样，是反映一组数据分散程度的特性值:样本极差表示一组数据分布的范围，是指数据中最大值与最小值的差:R=Xmax-Xmin2、聚类分析聚类分析

41、指将物理或抽象对象的集合分组成为由聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进分类的标准，聚类分析能够从样本数据出发，自动进行分

42、类。行分类。聚类分析所使用方法的不同，常常会得到不同的聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。所得到的聚类数未必一致。分类俗语说，物以类聚、人以群分。但什么是分类的根据呢？比如，要想把中国的县分成若干类，就有很多种分类法；可以按照自然条件来分，比如考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。聚类分析对于一个数据，人们既可以对变量（指标）进行分类(相当于对数据中的列分类)，也可以对观测

43、值（事件，样品）来分类（相当于对数据中的行分类）。比如学生成绩数据就可以对学生按照理科或文科成绩（或者综合考虑各科成绩）分类，当然，并不一定事先假定有多少类，完全可以按照数据本身的规律来分类。下面要介绍的分类的方法称为聚类分析（cluster analysis）。对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的，没有什么不同。饮料数据（drink.sav）16种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量如何度量远近？如果想要对如果想要对100个学生进行分类，如果仅仅知道个学生进行分类，如果仅仅知道他们的数学成绩，则只好按照数学成

44、绩来分类；他们的数学成绩，则只好按照数学成绩来分类；这些成绩在直线上形成这些成绩在直线上形成100个点。这样就可以把个点。这样就可以把接近的点放到一类。接近的点放到一类。如果还知道他们的物理成绩，这样数学和物理成如果还知道他们的物理成绩，这样数学和物理成绩就形成二维平面上的绩就形成二维平面上的100个点，也可以按照距个点，也可以按照距离远近来分类。离远近来分类。三维或者更高维的情况也是类似；只不过三维以三维或者更高维的情况也是类似；只不过三维以上的图形无法直观地画出来而已。在饮料数据中上的图形无法直观地画出来而已。在饮料数据中，每种饮料都有四个变量值。这就是四维空间点，每种饮料都有四个变量值。

45、这就是四维空间点的问题了。的问题了。聚类分析聚类分析1、系统聚类法、系统聚类法-（分层聚类）系统聚类法（分层聚类）系统聚类法是应用最广泛的一种（是应用最广泛的一种（Hierarchical Cluster过程过程）1）、）、聚类原则：都是相近的聚为一类，即聚类原则：都是相近的聚为一类，即距离最近或最相似的聚为距离最近或最相似的聚为一类。一类。2）、）、分层聚类的方法可以用于样本聚类（分层聚类的方法可以用于样本聚类（Q）型，也可以用于变量聚类（）型，也可以用于变量聚类（R型）。型）。2、非系统聚类法、非系统聚类法-（快速聚类法（快速聚类法-K-均均值聚类法）（值聚类法）（K-means Clu

46、ster)3、两步聚类法、两步聚类法-一种探索性的聚类方法（一种探索性的聚类方法（TwoStep Cluster）K-K-均值聚类分析均值聚类分析K-means Cluster 又称为快速样本聚类法，是非系统聚类中最常用的聚类又称为快速样本聚类法，是非系统聚类中最常用的聚类法。法。优点：优点：是占内存少、计算量小、处理速度快，特别适合大样本是占内存少、计算量小、处理速度快，特别适合大样本的聚类分析。的聚类分析。缺点：缺点：应用范围有限，要求用户制定分类数目应用范围有限，要求用户制定分类数目(要告知要告知)，只能，只能对对观测量（样本）观测量（样本）聚类，而不能对变量聚类，且所使用的聚类聚类，而

47、不能对变量聚类，且所使用的聚类变量必须都是连续性变量变量必须都是连续性变量。时间序列分析时间序列分析(time series(time series analysis)analysis)方法方法,强调的是通过对一个强调的是通过对一个区域进行一定时间段内的连续遥感观区域进行一定时间段内的连续遥感观测，提取图像有关特征，并分析其变测，提取图像有关特征，并分析其变化过程与发展规模。当然，首先需要化过程与发展规模。当然，首先需要根据检测对象的时相变化特点来确定根据检测对象的时相变化特点来确定遥感监测的周期，从而选择合适的遥遥感监测的周期，从而选择合适的遥感数据。感数据。时间序列分析时间序列分析(tim

48、e series analysis)(time series analysis)时间序列的基本概念时间序列的基本概念一、时间序列1、含义：指被观察到的依时间为序排列的数据序列。2、特点：（1）现实的、真实的一组数据，而不是数理统计中做实验得到的。既然是真实的，它就是反映某一现象的统计指标，因而，时间序列背后是某一现象的变化规律。（2）动态数据。2010年11月17日-2011年4月8日上证综指二、时间序列分析时间序列分析：是一种根据动态数据揭示系统动态结构和规律的统计方法。其基本思想基本思想：根据系统的有限长度的运行记录（观察数据），建立能够比较精确地反映序列中所包含的动态依存关系的数学模型

49、，并借以对系统的未来进行预报三、确定性时间序列分析与随机性时间序列分析:时间序列依据其特征，有以下几种表现形式，并产生与之相适应的分析方法：（1）长期趋势变化受某种基本因素的影响，数据依时间变化时表现为一种确定倾向，它按某种规则稳步地增长或下降。使用的分析方法有：移动平均法、指数平滑法、模型拟和法等；（2）季节性周期变化受季节更替等因素影响，序列依一固定周期规则性的变化，又称商业循环。采用的方法：季节指数；（3）循环变化周期不固定的波动变化。(4)随机性变化由许多不确定因素引起的序列变化。它所使用的分析方法就是我们要讲的时间序列分析。趋势变化分析确定性变化分析周期变化分析循环变化分

50、析时间序列分析随机性变化分析:AR、MA、ARMA模型 Wold分解定理（1938）对于任何一个离散平稳过程它都可以分解为两个不相关的平稳序列之和，其中一个为确定性的，另一个为随机性的，不妨记作其中：为确定性序列，为随机序列，它们需要满足如下条件（1）（2）（3）txtttVxtV t0jjtjt020,1jj),0(2WNtstVEst,0),(确定性序列与随机序列的定义对任意序列而言，令关于q期之前的序列值作线性回归其中为回归残差序列，。确定性序列，若随机序列，若t2)(qtVar2lim0qq)(lim2tqqyVarCramer分解定理（1961）任何一个时间序列都

展开阅读全文