1、 应用统计方法电子教案开课系:数理系对象:工科研究生学时:48授课教师:李晓童Email:电话:897345912022-9-29参考书:吴翊等 国防大学出版社1995高惠璇,北京大学出版社 2001梅长林等 西安交通大学出版社 20022022-9-29考核方式 闭卷考试(50%)+课程论文(40%)+考勤(10%)2022-9-29主要内容数理统计基础-抽样分布,参数估计,假设检验回归分析方差分析多元分析的基本概念多元正态的参数估计与假设检验主成分分析判别分析聚类分析因子分析2022-9-29 chapter1 chapter1 数理统计基本概念数理统计基本概念 (Basic Concep
2、t of Mathematical Statistics)2022-9-29数理统计学数理统计学是数学的重要分支它研究怎样有效得收集,整理和分析带有随机性带有随机性的数据,以对所考察的问题作出推断和预测,直到采取一定的决策和行动提供依据和建议统计学:去掉带有随机性也是带有随机性也是数据科学数理统计和统计学数理统计和统计学的区别:2022-9-29那里有受随机性影响的数据那里有受随机性影响的数据,那里就有数理统计的问题那里就有数理统计的问题教育学医学环境科学气象,地质,考古,服装工业经济学社会学,心理学农业文学2022-9-29例例如何估计产品的寿命?工业管理极重要的问题,如何估计产品的寿命?工
3、业管理极重要的问题,因为寿命实验是破坏性的,只能抽取少量产品做试验为因为寿命实验是破坏性的,只能抽取少量产品做试验为评价这批电子产品的使用寿命,随机抽取台作试验,评价这批电子产品的使用寿命,随机抽取台作试验,测得寿命数据为(小时)测得寿命数据为(小时):,问整批电子设备中寿命超过小时的占多大比例?问整批电子设备中寿命超过小时的占多大比例?(参数估计问题参数估计问题)2022-9-29例某针织厂进行技术革新,漂白工艺过程中,要考虑温度对针织品断裂强力(主要质量指标)的影响,为了比较70C,80C 影响有无差异,在两个温度下做了次试验:70:20.5,18.8,19.8,20.9,21.5,19.
4、5,21.0,21.280:17.7,20.3,20.0,18.8,19.0,20.1,20.2,19.1.问这两种温度下强力有无差别?(假设检验问题)19.4y20.4x这这1公斤差别是由什么引起公斤差别是由什么引起?随机误差随机误差?温度的不同温度的不同?2022-9-29例3.为探讨吸烟与慢性支气管炎是否有关,调查了339人问从这批数据能否判定患慢性支气管炎与吸烟有关?(列联表的独立性)人数患未患合计吸烟43162205不吸烟13121134合计562833392022-9-291.1 样本和总体样本和总体(Sample and Population)1.2 直方图与经验分布函数直方图与
5、经验分布函数(Histogram and Empirical Distribution Function)1.3 统计量及其分布统计量及其分布(Statistic and Distribution)2022-9-291.1 样本和总体样本和总体 (Sample and Population)2022-9-299/29/20229/29/20229/29/20229/29/20229/29/20229/29/20229/29/20229/29/20229/29/20229/29/20229/29/20229/30/20229/30/20229/30/20221.2 直方图与经验分布函数直方图与经
6、验分布函数Histogram and Empirical Distribution Function)2022-9-309/30/20229/30/20229/30/20229/30/20229/30/20229/30/2022data wh100;input h w;if w=50.3 then wc=50.3 and w54.1 and w57.9 and w61.7 and w65.5 and w69.3 and w=73.2;wgroup=int(w-46.5)*8/(77-46.5)-0.001)+1;cards;2022-9-30172.4 75.0 169.3 54.8 169.
7、3 64.0 171.4 64.8 166.5 47.4 171.4 62.2168.2 66.9 165.1 52.0 168.8 62.2 167.8 65.0 165.8 62.2 167.8 65.0164.4 58.7 169.9 57.5 164.9 63.5 160.3 55.2 175.0 66.6 172.5 73.5172.0 64.0 168.4 57.0 155.0 57.0 175.5 63.9 172.3 69.0 168.6 58.0176.4 56.9 173.2 57.5 167.5 50.0 169.4 52.2 166.7 72.0 169.5 57.01
8、65.7 55.4 161.2 48.5 172.8 57.0 175.1 75.5 157.5 50.5 169.8 62.9168.6 63.4 172.6 61.0 163.8 58.5 165.1 61.5 166.7 52.5 170.9 61.0166.1 69.5 166.2 62.5 172.4 52.6 172.8 60.0 177.8 63.9 162.7 56.8168.8 54.0 169.1 66.2 177.5 60.0 177.0 66.2 169.9 55.9 167.4 54.4169.3 58.4 172.8 72.8 169.8 58.0 160.0 65
9、.3 179.1 62.2 172.3 49.8163.3 46.5 172.9 66.7 165.4 58.0 175.8 63.2 162.3 52.2 165.4 65.7171.5 59.3 176.6 66.3 181.7 68.6 175.2 74.9 169.5 59.5 169.6 61.5169.1 63.1 185.5 77.0 173.9 65.5 162.5 50.0 171.5 58.5 175.6 59.8166.0 75.5 167.2 63.3 171.9 57.0 176.6 58.4 177.3 67.0 169.2 71.8166.2 49.8 181.7
10、 63.0 175.8 68.3 172.3 55.5 172.7 58.5 174.3 64.0171.2 59.0 174.8 68.0 165.4 55.5 169.1 64.8 167.9 62.0 176.8 64.0183.5 69.9 165.5 48.6 171.0 70.5 170.3 58.52022-9-30proc print data=wh100;run;proc freq data=wh100;tables wc;/*tables wgroup;*/title 100名学生的体重分为8个组的频数表;run;proc chart data=wh100;vbar w/m
11、idpoints=48 to 76 by 4;title 对学生体重数据使用选项MIDPOINT=产生的条形图;run;proc chart data=wh100;vbar wgroup/discrete;/*vbar wc/discrete;*/title 把输出1.2.1的频数表用条形图表示;run;proc univariate data=wh100 plot;var w;run;2022-9-30100名学生的体重分为8个组的频数表 3 12:45 Thursday,February 18,2009 The FREQ Procedure Cumulative Cumulative wc
12、 Frequency Percent Frequency Percent -=73.2 6 6.00 100 100.002022-9-30 The UNIVARIATE Procedure Variable:w Stem Leaf#Boxplot 76 0 1|74 9055 4|72 085 3|70 58 2|68 036059 6|66 2236790 7|64 00008800357 11 +-+62 022225901234599 15|60 000055 6 *-+-*58 00044555570358 14|56 890000055 9 +-+54 04824559 8|52
13、02256 5|50 005 3|48 5688 4|46 54 2|-+-+-+-+2022-9-30五数概括与箱线图五数概括与箱线图-次序统计量的应用之一箱线图箱线图廓廓大致描述一批数据的轮大致描述一批数据的轮个数个数即即分位数分位数第三第三分位数分位数第一第一中位数中位数最大观测值最大观测值最小观测值最小观测值个值个值容易计算如下容易计算如下得到有序样本后得到有序样本后5,:44:5,max35.01min75.0325.015.0)(max)1(minQmQmQmQmn2022-9-30做法做法:1 画一个箱子,其两侧恰为第一4分位数和第三4分位数,在中位数位置上画一竖线,它在箱子内,
14、这个箱子包含了样本中50%的数据.2 在箱子左右两侧各引一条水平线,分别至最小值和最大值为止.个线段包含了样本的25%的数据.2022-9-30二 茎叶图:每个数值分为两部分,前面一部分(百位,十位)称为茎,后面部分(个位)称为叶.如:数值 分开 茎 叶 112 12|2 11 2 然后画一竖线,在竖线的左侧写上茎,右侧写上叶.就形成了茎叶图.647 7024669 8012333566779 91123333566779100024667881122468991223568133 2022-9-30 要比较两组样本时,可画出它们的背靠背的茎叶图.这是简单,直观而有效的对比方法.例2.下面的数
15、据是某厂车间某天40名员工生产的产品的数量.甲车间 62056 乙车间 87775554211667788 87766442172245555666889 8766532801133344466778 73210922358 53001072022-9-309/30/20229/30/20229/30/20229/30/20229/30/20221.3 统计量及其分布统计量及其分布(Statistic and Distribution)2022-9-309/30/2022data Money50;input w;cards;924 800 916 704 870 1040 824 690 57
16、4 490 972 988 1266 684 764 940 408 804 610 892 602 754 788 962 704 712 854 888 768 848 882 1192 820 878 614 846 746 828 792 872 696 644 926 808 1010 728 742 850 864 738;proc print data=Money50;var w;proc means data=Money50;var w;proc univariate data=Money50 plot;var w;run;2022-9-30 The MEANS Procedu
17、re Analysis Variable:w N Mean Std Dev Minimum Maximum -50 810.3200000 156.1738226 408.0000000 1266.00 -2022-9-30 Stem Leaf#Boxplot 12 7 1 0 12 11 9 1 0 11 10 10 14 2|9 679 3|9 2234 4|8 55556778899 11 +-+8 001223 6 *-+-*7 556799 6|7 0001344 7 +-+6 89 2|6 0114 4|5 7 1|5|4 9 1|4 1 1 0 -+-+-+-+Multiply
18、Stem.Leaf by 10*+22022-9-30 The SAS System 13:47 Saturday,February 20,2009 22 The UNIVARIATE Procedure Variable:w Moments N 50 Sum Weights 50 Mean 810.32 Sum Observations 40516 Std Deviation 156.173823 Variance 24390.2629 Skewness 0.2322891 Kurtosis 1.40426379 Uncorrected SS 34026048 Corrected SS 11
19、95122.88 Coeff Variation 19.2731048 Std Error Mean 22.0863138 Basic Statistical Measures Location Variability Mean 810.3200 Std Deviation 156.17382 Median 814.0000 Variance 24390 Mode 704.0000 Range 858.00000 Interquartile Range 176.000002022-9-309/30/20229/30/20229/30/20229/30/20229/30/20229/30/20229/30/20229/30/20229/30/20222022-9-309/30/20229/30/20222022-9-309/30/20229/30/20229/30/20222022-9-309/30/20229/30/20229/30/20229/30/20229/30/20229/30/20229/30/20229/30/20229/30/20229/30/20229/30/2022