统计建模-数据描述分析课件.ppt_163文库

资源描述

1、概率统计建模李新民数学科学学院概率统计建模题n（1）CUMCM1993-B:足球队排名问题；足球队排名问题；n（2）CUMCM2001-B:公交车调度问题；公交车调度问题；n（3）CUMCM2002-B:彩票中的数学问题；彩票中的数学问题；n（4）CUMCM2004-D:公务员招聘问题；公务员招聘问题；n（5）CUMCM2005-A:长江水质的评价和预测问题；长江水质的评价和预测问题；n（6）CUMCM2006-B:艾滋病疗法评价与预测问题；艾滋病疗法评价与预测问题；n（7）CUMCM2007-A:中国人口预测问题中国人口预测问题n（8）CUMCM2008-D:NBA赛程的分析与评价问题赛程的

2、分析与评价问题n（9）CUMCM2009-B:眼科病床的合理安排眼科病床的合理安排n（10）CUMCM2010-B:上海世博会影响分析与评价上海世博会影响分析与评价n（11）CUMCM2011-A:城市表层土壤重金属污染分析城市表层土壤重金属污染分析n（12）CUMCM2012-A:葡萄酒的评价葡萄酒的评价n（13）CUMCM2013-A:车道被占用对城市道路通行能力的影响车道被占用对城市道路通行能力的影响主要内容n统计软件及描述性统计n回归分析n方差分析n多元统计分析统计软件及描述性统计SPSS统计软件非专业统计人员的首选统计软件SPSS采用类似EXCEL表格的方式输入与管理数据，数据接口较

3、为通用，能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程，完全可以满足非统计专业人士的工作需要。SPSS的功能n样本数据的描述和预处理；n假设检验(包括参数检验、非参数检验及其他检验);n方差分析n相关分析n回归分析n聚类分析n判别分析n因子分析n时间序列分析SPSS的窗口类型n数据编辑窗口n程序编辑窗口n输出窗口n简式输出窗口1、数据编辑窗口：（1）启动SPSS直接进入（2）文件新建数据文件 File/New/Data 2、程序编辑窗口：文件新建语句文件 File/New/Syntax3、输出窗口：现实统计方法运行输出的结果，对输出结果可以进行模块裁剪、编辑、

4、存档等n利用频数分析可以方便地对数据按组进行归纳整理，对变量的数据有一个整体上的认识。（1）建立数据文件：例）建立数据文件：例1.sav（2）选择统计方法：）选择统计方法：AnalyzeDescriptive StatisticsFrequencies，送入变量，点击确定，送入变量，点击确定（3）输出结果：）输出结果：例例1：对某大学：对某大学10名学生测量他们的血压名学生测量他们的血压x，得到如下数据，得到如下数据：120 120 120 134 128 102 130 132 126 126 频数分析其他：描述统计分析Descriptive等，图表SPSS统计图条图条图散点图散点图线图线

5、图直方图直方图饼图饼图面积图面积图箱式图箱式图正态正态Q-QQ-Q图图正态正态P-PP-P图图质量控制图质量控制图ParetoPareto图图自回归曲线图自回归曲线图高低图高低图交互相关图交互相关图序列图序列图频谱图频谱图误差线图误差线图统计图汇总n在对数据进行深入加工之前，在对数据进行深入加工之前，总应该对数据有所印象。总应该对数据有所印象。n可以借助于图形和简单的运算，可以借助于图形和简单的运算，来了解数据的一些特征。来了解数据的一些特征。n由于数据是从总体中产生的，由于数据是从总体中产生的，其特征也反映了总体的特征。其特征也反映了总体的特征。对数据的描述也是对其总体的对数据的描述也是

6、对其总体的一个近似的描述。一个近似的描述。一、定量变量的图表示一、定量变量的图表示: 1.直方图直方图n对于一个定量变量，比如某个地区对于一个定量变量，比如某个地区（地区（地区1）测量了）测量了163个高三男生的身个高三男生的身高高（S3height1.txt）。n用图形来表示这个数据，使人们能够用图形来表示这个数据，使人们能够看出这个数据的大体分布或看出这个数据的大体分布或“形状形状”的一个办法是画的一个办法是画直方图直方图(histogram)。n图图1就是利用这个数据由就是利用这个数据由SPSS软件所软件所画的直方图。画的直方图。图3.1 地区1高三男生身高的直方图200.0195.0

7、190.0185.0180.0175.0170.0165.0160.0155.0150.0Std. Dev（标准差）=10.91，Mean（均值）=170.9，N（人数）=163403020100该图的横坐标是身高区间，这里每一格代表该图的横坐标是身高区间，这里每一格代表5cm的身高范围（格子的身高范围（格子宽度因不同的数据性质或要求而定，这里的格子宽度为宽度因不同的数据性质或要求而定，这里的格子宽度为5cm），而），而纵坐标为各种身高区间的身高的频数。纵坐标为各种身高区间的身高的频数。直方图直方图2.盒型图盒型图n简单一些的是简单一些的是盒形图盒形图(boxplot，又称，又称箱图、箱线图

8、、盒子图箱图、箱线图、盒子图)。n图图2的左边一个是根据地区的左边一个是根据地区1高三男生高三男生的身高数据所绘的盒形图；其右边的的身高数据所绘的盒形图；其右边的图代表另一个地区（地区图代表另一个地区（地区2）的高三）的高三学生的身高。学生的身高。175163N =地区地区2地区1高三男生身高210200190180170160150140323259250248596158盒型图盒型图盒子的中间横线是数据的中位数盒子的中间横线是数据的中位数(median)，封闭盒子的上下两横线，封闭盒子的上下两横线（边）为上下四分位数（点）；按照（边）为上下四分位数（点）；按照SPSS的默认选项，如果所有的

9、默认选项，如果所有样本中的数目都在离四分位点样本中的数目都在离四分位点1.5倍盒子长度之内，则线的端点为倍盒子长度之内，则线的端点为最大和最小值，否则线长就是最大和最小值，否则线长就是1.5倍的盒子长度（盒子长度称为四倍的盒子长度（盒子长度称为四分位间距），在其外面的度量单独点出分位间距），在其外面的度量单独点出3.茎叶图茎叶图 n在直方图和盒形图中，很难恢复数据在直方图和盒形图中，很难恢复数据的原貌。而另一种图：的原貌。而另一种图：茎叶图茎叶图(stem-and-leaf plots)可以恢复数据可以恢复数据n以地区以地区1高三男生身高为例（图高三男生身高为例（图3），），茎叶图既展示了分布

10、形状又有原始数茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较据。它象一片带有茎的叶子。茎为较大位数的数字，叶为较小位数的数字。大位数的数字，叶为较小位数的数字。茎叶图茎叶图其中茎叶图中茎的单位为其中茎叶图中茎的单位为10cm，而叶子单位为，而叶子单位为1cm。比如，由于。比如，由于第一行茎为第一行茎为150cm，因此叶子中的九个数字，因此叶子中的九个数字001223344代表九个数代表九个数目目150、150、151、152、152、153、153、154、154cm等。每等。每行左边有一个频数（比如第一行有行左边有一个频数（比如第一行有9个数目，第二行有个数目，第二行有17

11、个等等）；个等等）；可以看出最长的一行为从可以看出最长的一行为从165cm到到169cm的一段（有的一段（有35个数）。个数）。4.散点图散点图 n数据会有两个变量，如美国男士和女数据会有两个变量，如美国男士和女士初婚年限数据（士初婚年限数据（marriage.txt）。）。n该数据描述了自该数据描述了自1900年到年到1998年男年男女第一次婚姻延续的时间。女第一次婚姻延续的时间。n这里年份是一个变量，婚姻延续时间这里年份是一个变量，婚姻延续时间是第二个变量。由于不可能将所有人是第二个变量。由于不可能将所有人的婚姻年限都给出来，所以每年就取的婚姻年限都给出来，所以每年就取了一个中间的值了一个

12、中间的值(中位数中位数)作为代表。作为代表。散点图散点图二、二、定性变量的图表示：定性变量的图表示： 1.饼图饼图n定性变量（或属性变量，分类变定性变量（或属性变量，分类变量）不能点出直方图、散点图或量）不能点出直方图、散点图或茎叶图，但可以描绘出它们各类茎叶图，但可以描绘出它们各类的比例。的比例。n下面用下面用SPSS绘的图绘的图5（饼图，（饼图，pie chart）表示了说世界各种主要语表示了说世界各种主要语言人数的比例言人数的比例.饼图饼图2.条形图条形图n而用同样数据画的图而用同样数据画的图6称为称为条形条形图（图（bar chart）。n从每一条可以看出讲各种语言从每一条可以看出讲

13、各种语言的实际人数，而且分别给出了的实际人数，而且分别给出了每个语种中母语和日常使用的每个语种中母语和日常使用的人数（在图中并排放置）。条人数（在图中并排放置）。条形图显示比例不如饼图直观。形图显示比例不如饼图直观。条形图条形图三、统计量三、统计量n可用少量所谓汇总统计量或可用少量所谓汇总统计量或概括概括统计量统计量(summary statistic)来描来描述定量变量的数据。述定量变量的数据。n这些数字是从样本数据得来的，这些数字是从样本数据得来的，因而也是样本的函数，因而也是样本的函数，n任何样本的函数，只要不包含总任何样本的函数，只要不包含总体的未知参数，都称为体的未知参数，都称为统计

14、量统计量(statistic)。n样本的随机性决定统计量的随机样本的随机性决定统计量的随机性（统计量也是随机变量）性（统计量也是随机变量）1. 数据的数据的“位置位置”-集中程度集中程度数据有位置吗？数据有位置吗？这里三个数据的位置一样吗？这里三个数据的位置一样吗？n“位置位置”一般是关于数据中某变量一般是关于数据中某变量观测值的观测值的“中心位置中心位置”或者数据或者数据分布的中心（分布的中心（center或或center tendency）。）。n和这种和这种“位置位置”有关的统计量就有关的统计量就称为称为位置统计量位置统计量(location statistic)。n位置统计量当然不一定

15、都是描述位置统计量当然不一定都是描述“中心中心”了，比如后面要讲的了，比如后面要讲的k百百分位数（或分位数（或k分位数）。分位数）。n最常用的位置统计量：最常用的位置统计量：算术平均数算术平均数，它在，它在统计中叫做均值统计中叫做均值(mean)；严格地说叫做样；严格地说叫做样本均值本均值(sample mean)，以区别于总体均，以区别于总体均值。值。n如果记样本中的观测值为如果记样本中的观测值为x1,xn，则样本，则样本均值定义为均值定义为n(样本样本)中位数中位数(median) 是数据按照大小排列之是数据按照大小排列之后位于中间的那个数后位于中间的那个数(如如果样本量为奇数果样本量为奇

16、数)，或者，或者中间两个数目的平均中间两个数目的平均(如如果样本量为偶数果样本量为偶数)。n由于中位数不易被极端由于中位数不易被极端值影响，所以中位数比值影响，所以中位数比均值稳健均值稳健(robust)。n上下四分位数（或分别称为第一四分位数和第三四分位数，first quantile, third quantile）则分别位于（按大小排列的）数据的上下四分之一的地方。n一般地还称上四分位数为一般地还称上四分位数为75百分位数百分位数（75 pecentile，有，有75的观测值小于的观测值小于它），下四分位数为它），下四分位数为25百分位数百分位数（有（有25的观测值小于它）。的观测值小于

17、它）。n一般地，一般地，k百分位数百分位数（k-pecentile）意）意味着有味着有k的观测值小于它。的观测值小于它。n如果令如果令a a=k%，则则k百分位数也称为百分位数也称为a a分位数分位数(a a-quantile)。n样本中出现最多的数目，称为样本中出现最多的数目，称为众数众数(mode)2. 数据的数据的“尺度尺度”-离散程度离散程度n这两个数据“胖瘦”一样吗？n从前面两个高三男生身高数据的盒从前面两个高三男生身高数据的盒形图。左边的数据平均要高些，但形图。左边的数据平均要高些，但右边的数据散布范围要小得多。右边的数据散布范围要小得多。175163N =地区地区2地区1高三男生

18、身高210200190180170160150140323259250248596158统计中有许多尺度统计量。一般来说，数据越分散，尺度统计量的值越大。n极差极差(range)；就是极大值和极小值；就是极大值和极小值之间的差。之间的差。n前面两个高三男生身高数据的极差分前面两个高三男生身高数据的极差分别为别为50cm和和32cm。n盒形图盒子的长度为两个四分位数之盒形图盒子的长度为两个四分位数之差，称为差，称为四分位数极差或四分位间距四分位数极差或四分位间距(interquantile range)；它描述了中；它描述了中间半数观测值的散布情况。极差和四间半数观测值的散布情况。极差和四分位极

19、差实际上各自只依赖于两个值，分位极差实际上各自只依赖于两个值，信息量太少。信息量太少。n另一个常用的尺度统计量为（样本）另一个常用的尺度统计量为（样本）标准标准差差(standard deviation)。度量样本中各数。度量样本中各数值到均值距离的一种平均。值到均值距离的一种平均。n标准差实际上是标准差实际上是方差方差(variance)的平方根。的平方根。如果记样本中的观测值为如果记样本中的观测值为x1,xn，则样本，则样本方差为方差为两个均值一样，但右边的要两个均值一样，但右边的要“胖胖”些，方差为左边的一些，方差为左边的一倍倍三、统计中几个重要的概率分布n1.二项分布：用二项分布：用B

20、(n,p)或或Bin(n,p)表示表示n它基于它基于可重复可重复的有的有两两结果的相同结果的相同独立独立试试验（每次试验成功概率相同）的分布验（每次试验成功概率相同）的分布n例如抛硬币。例如抛硬币。n每个进入某商场的顾客是否购买某商品每个进入某商场的顾客是否购买某商品n每个被调查者是否认可某种产品每个被调查者是否认可某种产品n每一个新出婴儿的性别。每一个新出婴儿的性别。n概率公式：概率公式：( )(1),0,1,.,kn knp kppknk 这里!()!nnkk nk 为二项式系数，或记为knCp(k)表示表示n次次Bernoulli试验中成功试验中成功k次次的概率，的概率，p为每次试验成功

21、的概率。为每次试验成功的概率。0.000.200.400.60概率概率p= 0 .1p= 0 .1p= 0 .2p= 0 .2p= 0 .3p= 0 .3p= 0 .4p= 0 .4p= 0 .5p= 0 .5p= 0 .6p= 0 .6p= 0 .7p= 0 .7p= 0 .8p= 0 .8p= 0 .9p= 0 .90.000.200.400.60概率概率012345值0.000.200.400.60概率概率012345值012345值图图4.1 九个二项分布九个二项分布B(5,p) (p0.1到到0.9)的概率分布图的概率分布图 n另一个常用离散分布是另一个常用离散分布是Poisson分

22、布分布（翻译成（翻译成“泊松分布泊松分布”或或“普阿松普阿松分布分布”）。）。n它可以认为是衡量某种事件在一定它可以认为是衡量某种事件在一定期间出现的数目的概率。期间出现的数目的概率。n比如说在一定时间内顾客的人数、比如说在一定时间内顾客的人数、打入电话总机电话的个数、放射性打入电话总机电话的个数、放射性物质放射出来并到达某区域的粒子物质放射出来并到达某区域的粒子数等等。数等等。n参数为参数为l l的的Poisson分布变量的概率分布变量的概率分布为（分布为（p(k)表示表示Poisson变量等于变量等于k的概率）的概率）( ),0,1,2,.!kP kekkllk20151050概率.3.2

23、.10.0Poisson 分布P(10)P(6)P(3)参数为参数为3、6、10的的Poisson分布分布（只标出了（只标出了20之内的部分）之内的部分）离散型随机变量的数学期望(expected value)1.离散型随机变量X的所有可能取值xi与其取相对应的概率pi乘积之和2.描述离散型随机变量取值的集中程度3.记为或E(X)4.计算公式为离散型随机变量的方差(variance)1.随机变量X的每一个取值与期望值的离差平方和的数学期望，记为 2 或D(X)2.描述离散型随机变量取值的分散程度3.计算公式为4.方差的平方根称为标准差，记为或离散型数学期望和方差 (例题分析) 次品数X =

24、 xi0123概率P(X=xi) pi0.750.120.080.05a 连续变量的分布连续变量的分布n取连续值的变量，如高度、长度、重量、取连续值的变量，如高度、长度、重量、时间、距离等等；它们被称为连续变量时间、距离等等；它们被称为连续变量(continuous variable)。n换言之，一个随机变量如果能够在一区换言之，一个随机变量如果能够在一区间（无论这个区间多么小）内取任何值，间（无论这个区间多么小）内取任何值，则该变量称为在此区间内是连续的，其则该变量称为在此区间内是连续的，其分布称为连续型概率分布。分布称为连续型概率分布。n它们的概率分布很难准确地用离散变量它们的概率分布很难

25、准确地用离散变量概率的条形图表示。概率的条形图表示。正态分布正态分布n在市场上的精制盐很多是一公斤袋装，在市场上的精制盐很多是一公斤袋装，上面标有上面标有“净含量净含量1kg”的字样。但当你的字样。但当你用稍微精确一些的天平称那些袋装盐的用稍微精确一些的天平称那些袋装盐的重量时，会发现有些可能会重些，有些重量时，会发现有些可能会重些，有些可能会轻些；但都是在可能会轻些；但都是在1kg左右。多数左右。多数离离1kg不远，离不远，离1kg越近就越可能出现，越近就越可能出现，离离1kg越远就越不可能。越远就越不可能。n一般认为这种重量分布近似地服从最常一般认为这种重量分布近似地服从最常用的用的正态

26、分布正态分布(normal distribution，又，又叫叫高斯分布，高斯分布，Gaussian distribution)。n近似地服从正态分布的变量很常近似地服从正态分布的变量很常见，象测量误差、商品的重量或见，象测量误差、商品的重量或尺寸、某年龄人群的身高和体重尺寸、某年龄人群的身高和体重等等。等等。n在一定条件下，许多不是正态分在一定条件下，许多不是正态分布的样本均值在样本量很大时，布的样本均值在样本量很大时，也可用正态分布来近似。也可用正态分布来近似。n正态分布的密度曲线是一个对称的正态分布的密度曲线是一个对称的钟型曲线（最高点在均值处）。正钟型曲线（最高点在均值处）。正态分布也

27、是一族分布，各种正态分态分布也是一族分布，各种正态分布根据它们的均值和标准差不同而布根据它们的均值和标准差不同而有区别。有区别。n一个正态分布用一个正态分布用N( , )表示；其中表示；其中为均值，而为均值，而为标准差。也常用为标准差。也常用N( , 2 2)来表示，这里来表示，这里 2 2为方差（标为方差（标准差的平方）。准差的平方）。n标准差为标准差为1的正态分布的正态分布N(0, 1)称为称为标准正标准正态分布态分布(standard normal distribution)。n标准正态分布的密度函数用标准正态分布的密度函数用f f(x)表示。表示。n任何具有正态分布任何具有正态分布

28、N( , 2 2)的随机变量的随机变量X都可以用简单的变换：都可以用简单的变换： Z=(X-)/)/，成为标准正态随机变量。成为标准正态随机变量。 -4-20240.00.20.40.60.8N(0,1)N(-2,0.5)两条正态分布的密度曲线。左边是两条正态分布的密度曲线。左边是N(-2,0.5)分布，右边是分布，右边是N(0, 1)分布分布 n正态分布随机变量正态分布随机变量 X 的密度函数的密度函数曲线呈中间高两边低、对称的钟形，曲线呈中间高两边低、对称的钟形，期望（均值）和方差分别为期望（均值）和方差分别为2,EXDXn68%的数值落在距均值左右1 个标准差的范围内，即 P X +

29、= 0.68；n95%的数值落在距均值左右2 个标准差的范围内，即 P 2 X + 2 = 0.95；n99.7%的数值落在距均值左右3 个标准差的范围内，即 P 3 X + 3 = 0.997.n例例4(noodle.txt)某厂家生产的挂面包某厂家生产的挂面包装上写明装上写明“净含量净含量450克克”。在用天。在用天平称量了商场中的平称量了商场中的48包挂面之后，包挂面之后，得到样本量为得到样本量为48的关于挂面重量的关于挂面重量（单位：克）的一个样本：（单位：克）的一个样本：参数检验与置信区间5.00a提出原假设：提出原假设：选择统计方法：选择统计方法：AnalyzeMeansOne-

30、simple T test，在底部在底部Test value框输入检验值框输入检验值450具体判断：具体判断：根据t分布计算出显著性概率（在许多书中称为P值），SPSS中为sig. 对于给定的显著性水平，若sig.0.05，接受，接受H0；平均差平均差95%的置信区间为（的置信区间为（-2.5876,0.6084），则均值的），则均值的95%置信区间为置信区间为（450 -2.5876,450+0.6084 ）均值比较Compare Means菜单详解n1Means过程求分类变量的综合描述统计量，目的在于比较n2One-Samples T Test过程检验单个变量的均值是否与给定的常数之间存在差异。n3Independent-Samples T Test过程检验两个不相关的样本来自具有相同均值的总体，检验两个不相关的样本来自具有相同均值的总体，例如想知道购买某产品的顾客与不购买该产品的顾例如想知道购买某产品的顾客与不购买该产品的顾客的平均收入是否相同。客的平均收入是否相同。n4Paired-Samples T Test过程检验两个相关的样本是否来自具有相同均值的总体。常用与被观测对象在实验前后是否有差异。n5One-Way ANOVA过程单因素方差分析，在下节介绍。

展开阅读全文