1、描述性数据分析假设检验主成分分析线性回归模型1感谢你的欣赏2019-10-14直方图、条形图概括统计量(平均数、中位数、众数、百分位数和四分位数、方差和标准差、极值与四分位间距、变异系数、相关系数、学生氏化)2感谢你的欣赏2019-10-145.,10 (:10 N),30:例 在相同的发射条件下 测量分钟内 某种型号火箭引擎的推动力单位现观测到如下个数据999.1 1003.21002.1 999.2 989.7 1006.7 1012.3 996.4 1000.2 995.3 1008.7 993.4 998.1 997.9 1003.1 1002.6 1001.8 996.5 992.8
2、 1006.5 1004.5 1000.3 1014.5989 998.6 1002.9 49.99 3 994.7 1007.6 1000.9 3感谢你的欣赏2019-10-14 序号 组 频数 频率 1(987,990 2 0.067 2(990,993 1 0.038 3(993,996 3 0.100 4(996,999 5 0.167 5(999,1002 7 0.233 6(1002,1005 6 0.200 7(1005,1008 3 0.100 8(1008,1011 1 0.033 9(1011,1014 1 0.033 10(1014,1017 1 0.0331,(jjaa
3、jnjfj4感谢你的欣赏2019-10-145感谢你的欣赏2019-10-14例:一分钟内碰撞某宇宙装置的宇宙粒子,连续记录40分钟,得如右数据:宇宙粒子个数 频数 频率 0 13 0.325 1 13 0.325 2 8 0.200 3 5 0.125 4 1 0.025jjnjf6感谢你的欣赏2019-10-141313851012347感谢你的欣赏2019-10-141122121(,).1:;1:();11:().1nniiniiniiXXXXXnSXXnSXXn设是取自总体 的一个样样本均值样本方差样本标准本差它反映了它反映了总体均值总体均值的信息的信息它反映了总体它反映了总体方差的
4、信息方差的信息8感谢你的欣赏2019-10-14111222211:1:1 ()1,11 =(),=()nkkiinkkiinnniniiiAXnMXXnXAMSXXSXXnnkk 为样本 阶原点矩样本二阶样本 阶原点矩样本 阶中心心矩中矩记为它反映了总体它反映了总体k 阶矩的信息阶矩的信息它反映了总体它反映了总体k 阶阶中心矩的信息中心矩的信息9感谢你的欣赏2019-10-1412221111222111;11()();1111,2,1m()1,2,11(),=()niinniiiinkkiinkkiinnniniiixxnsxxsxxnnaxknxxknsxxsxxnn上述量的观测值 10
5、感谢你的欣赏2019-10-14在正态分布中代表标准差,代表均值x=即为图像的对称轴三原则即为数值分布在(,+)中的概率为0.6826数值分布在(2,+2)中的概率为0.9544数值分布在(3,+3)中的概率为0.9974如果在一组数据中,数值落在样本均值的三倍标准差以外,我们认为该数据是异常值,需要剔除。如今年的全国赛A题 11感谢你的欣赏2019-10-1412感谢你的欣赏2019-10-14 当0H成立时,最终结果为拒绝0H,犯第一类错误(弃真);当0H不成立时,最终结果为接受0H,犯第二类错误(取伪);控制犯第一类错误的概率(显著性水平);希 望 通 过),(1nXX 给 出 一 种
6、决 策),(011成立HWXXPn 13感谢你的欣赏2019-10-14 检验带来的后果 根据样本观测值所得的结论 当11),(Wxxn,接受0H 当11),(Wxxn,拒绝0H 总体分布的实际情况(未知)0H成立 判断正确 犯第 I 类错误 0H不成立 犯第 II 类错误 判断正确 14感谢你的欣赏2019-10-1415感谢你的欣赏2019-10-14断言:在座的各位平均身高是170cm。要检验这句话正确与否,我们可以采用单正态总体的均值检验。16感谢你的欣赏2019-10-1417感谢你的欣赏2019-10-1418感谢你的欣赏2019-10-14 列联表独立性检验是卡方拟合优度检验的一
7、个特例,人们将两个或多个特征分类数据即交叉分类数据以表格形式列出即列联表,从而利用这些数据用来研究两种或多种分类之间是否有某种联系。19感谢你的欣赏2019-10-14 1976-1977 年美国佛罗里达州29 个地区发生凶杀案中被告人判死刑的情况,白人参与凶杀案中被判死刑的比例要比黑人参与凶杀案中被判死刑的比例要高,那是不是在美国社会就不存在凶杀案判罚上的种族问题呢?20感谢你的欣赏2019-10-14 在凶杀案的判罚上,不仅仅要看被告人的肤色,还要看被害人的肤色。我们把情况分为四种情况:分别为白人杀害黑人,黑人杀害黑人,白人杀害白人,黑人杀害白人,一般来说后两种情况被告人被判死刑的概率要比
8、前两种情况大得多,这是美国社会的种族歧视在其中所起的作用。被害人判刑结果 死刑 非死刑 白人 30 184 黑人 6 106 那么被害人的肤色的不同对死刑的判罚有没有影响呢?21感谢你的欣赏2019-10-14主要用于变量降维,主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。PCA的数学定义是:一个正交化线性变换,把数据变换到一个新的坐标系统中,使得这一数据的任何投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推22感谢你的欣赏2019-10-1423感谢你的欣赏2019-10
9、-1424感谢你的欣赏2019-10-14 函数关系表达的是变量之间数函数关系表达的是变量之间数量上的确定性关系量上的确定性关系,设设x x为自变量为自变量,y,y为为因变量因变量,则则x x与与y y之间的函数关系为之间的函数关系为:()yf x例例 1:某保险公司承保汽车:某保险公司承保汽车x万辆,每辆保费万辆,每辆保费为为 1000 元,如果记保险公司的承保总收入为元,如果记保险公司的承保总收入为y,则,则y与与x之间表现为一种确定性的关系之间表现为一种确定性的关系:xy1000 25感谢你的欣赏2019-10-1426感谢你的欣赏2019-10-14yx0 0yx0 0()yf x()
10、Yf X27感谢你的欣赏2019-10-14例例 2 城镇居民的收入与消费支出之间有很大的关城镇居民的收入与消费支出之间有很大的关联,居民的收入提高了,消费也随之潇洒,但居民的联,居民的收入提高了,消费也随之潇洒,但居民的收入不能完全确定消费,人们的消费支出受到不同年收入不能完全确定消费,人们的消费支出受到不同年龄段的消费习惯的影响,也受到不同消费理念的影响。龄段的消费习惯的影响,也受到不同消费理念的影响。因此居民的收入因此居民的收入x与消费支出与消费支出y就呈现出某种不确定就呈现出某种不确定性。性。我们将上海市城镇居民可支配收入与支出的数据我们将上海市城镇居民可支配收入与支出的数据(1985
11、 年年2002 年)用散点图表示,可以发现居民的年)用散点图表示,可以发现居民的收入收入x与消费支出与消费支出y基本上呈现线性关系,但并不完基本上呈现线性关系,但并不完全在一条直线上。全在一条直线上。附数据与图形。附数据与图形。28感谢你的欣赏2019-10-14年份19851986198719881989199019911992199319941995199619971998199920002001总平均1075.2 1293.24 1436.88 1723.441975.2 2181.6 2485.56 3009.124277.4 5868.48 7171.91 8158.748438.8
12、98773.1 10931.6 11718.01 12883人均消费性支出991.8 1170.24 1282.08 1648.44 1811.88 1936.2 2166.96 2509.44 3530.04 4668.96 5828.12 6763.126819.94 6866.41 8247.698868.19933629感谢你的欣赏2019-10-1430感谢你的欣赏2019-10-14年份19851986198719881989199019911992199319941995199619971998199920002001总平均1075.2 1293.24 1436.88 1723.
13、441975.2 2181.6 2485.56 3009.124277.4 5868.48 7171.91 8158.748438.898773.1 10931.6 11718.01 12883人均消费性支出991.8 1170.24 1282.08 1648.44 1811.88 1936.2 2166.96 2509.44 3530.04 4668.96 5828.12 6763.126819.94 6866.41 8247.698868.199336 一元一元线线性性回归回归方程方程为为:35673.0 xy 31感谢你的欣赏2019-10-14 “回归”名称的由来,统计史上一般归功于英
14、国生物学家兼统计学家F.高尔顿(F.Galton,1822-1911)及他的学生现代统计学家的奠基者之一K.皮尔逊(K.Pearson).32感谢你的欣赏2019-10-1468x 69y 英寸 33.73 0.516yx33感谢你的欣赏2019-10-14尽管“回归”这个名称的由来具有其尽管“回归”这个名称的由来具有其特定的含义,人们在研究大量的问题中变特定的含义,人们在研究大量的问题中变量量x与与y之间的关系并不总是具有“回归”之间的关系并不总是具有“回归”的含义,但用这个名词来研究的含义,但用这个名词来研究x与与y之间之间的统计关系也是对高尔顿这位伟大的统计的统计关系也是对高尔顿这位伟大
15、的统计学家的纪念。学家的纪念。34感谢你的欣赏2019-10-14回归方程的假设检验包含两个内容:(一)检验变量之间的总体线性关系是否显著,即检验自变量与应变量之间的关系能否用一个适当的回归模型来表示。(二)检验回归参数,即检验回归模型中每一自变量对因变量对影响程度是否显著。35感谢你的欣赏2019-10-14 这两种检验在次序上不能颠倒的,因为只有当回归模型所代表的变量之间的线性关系通过检验后,进一步检验模型中的个别回归参数才有意义。如果某个回归模型本身是个错误的模型,那就没有必要再去检验该模型中的各个回归参数了。虽然这两种检验在一元回归分析中是等价的,但在多元分析里却有不同的意义,应注意区别。36感谢你的欣赏2019-10-14F-检验 t检验 相关系数检验后期将做详细介绍37感谢你的欣赏2019-10-14