1、引言统计漫谈什么是统计呢?什么是统计呢?报表报表?数字数字?你觉得你们需要统计吗?你觉得你们需要统计吗?为什么为什么?统计的定义统计的定义用以收集数据、分析用以收集数据、分析数据和由数据得出结数据和由数据得出结论的一组概念、原则论的一组概念、原则和方法和方法.什么地方统计用得上呢?什么地方统计用得上呢?任何领域任何领域.运用统计的领域包括运用统计的领域包括(1)精算精算 农业农业 动物学动物学 人类学人类学 考古学考古学 审计学审计学 晶体学晶体学 人口统计学人口统计学 牙医学牙医学 生态学生态学 经济计量学经济计量学 教育学教育学 选举预测和策划选举预测和策划 工程工程 流行病学流行病学运用
2、统计的领域包括运用统计的领域包括(2)金融金融 水产渔业研究水产渔业研究 遗传学遗传学 地理学地理学 地质学地质学 历史研究历史研究 人类遗传学人类遗传学 水文学水文学 工业工业 法律法律 语言学语言学 文学文学 劳动力计划劳动力计划 管理科学管理科学 市场营销学市场营销学 医学诊断医学诊断运用统计的领域包括运用统计的领域包括(3)气象学气象学 军事科学军事科学 核材料安全管理核材料安全管理 眼科学眼科学 制药学制药学 物理学物理学 政治学政治学 心理学心理学 心理物理学心理物理学 质量控制质量控制 宗教研究宗教研究 社会学社会学 调查抽样调查抽样 分类学分类学 气象改善气象改善 搏采,等等搏
3、采,等等.统计历史人物统计历史人物 Edmond Halley(哈雷哈雷)(1656-1742)Leonhard Euler(欧拉欧拉)(1707-1783)Thomas Robert Malthus(马尔萨斯马尔萨斯)(1766-1834)Ronald Aylmer Fisher(费歇费歇)(1890-1962),Moivre(棣美佛棣美佛)(1667-1754)Pierre Simon Laplace(拉普拉斯拉普拉斯)(1749-1827)Jacob Bernoulli(伯努利伯努利)(1654-1705)Thomas Bayes(贝叶斯贝叶斯)(1702-1761),Adrien Ma
4、rie Legendre(勒让德勒让德)(1752-1833)Friedrich Gauss(高斯高斯)(1777-1855)Johann Gregor Mendel(孟德尔孟德尔)(1822-1884)Karl Pearson(皮尔森皮尔森)(1857-1936)William Feller(费勒费勒)(1906-1970).Jerzy Neyman(1894-1981)Egon Sharpe Pearson(1895-1980)你想过下面的问题吗?你想过下面的问题吗?当你买了一台电视时,被告知三年内可以免当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多费保修。你
5、想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?是损失。到底这个保修期是怎样决定的呢?在同一年级中,同样统计学的课程可能由一在同一年级中,同样统计学的课程可能由一些不同教师讲授。教师讲课方式当然不一样,些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同考试题目也不一定相同。那么如何比较不同班级的统计学成绩呢?班级的统计学成绩呢?大学排名是一个非常敏感的问题。不同的机大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、构得出不同的结果;各自都说自己是客
6、观、公正和有道理的。到底如何理解这些不同的公正和有道理的。到底如何理解这些不同的结果呢?结果呢?你想过下面的问题吗?你想过下面的问题吗?任何公司都有一个信用问题。当然,在这任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢?来判断一个公司的信用等级呢?我国东部和西部的概念是一个比较笼统的我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?来把各省,或
7、各市县甚至村进行分类呢?疾病传播时,如何能够通过感染者入院前疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模后的各种因素得到一个疾病传染方式的模型呢?型呢?你想过下面的问题吗?你想过下面的问题吗?如何通过大众调查来得到性别、年龄、如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢?物(比如商品或政策)的态度的关系呢?一个从来没有研究过红楼梦的统计学家一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢?一段
8、开始就不是曹雪芹的手笔了呢?如何才能够客观地得到某个电视节目的如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?收视率,以确定广告的价格是否合理呢?你如何理解下面说法?你如何理解下面说法?“明天降水概率为明天降水概率为4040”“我冬天去新加坡度假的概率为我冬天去新加坡度假的概率为1010”“该节目收视率是该节目收视率是30%”30%”“调查结果表明调查结果表明20%20%的观众喜欢某节目的观众喜欢某节目”“抽样调查结果的误差为抽样调查结果的误差为3%”3%”“支持率的支持率的9595置信区间为置信区间为(25%,30%)”(25%,30%)”“某学校排名第一某学校排名第一
9、”“某县是贫困县某县是贫困县”你如何理解下面说法?你如何理解下面说法?“某国的综合竞争力排名第某国的综合竞争力排名第4343位位”“该国家属于发展中国家该国家属于发展中国家”“该药品疗效该药品疗效99%”99%”“该国贫富差距大该国贫富差距大”“这个县收入比那个县高这个县收入比那个县高”“该结果统计显著该结果统计显著”“消费价格指数为消费价格指数为120%”120%”“他的血压已经正常了他的血压已经正常了”可以想象出的统计应用例子可以想象出的统计应用例子 如何确定观众如何确定观众/听众是否忠实于某节目听众是否忠实于某节目(专栏专栏)如何对电视节目排名次如何对电视节目排名次 什么因素影响一个节目
10、的收视率什么因素影响一个节目的收视率 如何按照各种不同环境估计某商店的顾客人数如何按照各种不同环境估计某商店的顾客人数 如何按照各种指标评价雇员如何按照各种指标评价雇员 如何把地区如何把地区(市县镇等市县镇等)按照各种指标分类按照各种指标分类 如何确定红楼梦第几回不是曹雪芹所写如何确定红楼梦第几回不是曹雪芹所写 如何确定一个产品的可靠性如何确定一个产品的可靠性 如何进行偏差较少的民意调查如何进行偏差较少的民意调查 如何根据一些财务数据发现漏税的嫌疑单位如何根据一些财务数据发现漏税的嫌疑单位?你相信统计结果吗?你相信统计结果吗?数据可以有误或作假数据可以有误或作假统计方法(有意或无意)使统计方法
11、(有意或无意)使用不当可以误导。有低级误用不当可以误导。有低级误导和高级误导。导和高级误导。常识判断和直觉是重要的常识判断和直觉是重要的关于美国选举的两个例子关于美国选举的两个例子(1)谁会在谁会在1936选举中获胜选举中获胜?Alf London还还是是 F.D.R.(罗斯福罗斯福)?Literary Digest(文摘文摘)送出一千万份问送出一千万份问卷卷(返回二百四十万份返回二百四十万份)后后,预测预测London 会赢会赢.而而Gallop(盖洛普盖洛普)只问了只问了5000人说人说 Roosevelt(罗斯福罗斯福)会赢会赢.最后罗斯福和盖洛普都赢了最后罗斯福和盖洛普都赢了.文摘倒闭
12、文摘倒闭了了.谁会在谁会在1948选举中获胜选举中获胜?Thomas Dewey还是还是Harry Truman(杜鲁门杜鲁门)?Crossley,Gallop(盖洛普盖洛普),Roper所有都所有都预测预测Dewey 会赢会赢(每个机构用了每个机构用了5000个个问卷问卷).最后最后(包括盖洛普包括盖洛普)他们都输了他们都输了,而杜鲁而杜鲁门赢了门赢了.关于美国选举的两个例子关于美国选举的两个例子(2)统计的一些做法统计的一些做法 统计可以指导我们收集数据统计可以指导我们收集数据.当拥有来自一些变量当拥有来自一些变量(指标指标)的数据或记录的数据或记录,但缺乏模型来描述这些变量之间关系的情但
13、缺乏模型来描述这些变量之间关系的情况下况下,可用统计方法建立模型可用统计方法建立模型.在有了一定的模型时在有了一定的模型时,统计可以确定手中数统计可以确定手中数据是否令人信服地支持某种论点据是否令人信服地支持某种论点.模型也用模型也用来对未来进行预测来对未来进行预测.统计直观的图表展示统计直观的图表展示,可以使各个领域的专可以使各个领域的专家容易理解家容易理解中国统计的独特历史环境中国统计的独特历史环境中国统计过去分为中国统计过去分为“统计统计学学”(”(文科的列宁主义统计文科的列宁主义统计)和和“数理统计数理统计”(”(数学类的数学类的国际意义上的统计国际意义上的统计)国内一些学者把统计称为
14、是经济学科的国内一些学者把统计称为是经济学科的一部分,则是中国特有的与前苏联关联一部分,则是中国特有的与前苏联关联的国情所造成;读者可以从苏联大百的国情所造成;读者可以从苏联大百科全书的统计学条款得到答案。科全书的统计学条款得到答案。但前苏联的经济学中的统计学概念是其但前苏联的经济学中的统计学概念是其意识形态和计划经济体系的产物,其模意识形态和计划经济体系的产物,其模型多属于小学数学水平,很难称为数学型多属于小学数学水平,很难称为数学模型。这与现代经济学所需要的大量的模型。这与现代经济学所需要的大量的统计和数学形成鲜明对照统计和数学形成鲜明对照.前苏联式的前苏联式的“统计学统计学”不是目前国际
15、流不是目前国际流行意义上的统计学或统计学的分支。行意义上的统计学或统计学的分支。有人说,我们应该学有人说,我们应该学“经济经济统计统计”、“管理统计管理统计”等等。等等。可以说,我们所学的是可以说,我们所学的是“一一加一等于二加一等于二”,而作为统计,而作为统计的个别应用是的个别应用是“一个苹果加一个苹果加一个苹果等于两个苹果一个苹果等于两个苹果”。难道苹果换成香蕉就不知道难道苹果换成香蕉就不知道该怎么办了吗?该怎么办了吗?统计的内容和需要的知识统计的内容和需要的知识数学的几乎所有内容数学的几乎所有内容(不一定事先知道需不一定事先知道需要什么要什么)用计算机做统计计算用计算机做统计计算其他其他
16、(对象对象)领域的知领域的知识识数学的重要性数学的重要性真正严格的逻辑仅存在于数学之中,真正严格的逻辑仅存在于数学之中,只能够从学习数学中获得。(哲学,只能够从学习数学中获得。(哲学,法律?)法律?)数学的逻辑服务于现代理性社会的所数学的逻辑服务于现代理性社会的所有方面。(例如法律)有方面。(例如法律)在一定的公理系统下,纯粹数学是唯在一定的公理系统下,纯粹数学是唯一可以说得出绝对是非的世界。一可以说得出绝对是非的世界。为什么人们对数学家的印象是为什么人们对数学家的印象是“呆呆”?(世界并不是完美的)(世界并不是完美的)统计和数学的区别统计和数学的区别数学思维是以演绎为主数学思维是以演绎为主统
17、计思维是以归纳为主统计思维是以归纳为主,兼有兼有演绎演绎统计各领域利用几乎所有存统计各领域利用几乎所有存在的数学内容在的数学内容.但统计本身的数学是为具体但统计本身的数学是为具体目标服务的目标服务的,自己一般不形成自己一般不形成数学体系数学体系计算机的重要性计算机的重要性由于统计和数据打交道由于统计和数据打交道,没有没有计算机的发展统计就没有前计算机的发展统计就没有前途途.计算机和统计的发展相辅相计算机和统计的发展相辅相成成数据和模型的关系数据和模型的关系 作为根据的数据作为根据的数据(比如各地人均比如各地人均GDP,各各种资源种资源,自然条件等和航空旅客人数自然条件等和航空旅客人数)基于数据
18、建立模型基于数据建立模型(回归模型回归模型)模型用来指导未来模型用来指导未来,预测未来预测未来(某城市某城市GDP达到某水平达到某水平,是否需要建立或扩建是否需要建立或扩建机场等决策机场等决策)模型随时要根据新的数据来改进模型随时要根据新的数据来改进(新的新的飞机飞机,新的消费理念新的消费理念,新的旅游景点等新的旅游景点等)没有完美的模型没有完美的模型 没有无误差的数据没有无误差的数据统计思维统计思维类似于物理学,统类似于物理学,统计在否定中发展计在否定中发展统计的一个重要但又往统计的一个重要但又往往不易为人所理解的特往不易为人所理解的特点是统计从来不绝对地点是统计从来不绝对地说说“是是”或者
19、或者“不是不是”。统计只能够说可能,而统计只能够说可能,而且往往提供某事可能发且往往提供某事可能发生的概率。生的概率。是非是人类是非是人类社会的产物社会的产物 大灰狼吃羊犯错误了吗?大灰狼吃羊犯错误了吗?人类社会之外的自然界有是非吗?人类社会之外的自然界有是非吗?人类社会的人类社会的“是非是非”是一成不变的吗?是一成不变的吗?统计只说可能性是实际世统计只说可能性是实际世界的真实体现。真实世界界的真实体现。真实世界充满了不确定性。充满了不确定性。从某种意义来说,生活中从某种意义来说,生活中唯一确定的事情就是其不唯一确定的事情就是其不确定性。确定性。正是不确定性使得生活充正是不确定性使得生活充满了
20、魅力和迷人的色彩。满了魅力和迷人的色彩。有多少人会享受其未来每有多少人会享受其未来每一时刻全部已经确定了的一时刻全部已经确定了的世界呢?世界呢?我们肩膀上长着自己的脑袋我们可以充分运用我们自己的逻辑思维我们需要习惯逆向思维方式让我们没有任何约束地看待世界上的任何问题这样,世界就不会停滞,就会更让人能够接受两个简单的两个简单的数理统计例子数理统计例子 考试分数的考试分数的t-检验之例检验之例 假定有两个班级进行考试。假定有两个班级进行考试。从第一个班抽取从第一个班抽取2个观测值的一个样本,个观测值的一个样本,分数为(数据分数为(数据1)(n=2):-100,-300分分(样本均值样本均值-200
21、分分)从第二个班抽取从第二个班抽取10个观测值的样本,个观测值的样本,分数为(数据分数为(数据2)(n=10):100,100,100,100,100,100,99,99,99,99(样本均值(样本均值99.6分)分)哪个班平均成绩更接近哪个班平均成绩更接近100分?分?考试分数的考试分数的t-检验之例检验之例 H0:m=100 对对 Ha:m100(假定分数可以多于(假定分数可以多于100)数据数据1(n=2):-100,-300分分(样本均值样本均值-200分分)t=-3,df=1,p-value=0.1024 结论:在水平结论:在水平a=0.1下接受这下接受这-100分和分和-300分所
22、代分所代表的总体的均值为表的总体的均值为100的零假设(你同意吗?)。的零假设(你同意吗?)。数据数据2(n=10):100,100,100,100,100,100,99,99,99,99(样本均值(样本均值99.6分)分)t=-2.4495,df=9,p-value=0.0184 结论:在水平结论:在水平a=0.05下拒绝由这六个下拒绝由这六个100分四个分四个99分所代表的总体均值为分所代表的总体均值为100的零假设。的零假设。假设检验的企图是否定零假假设检验的企图是否定零假设设(H0).何时能说何时能说“接受零假设接受零假设”?越学越糊涂吗?越学越糊涂吗?下面再看一个回归例子下面再看一个
23、回归例子两个变两个变量量X和和Y的相关的相关检验检验(各各有有51个个观测值观测值),看来相看来相关关.Correlations1.000.877*.0005151.877*1.000.000.5151Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)NXYXYCorrelation is significant at the 0.01 level(2-tailed).*.Correlations1.000.046.6325151.0461.000.632.51511.000.053.7115151.0531.
24、000.711.5151Correlation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NXYXYKendalls tau_bSpearmans rhoXYModel Summaryb.877a.769.7651.4403.769163.528149.0001.678Model1RR SquareAdjusted RSquareStd.Errorof theE
25、stimateR SquareChangeF Changedf1df2Sig.FChangeChange StatisticsDurbin-WatsonPredictors:(Constant),Xa.Dependent Variable:Yb.ANOVAb339.2301339.230163.528.000a101.648492.074440.87850RegressionResidualTotalModel1Sum ofSquaresdfMeanSquareFSig.Predictors:(Constant),Xa.Dependent Variable:Yb.Coefficientsa-5
26、.80E-02.204-.284.778-.469.353.877.069.87712.788.000.7391.0151.0001.000(Constant)XModel1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.LowerBoundUpperBound95%Confidence Intervalfor BToleranceVIFCollinearity StatisticsDependent Variable:Ya.X和和Y的回归的方差分析和对斜率的回归的方差分析和对斜率b1的的t-检验检验(还
27、有还有R2值等值等).看来显著看来显著.Normal P-P Plot of Regression Standardized ResidualDependent Variable:YObserved Cum Prob1.00.75.50.250.00Expected Cum Prob1.00.75.50.250.00Indexz$resi01020304050-2024查看正态性查看正态性:(PP图与残差图和图与残差图和Kolmogorov-Smirnov 检验检验:ks=0.098,p-value=0.5),未发现问题未发现问题.X3020100-10Y3020100-10但是实际数据的但是实际数据的X和和Y没有一点关系没有一点关系(一个点除外一个点除外)Indexdiag(x%*%solve(t(x)%*%x)%*%t(x)010203040500.00.20.40.60.8H=X(XX)-1X的对角线元素的对角线元素hi究竟是接受、拒绝、还是怀疑我们被灌输的东西?我们肩膀上长着自己的脑袋.为什么不能呢?为什么不能呢?最高指示:最高指示:怀疑一切怀疑一切 Karl MarxKarl Marx(我的座右铭我的座右铭)