《统计学基础与实务》教学全套课件.ppt

上传人(卖家):金钥匙文档 文档编号:432700 上传时间:2020-04-04 格式:PPT 页数:476 大小:9.57MB
下载 相关 举报
《统计学基础与实务》教学全套课件.ppt_第1页
第1页 / 共476页
《统计学基础与实务》教学全套课件.ppt_第2页
第2页 / 共476页
《统计学基础与实务》教学全套课件.ppt_第3页
第3页 / 共476页
《统计学基础与实务》教学全套课件.ppt_第4页
第4页 / 共476页
《统计学基础与实务》教学全套课件.ppt_第5页
第5页 / 共476页
点击查看更多>>
资源描述

1、,统 计 学,第1章 绪论,第一节 统计与统计学 第二节 关于学习统计学 第三节 统计学的基本概念 第四节 统计学与统计软件,学习目标,理解统计学的含义 理解统计学与统计数据的关系 理解统计中的几个基本概念 了解几种常用的统计软件,第一节 统计与统计学,一、统计与统计学的含义 二、统计数据的内在数量规律性,什么是统计?,1. 统计工作:收集数据的活动 2. 统计数据:对现象计量的结果 3. 统计学:分析数据的方法与技术,统计工作、统计数据和统计学,什么是统计学?,1. 数据搜集:取得数据 2. 数据分析:分析数据 3. 数据表述:图表展示数据 4. 数据解释:结果的说明,收集、整理、显示和分析

2、数据的科学,统计数据的内在规律 (一些例子),正常条件下新生婴儿的男女性别比为107:100 投掷一枚质地均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/6 农作物的产量与施肥量、降雨量之间存在相关关系,第二节 关于学习统计学,一、为什么要学习统计学 二、怎样学习统计学,为什么要学习统计学,统计无处不在。应用领域非常广泛。,医学,经济学,工程学,管理学,统计学,怎样学习统计学,掌握一定的经济学、数学知识,具备一定的计算机技能。在学习中,通过掌握最基本的统计方法,配合一定的练习题,结合实际应用进行学习。,第三节 统计学的基本概念,一、总体和样本 二、参数和统计量,

3、总体和样本,总体(population) 所研究的全部个体(数据) 的集合,其中的每一个元素称为个体 分为有限总体和无限总体 有限总体的范围能够明确确定,且元素的数目是有限的 无限总体所包括的元素是无限的,不可数的 样本 (sample) 从总体中抽取的一部分元素的集合 构成样本的元素的数目称为样本容量,参数和统计量,参数(parameter) 描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值 所关心的参数主要有总体均值()、标准差()、总体比例()等 总体参数通常用希腊字母表示 统计量(statistic) 用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,

4、是样本的函数 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等 样本统计量通常用小写英文字母表示,第四节 统计学常用的统计软件,一、Excel 二、SPSS 三、SAS 四、Minitab 五、Statistica,本章小节,统计与统计学的定义 统计数据与统计学的关系 统计学的基本概念 统计软件,谢谢!,Thank you very much!,第2章 统计数据的搜集与显示,第一节 数据的计量与类型 第二节 数据的搜集 第三节 数据的显示,学习目标,了解数据的计量尺度和数据类型 了解数据的搜集和数据的质量要求 掌握统计分组的原理和频数分布数列的编制 掌握茎叶图和箱线图的制

5、作方法 掌握统计表和统计图的使用,第一节 数据的计量与类型,一、数据的计量尺度 二、数据的类型,数据的计量尺度,定类尺度 (Nominal scale),也称列名尺度或分类尺度 计量层次最低 对事物进行平行的分类 各类别可以指定数字代码表示 使用时必须符合类别穷尽和互斥的要求 数据表现为“类别” 具有=或的数学特性,定序尺度 (Ordinal scale),也称顺序尺度 对事物分类的同时给出各类别的顺序 比定类尺度精确 未测量出类别之间的准确差值 数据表现为“类别”,但有序 具有或的数学特性,定距尺度 (Interval scale),也称间隔尺度 对事物的准确测度 比定序尺度精确 数据表现为

6、“数值” 没有绝对零点 具有 + 或 - 的数学特性,定比尺度 (Ratio scale),也称比率尺度 对事物的准确测度 与定距尺度处于同一层次 数据表现为“数值” 有绝对零点 具有 或 的数学特性,四种计量尺度的比较,计量尺度,数学特性,“”表示该尺度所具有的特性,数据的类型,1.定类数据:由定类尺度计量形成 2.定序数据:由定序尺度计量形成 3.定距数据:由定距尺度计量形成 4.定比数据:由定比尺度计量形成,与数据计量尺度相对应,数据也有四种:定类数据、定序数据、定距数据、定比数据,不同计量层次、不同数据类型与不同统计分析方法比较,第二节 数据的搜集,一、数据的直接获取 二、数据的间接获

7、取,数据的直接获取,统计报表制度 普查 重点调查 典型调查 抽样调查,统计报表制度 (system of statistical report),按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供统计资料 资料来源于基层单位的原始记录 主要特点:制度化、规范性、层次性、周期性 广泛应用于我国各级政府部门、企事业单位 局限性:时滞性,普查 (census),为特定目的专门组织的非经常性全面调查 通常是一次性或周期性的 一般需要规定统一的标准调查时间 数据的规范化程度较高 应用范围比较狭窄,重点调查 (major survey),在调查对象中选择一部分重点单位进行调查,借以了解总体基本

8、情况的一种非全面调查 重点单位:在总体中具有举足轻重地位的单位,这些单位数虽少,但它们调查的标志值在总体标志值中占有绝大比重,典型调查 (typical survey ),根据调查的目的和要求,在对研究对象进行全面分析的基础上,有意识地选择部分有代表性的单位进行调查,是一种非全面调查 选典方式: (1)近似的估计总体的数值,可“划类选典” (2)了解总体的一般数量表现,可“择中选典” (3)研究成功的经验或失败的教训,可“优劣选典”,抽样调查 (sampling survey),1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,2. 具有经济性、

9、时 效性强、适应面广、准确性高等特点,数据的间接获取,统计部门和政府部门公布的有关资料,如各类统计年鉴 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 各类专业期刊、报纸、书籍所提供的资料 各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料 从互联网或图书馆查阅到的相关资料,提供统计数据的部分政府网站,提供统计数据的部分政府网站,第三节 数据的显示,一、数据的审核 二、统计分组与频数分布 三、统计表与统计图,数据的审核,直接来源数据的审核:完整性、准确性 间接来源数据的审核 :完整性、准确性、适用性和时效性,统计分组,按照统计研究的目的,将数据分别列入不同的组内

10、 形式: 品质标志分组:按列名尺度和顺序尺度对总体的性质和属性进行分组 数量标志分组:按间隔尺度和比例尺度对总体的数量特征进行分组,单项式分组,数列中每个组的变量值都只有一个,即一个变量值为一组 适用于变异幅度不太大的离散型变量,组距分组 (要点),将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组,组距分组 (步骤),确定组数:组数的确定应以能够显示数据的分布特征和规律为目的 确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距( 最大值 - 最小值) 组数 确定组限

11、:最小组的下限略低于或等于最小变量值,最大组上限略高于或等于最大变量值。若采取连续型分组数列,重叠组限的归组:“上限不在内原则” 统计出各组的频数并整理成频数分布表,组距分组 (几个概念),1. 下限(low limit) :一个组的最小值 2. 上限(upper limit) :一个组的最大值 3. 组距(class width) :上限与下限之差 4. 组中值(class midpoint) :下限与上限之间的中点值,开口组组中值,开口组的使用:当数据中存在少数极值时,为了不让数列组数太多,则考虑采用开口组 开口组组中值 缺少下限组其组中值=该组上限邻组组距/ 2 缺少上限组其组中值=该组

12、下限+邻组组距/ 2,次数分配表的编制 (例题分析),【例】某班50名学生统计学考试成绩资料如右表试对数据进行分组。,89 78 67 89 90 79 98 95 76 56 91 90 86 81 78 79 76 67 78 79 70 45 56 78 79 98 97 87 86 84 79 76 75 73 72 86 75 78 84 67 68 69 65 62 60 63 30 79 87 88,次数分配表,频数分布的类型,几种常见的频数分布,统计表,2008年全国分行业增加值 (表头:总标题),资料来源:中国统计年鉴2010,北京:中国统计出版社 (表脚),定性数据的图示,

13、条形图 饼图 环形图 累计频数分布图,条形图 (bar Chart),用宽度相同的条形的高度或长短来表示各类别数据 各类别可放在纵轴,称为条形图,可以放在横轴,称为柱状图(column chart) 条形图有单式、复式和叠加等形式,世界上部分国家的互联网普及率条形图,饼图 (pie Chart),用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例 用于研究结构问题,企业法人单位的所有制结构饼图,环形图 (doughnut chart),环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示 与饼图类似,但环形图则可以同时绘

14、制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环 用于结构比较研究,某届亚运会上中国、日本和韩国的奖牌构成环形图,累计频数图 (cumulative frequency chart),根据累计频数或累计频率绘制 定性数据中只有定序数据分组才能作累计频数图 有“向上累计”与“向下累计”之分,学生成绩累计频数图,定量数据的图示,直方图 折线图 曲线图 茎叶图 箱线图 累计频数图,直方图 (histogram),用于展示分组数据分布的一种图形 用矩形的宽度和高度来表示频数分布 本质上是用矩形的面积来表示频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形

15、成了一个矩形,即直方图 直方图下的总面积等于1,(直方图的绘制),50名学生统计学成绩分布直方图,我一眼就看出来了,考试成绩在7080之间的人数最多!,折线图 (frequency polygon),折线图也称频数多边形图 是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,(折线图的绘制),折线图与直方图 下的面积相等!,茎叶图 (st

16、em-and-leaf plot),用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 树叶上只保留最后一位数字 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 直方图适用于大批量数据,茎叶图适用于小批量数据,茎叶图 (例题分析),第一列给出每个茎上叶子的频数 第二列是“茎”,第三列是“叶” 上端标出了1个极端值30 下端标出茎的宽度10、每个叶代表一个数据(案例) SPSS自动将每个茎重复了一次,使分

17、布的细节看的更清楚一些。当然,在数据较少时茎的数值也可以不重复,50名学生统计学考试成绩茎叶图,箱线图 (box plot),用于显示未分组的原始数据的分布 箱线图是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这5个值绘制而成的 中位数是一组数据排序后处于中间位置上的变量值 四分位数是一组数据排序后处在数据25%位置和75%位置上的两个分位数值 绘制方法 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分位数画出箱子,再将两个极值点与箱子相连接,箱

18、线图 (构成),中位数,4,6,8,10,12,Median/Quart./Range箱线图,箱线图 (例题分析),最小值 30,最大值 98,中位数 78,25%四分位数 68,75%四分位数 86,30 40 50 60 70 80 90 100,50名学生统计学考试成绩的Median/Quart./Rang箱线图,分布的形状与箱线图,不同分布的箱线图,对称分布,左偏分布,右偏分布,多批数据箱线图 (例题分析),【例】某保险公司人事部经理希望对新进32名大学生实行的四种销售培训方案的效果进行评估,假定每个方案随机指派8名人员,经过培训一段时间后进行统一考试,其成绩如右表,绘制并比较四组数据

19、的箱线图。,多批数据箱线图 (例题分析Median/Quart./Range),4组数据的箱线图,累计频数图 (cumulative frequency chart),50名学生统计学考试成绩累计频数分布图,时间序列数据的图示,散点图 线图,散点图 (Scatterplots),展示某变量与时间之间的关系 用横轴代表时间变量t,纵轴代表变量y,每组数据(ti ,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图,2005至2009年的中国网民数统计,散点图 (例题分析),近5年网民数变化散点图,线图 (line graph ),中国网民规模与互

20、联网普及率,线图 (多组数据线图 ),多组数据的线图比较,本章小结,数据的计量尺度 数据的类型 统计数据的来源 统计数据的质量 统计数据的整理 统计表与统计图,谢谢!,Thank you very much!,第3章 统计数据的描述,第一节 总量指标与相对指标 第二节 分布集中趋势的测度 第三节 分布离散程度的测度 第四节 分布偏态与峰度的测度 第五节 数据的标准化,学习目标,掌握总量指标和相对指标 掌握集中趋势和离散趋势的测度 了解偏态和峰度的测度 掌握数据的标准化处理,第一节 总量指标与相对指标,一、总量指标 二、相对指标,总量指标 (Total amount index),反映社会经济现

21、象在一定时间、地点、条件下所达到的总规模、总水平或工作总量。 用绝对数表示,又称为绝对数、绝对数指标或绝对指标。 是计算相对指标和平均指标的基础。,总量指标 (类型),按反映的内容不同分: 总体总量是总体中单位数之和,说明总体本身规模的大小。如企业数、人口数等 标志总量是总体中各个单位某一数量标志值的总和。如工业总产值、工资总额等。,总量指标 (类型),按反映的时间状态不同分: 时期指标:反映社会经济现象在一段时期内发展过程的总数量。如产品产量、工资总额、销售额等 时点指标:反映社会经济现象在某一时点(或时刻)所表现的数量特征的总量。如人口数、商品库存量、企业数等。,相对指标 (Relativ

22、e index),是社会经济现象中两个相互联系的指标数值之比。也称为相对数 无名数形式:系数、倍数、成数、百分数、千分数、万分数 有名数形式:如周转次数(次)、周转天数(天)、人口密度(人/平方公里),相对指标 (类型),计划完成相对指标 结构相对指标 比较相对指标 动态相对指标 强度相对指标,分子、分母不互换,一般用百分数表示。,计划完成相对指标 (计算式),计划完成相对指标 (例题1),例如,某企业某年计划规定工业总产值为5 091万元(按现行价格计算),实际达到 5 178万元(按现行价格计算),则该企业该年度的工业总产值计划完成程度为:,工业总产值计划完成程度相对指标=,5178,50

23、91,100%,= 101.71%,计划完成相对指标 (例题2),例如,某企业某年规定工业总产值比上年提高8,实际执行结果比上年提高12。则该企业该年度的工业总产值计划完成程度为:,工业总产值计划完成程度相对指标=,该企业工业总产值实际比计划超额完成3.7,即103.7100=3.7,某企业计划规定2010年的可比产品成本比2009年降低5,实际执行结果可比产品成本比上年降低6,则可比产品成本计划完成情况为:,计划完成程度相对指标=,1- 6%,100%,1- 5%,= 98.95%,计划完成相对指标 (例题3),该企业可比产品成本实际比计划超额完成1.05,即10098.95=1.05,计划

24、完成相对指标 (评价),属成果收入性质的指标,计划完成相对指标以等于或大于100%为好,超过100%的部分表示超额完成计划的程度,不足100%表示未完成计划的程度。 属消耗支出性质的指标,计划完成相对指标以小于或等于100%为好,小于100%的部分表示超额完成计划的程度,大于100%表示未完成计划的程度。,累计完成计划百分数 (计算式),计划执行进度的检查,报告期内从期初至目前的累计完成数成数,报告期累计计划数,累计完成计划百分数=,100%,累计完成计划百分数 (例题分析),例:某贸易企业商品销售额年计划为2000万元,16月实际完成的商品销售额为1200万元。则:,上半年完成计划的60%。

25、全年时间过半,任务完成60%,如果按此进度年底将超额完成任务。,结构相对指标,总体的各组数值与全部总体数值之比,表明构成事物总体的各个组成部分在总体中所占的比重,说明总体结构 结构相对指标一般用百分数或系数来表示,各部分占总体的比重之和必须等于100或1。 分子分母不能互换,总体部分数值,总体全部数值,结构相对指标 =,比较相对指标,同类现象在不同空间的对比 同一总体内的不同部分之比。有时又把这种形式称为比例相对数。例如:我国第三、四、五次人口普查的结果,男女性别比例分别为:106.3,106.6,106.74。 分子分母可以互换,某条件下的某类指标数值,另一条件下的同类指标数值,比较相对指标

26、 =,动态相对指标,同类现象在不同时期的对比 反映现象在时间上发展变化的方向和程度 也称为发展速度,报告期水平,基期水平,动态相对指标 =,强度相对指标,两个性质不同但有联系的指标对比 表明现象强度、密度和普遍程度 常用复名数表示,由分子、分母的原有计量单位组成 有正指标、逆指标之分 指标带有平均的形式,但不是平均指标,如人均国民生产总值、人均粮食产量等,某一总量指标数值,另一有联系而性质不同的总量指标数值,强度相对指标 =,强度相对指标 (例题),1999年末我国总人口为125 909万人,人口密度= 125909人/ 960万平方公里131人平方公里 2009年我国人口密度=132256/

27、960 138人平方公里 2008年中国国内生产总值为300670亿元,人口约为13.28亿人 ,人均GDP:22640元人民币,2008年底汇率:1美元-6.8346元人民币,人均GDP:约为3313美元,第二节 分布集中趋势的测度,一、众数 二、中位数 三、四分位数 四、均值 五、几何均值 六、众数、中位数和均值的比较,众数 (mode),一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,众数 (不惟一性),无众数 原始数据: 10 5 9 12 6 8,一个众数 原始数据: 6 5

28、9 8 5 5,多于一个众数 原始数据: 25 28 28 36 42 42,中位数 (median),排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,中位数 (位置的确定),1. 位置确定,2. 数值确定,中位数的计算 (数据个数为奇数),【例】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9

29、,中位数 1080,中位数的计算 (数据个数为偶数),【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,四分位数用3个点等分数据 (quartile),排序后处于25%和75%位置上的值,不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数的计算 (位置的确定),定义算法,四分位数的计算 (数据个数为奇数),【例】:9个家庭的人均月收入数据(4种方法计算) 原始数据:1500 750 780 1080 850 960 2000

30、 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9,均值 (mean),集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据,简单均值 (simple mean),设一组数据为: x1 ,x2 , ,xn,总体均值,样本均值,加权均值 (weighted mean),设一组数据为: x1 ,x2 , ,xn 相应的频数为: f1 , f2 , ,fk,总体均值,样本均值,加权均值 (例题分析),均值 (数学性质),

31、1. 各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,几何均值 (geometric mean),n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为,5. 可看作是均值的一种变形,几何均值 (例题分析),【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,加权几何均值 (例题分析),将一笔款存入银行,存期10年,以复利计息。10年的利率见右表。要求:计算平均年利率。,加权几何均值 (例题分析)

32、,由于是以复利计息,各年的利息是在前一年的累计存款额(本金+利息)的基础上计息,因此应先将各年利率换算成各年的本利率。这样各年的本利率(1+年利率)的连乘积等于总的本利率(设为G)。于是可以用加权几何平均数计算平均年本利率。,平均年利率为3.99%。,众数、中位数和均值的比较,众数、中位数和均值的关系,众数、中位数、均值的特点和应用,众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 均值 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,第三节 分布离散程度的测度,一、异众比率 二、极差 三、四分位差 四、方差和标

33、准差 五、离散系数,异众比率 (variation ratio),非众数组的频数占总频数的比例 衡量众数对一组数据的代表性。 异众比率越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。 用于测度分类数据的离散程度,也可用于顺序数据和定量数据,计算公式为,极差 (range),一组数据的最大值与最小值之差 变量值离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,R = max(xi) - min(xi),计算公式为,也称内距 上四分位数与下四分位数之差 四分位差QD = QU QL 反映了中间50%数据的离散程度 不受极端值的影响 可用于衡量中位数的代表性,四分位差 qu

34、artile deviation,方差和标准差 (Variance and Standard deviation),1. 离散程度的测度值之一 2. 最常用的测度值 3. 反映了数据的分布 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差 (Population variance and Standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差和标准差 (simple variance and standard deviati

35、on),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差 自由度(degree of freedom),一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,离散系数 (coefficient of variation),1. 标准差与

36、其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为,第四节 分布偏态与峰度的测度,一、偏态 二、峰度,数据分布的形状偏态与峰态,偏态,峰态,偏态 (skewness),统计学家Pearson于1895年首次提出。是指数据分布的不对称性 测度统计量是偏态系数(coefficient of skewness) 偏态系数=0为对称分布;0为右偏分布;0为左偏分布 偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.51或-1-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低 计算公式,峰态 (ku

37、rtosis),统计学家Pearson于1905年首次提出。数据分布峰值的高低 测度统计量是峰态系数(coefficient of kurtosis) 峰态系数=3扁平峰度适中 峰态系数3为尖峰分布 计算公式,第五节 数据的标准化,一、标准化值的计算 二、契比雪夫定理,标准化值的计算 (用于数据变换),Z值只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1,标准化值的计算 (例题分析),经验法则,经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2

38、个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内 根据经验法则,对于对称分布,几乎所有数据的标准化值都在区间(3,+3)内,则标准化值在区间外的数据都可以看作是异常值。,经验法则 (例题分析), 9名员工月工资收入的经验法则,契比雪夫不等式 (Chebyshevs inequality),如果一组数据不是对称分布,经验法则就不再适用,这时可使用契比雪夫不等式,它对任何分布形状的数据都适用。 契比雪夫定理的内容:在任意一个数据集中,至少有1-1/z2的数据与平均数的距离在z个标准差之内,其中z是大于1的任意值。 契比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”。,

39、契比雪夫不等式 (Chebyshevs inequality),对于z=2,3,4,该不等式的含义是 当z=2时,则至少有75%的数据与平均数的距离在2个标准差之内,即:至少有75%的数据落在平均数加减2个标准差的范围之内。 当z=3时,则至少有89%的数据与平均数的距离在3个标准差之内,即:至少有89%的数据落在平均数加减3个标准差的范围之内。 当z=4时,则至少有94%的数据与平均数的距离在4个标准差之内,即:至少有94%的数据落在平均数加减4个标准差的范围之内。 运用契比雪夫定理可以估计在均值的特定范围之内数据的个数。,切比雪夫不等式 (例题分析),已知50名移动大客户移动话费的均值是5

40、46.98元,标准差117.37元,那么大概有多少个移动大客户移动话费在347747元之间?,解:根据契比雪夫定理计算 z=(747546.98)/117.37=1.7 1-1/z2=0.6556 即略有33名移动大客户的话费在347747元之间。,本章小结,总量指标与相对指标 分布集中趋势测度 分布离散程度测度 分布偏态与峰度测度 数据的标准化,谢谢!,Thank you very much!,第4章 抽样与抽样分布,第一节 总体与样本 第二节 抽样方法 第三节 抽样分布,学习目标,了解总体与样本的概念 理解常用的抽样方法 理解抽样分布的意义 了解抽样分布的形成过程,第一节 总体与样本,一、

41、总体与样本 二、参数与统计量,总体和样本 (population and sample),总体(population) 所研究的全部个体(数据) 的集合,其中的每一个元素称为个体 总体中所包含的元素数量多少称为总体容量,用N表示 分为有限总体和无限总体 有限总体的范围能够明确确定,且元素的数目是有限的 无限总体所包括的元素是无限的,不可数的 样本 (sample) 从总体中抽取的一部分元素的集合 构成样本的元素数目称为样本容量,用n表示 n30的样本称为大样本,n30的样本称为小样本,参数与统计量 (parameter and statistic),参数(parameter) 描述总体特征的概

42、括性数字度量,是研究者想要了解的总体的某种特征值 所关心的参数主要有总体均值()、标准差()、总体比例()等 总体参数通常用希腊字母表示 统计量(statistic) 用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等 样本统计量通常用小写英文字母表示,第二节 抽样方法,概率抽样 (probability sampling),根据一个已知的概率来抽取样本单位,也称随机抽样 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算

43、出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,简单随机抽样 (simple random sampling),从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量样本都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,分层抽样 (stratified sampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、

44、随机地抽取样本 优点 保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层的目标量进行估计,机械抽样 (systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位 优点:操作简便,可提高估计的精度 缺点:对估计量方差的估计比较困难,整群抽样 (cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选

45、群中的所有单位全部实施调查 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 缺点是估计的精度较差,第三节 抽样分布,一、抽样分布的定义 二、常用统计量的分布,样本统计量的概率分布,是一种理论分布 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量 样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布 (sampling distribution),抽样分布的形成过程 (sampling distrib

46、ution),2 分布 t 分布 F 分布 样本均值的分布 样本方差的分布 样本比率的分布 两个样本统计量的分布,常用统计量的分布,由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来 设 是来自总体 的样本,则称随机变量 服从自由度为n的2分布,记为,c2-分布 (2-distribution),分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自由度) 可加性:若U和V为两个独立的2分布随机

47、变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,c2-分布 (性质和特点),不同自由度的c2-分布,t-分布 (t-distribution),提出者是William Gosset,也被称为学生分布(students t) t 分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,x,t 分布与标准正态分布的比较,t 分布,标准正态分布,为纪念统计学家费希尔(R.A.Fisher) 以其姓氏的第一个字母来命名 设若U为服从自由度为n1的2分布,即U2(n1),V为服从

48、自由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为,F-分布 (F distribution),不同自由度的F分布,在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布 一种理论概率分布 推断总体均值的理论基础,样本均值的分布,样本均值的分布 (例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的分布 (例题分析), 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的分布 (例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 2.5 2 =1.25,总体分布,样本均值分布,样本均值的分布 与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的期望值为,方差为2/n。即xN(,2/n),中心极限定理 (central l

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(《统计学基础与实务》教学全套课件.ppt)为本站会员(金钥匙文档)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|