1、教育统计学教育统计学本学期主要内容本学期主要内容第一章第一章 绪论绪论 第二章第二章 数据的初步整理数据的初步整理第三章第三章 集中量集中量第四章第四章 差异量差异量第五章第五章 概率极概率分布概率极概率分布第六章第六章 抽样分布及总体平均数的推断抽样分布及总体平均数的推断第七章第七章 平均数差异的显著性检验平均数差异的显著性检验第十章第十章 检验检验第十一章第十一章 相关分析相关分析主要内容:主要内容:1.1 统计学的发展史简介统计学的发展史简介1.2 教育统计学的主要内容教育统计学的主要内容1.3 统计学中的基本概念统计学中的基本概念1.4 学习教育统计学的方法学习教育统计学的方法1.1.
2、1 统计学的起源统计学的起源 第一阶段称之为第一阶段称之为“城邦政情城邦政情” 阶段阶段STATISTICS(统计学统计学)一词源于法语一词源于法语STATUS(状态状态)自中世纪以来逐渐演变为含有政治意味的自中世纪以来逐渐演变为含有政治意味的STATE(国国家家)。因此,统计学包含有对国家状态作调查研究的意。因此,统计学包含有对国家状态作调查研究的意义。义。概率论的起源与发展。概率论的发展最早源于赌博概率论的起源与发展。概率论的发展最早源于赌博 1654年:德年:德.梅勒,帕斯卡,费马梅勒,帕斯卡,费马 (法国)(法国)惠更斯(惠更斯(C.Huygens )著)著论赌博中的计算论赌博中的计算
3、 第二阶段称之为第二阶段称之为“政治算数政治算数” 阶段阶段十七世纪,政治算术统计学在英国兴起。十七世纪,政治算术统计学在英国兴起。16901690年年英国英国威廉威廉配弟出版配弟出版 ( (政治算数政治算数) )一书作为这个一书作为这个阶段的起始标志阶段的起始标志. .K.PearsonK.Pearson(18571936),), 在前人的基础上在前人的基础上发展出许多描述统计方法:频数分布、频数分布函数、发展出许多描述统计方法:频数分布、频数分布函数、标准差、相关等。标准差、相关等。第三阶段称之为第三阶段称之为“统计分析科学统计分析科学” 阶段阶段W.S.GorssetW.S.Gorsse
4、t(戈赛特)(戈赛特) (Student)(Student)开始研究开始研究t t分布分布R.A.Fisher R.A.Fisher (费希尔)统计推断学的创立(费希尔)统计推断学的创立 F F分布分布 当今信息时代,无论社会政治、军事、经济,还是生物医学、教育心理、工农业生产等各行各业都有大量的数据,需要我们进行分析,从中挖掘出有用的证据、消除虚假的信息,发现事物内部的规律性。 l北京血液中心高XX主任介绍:香港医务人员用已康复者血浆治疗20例非典病人无一例死亡,而其对照组20例中,有3人死亡。这表明用康复病人血浆治疗非典病人是有效的。l -摘自2003.5.28用康复病人血浆治疗非典病人真
5、有效吗?l进行卡方( )检验,很快得出结论: lP =0.23080.05.l经过统计分析,认为两组差别无统计意义。l现在实事也不支持原研究者的用康复病人血浆治疗非典病人结论。l1949年,西方某国家曾有过一个真实的故事。l丈夫到法院要求离婚,唯一的理由是他去海外服兵役50个星期后,回家发现妻子在家分娩。 法官怎么样判案? l这桩诉讼案的统计学问题是如何判定正常最长妊娠期的时间。l正常妊娠期的统计分布图图1-1 正常妊娠期分布05101520253028323640444852时间(周)频率%正常妊娠期超过48周的频率几乎为零。大部分人会觉得丈夫蒙受了不白之冤,如果当时法官仅通过正常妊娠期分布
6、,会判丈夫胜诉。此时,妻子可能蒙冤,虽然其蒙冤的可能性很小。l法官根据医学界的证词,认定怀孕50周,尽管不大可能,但仍可能是科学事实,因此判丈夫败诉。 在这桩诉讼案中,统计学依据和其它法庭证据一样,只能为法官判案提供参考,不能成为唯一的判决依据。 l2000年,法国政府已将统计学列入二十一世纪影响法国社会发展的十个重大领域之一。l2001年, 中国国家教育部为推进基础教育改革而推出新课程标准,将统计学纳入新的小学数学课程。要求小学生要“经历运用数据描述信息、作出推理的过程,发展统计观念”。 1.2.1 统计学与教育统计学统计学与教育统计学1. 统计学统计学统计学是研究统计原理和方法的科学。统计
7、学是研究统计原理和方法的科学。 具体:是研究如何搜集、整理、分析反映事物总体的数字资具体:是研究如何搜集、整理、分析反映事物总体的数字资料,并以此为依据,对总体特征进行推断的原理和方法。料,并以此为依据,对总体特征进行推断的原理和方法。 2. 教育统计学教育统计学 教育统计学是运用数理统计的原理和方法研究教育问题的一教育统计学是运用数理统计的原理和方法研究教育问题的一门应用科学门应用科学。主要任务:研究如何搜集、整理、分析由教育调查和教育实主要任务:研究如何搜集、整理、分析由教育调查和教育实验等途径所获得的数字资料,并以此为依据,进行科学推断,验等途径所获得的数字资料,并以此为依据,进行科学推
8、断,从而揭示蕴含在教育现象中的客观规律。从而揭示蕴含在教育现象中的客观规律。 l提出问题确定调查内容确定调查范围进行调查收集、整理、分析数据资料得出结论。l教育科学实验:提出问题界定确定研究范围假说实验收集、整理、分析数据资料得出结论。l(1)提供各种统计方法的应用条件。l(2)对统计计算的结果进行解释。1. 描述统计描述统计 对已获得的数据进行整理、概括,显现其分布特征的统计方对已获得的数据进行整理、概括,显现其分布特征的统计方法,称为描述统计。常用的描述统计方法:集中量、差异量、法,称为描述统计。常用的描述统计方法:集中量、差异量、标准分数、相关量。标准分数、相关量。 2. 推断统计推断统
9、计 根据样本所提供的信息,运用概率的理论进行分析、论证。根据样本所提供的信息,运用概率的理论进行分析、论证。在一定可靠程度上对总体分布特征进行估计、推测。这种统在一定可靠程度上对总体分布特征进行估计、推测。这种统计方法成为推断统计。计方法成为推断统计。3.实验设计实验设计 实验者为了揭示实验中自变量与因变量的关系,在实验前所实验者为了揭示实验中自变量与因变量的关系,在实验前所制订的实验计划称为实验设计。制订的实验计划称为实验设计。 资料收集资料收集描述统计描述统计推断统计推断统计概率论概率论经常性资料经常性资料调查数据调查数据实验数据实验数据历史资料历史资料测验数据测验数据统计图表统计图表集中
10、量集中量差异量差异量相关量相关量 Z 检验检验T 检验检验检验检验相关分析相关分析l一 随即变量l1 随机现象:具有以下三个特征:第一,一次实验有多种可能的结果,其所有可能的结果是已知的;第二,试验之前不能预料哪一种结果会出现;第三,在相同的条件下可以重复实验。l2 随即事件:随即现象的每一种结果叫做一个随即事件。l3。随即变量:我们把能表示随现象各种结果的变量称为随即变量。 所研究的具有某些相同性质的全部单位或所研究的具有某些相同性质的全部单位或事件的整体。事件的整体。总体总体样本样本: 亦可称为抽样总体亦可称为抽样总体, ,是从总体中抽取部分单位是从总体中抽取部分单位所组成的整体,用以分析
11、总体。所组成的整体,用以分析总体。 样本中包含个体的数目成为样本的容量,用样本中包含个体的数目成为样本的容量,用n n表示表示 l参数:总体上的各种数字特征是参数 l 总体平均值l总体标准差l统计量:样本上的数字特征是统计量 l 样本平均值l样本标准差xx随机抽样随机抽样 是根据是根据随机原则随机原则来抽取样本单位来抽取样本单位 .简单随机抽样简单随机抽样 方法:方法:在抽样框中的每个单位都具有相同的被抽中的机在抽样框中的每个单位都具有相同的被抽中的机会会, ,每个容量相同的样本被抽中的机会也是相同的。每个容量相同的样本被抽中的机会也是相同的。 亦称为纯随机抽样亦称为纯随机抽样抽取样本的方法:
12、抽取样本的方法:有放回抽样和无放回抽样有放回抽样和无放回抽样。 适合:总体内部差异不是很大,规模也不大的情况适合:总体内部差异不是很大,规模也不大的情况 。机械抽样机械抽样方法:抽样框中的方法:抽样框中的N N个单位被分成个单位被分成k k个系统,个系统,k k等于抽样等于抽样框的容量框的容量N N除以所需的样本容量除以所需的样本容量n n,在抽样框中前面的在抽样框中前面的k k个个体或单位中随机抽出第一个样本单位,然后,可在个个体或单位中随机抽出第一个样本单位,然后,可在其后的每隔其后的每隔k k个单位抽取样本中其余的部分。个单位抽取样本中其余的部分。亦可称为等距抽样亦可称为等距抽样 l例如
13、:从我校10级3000名新生中随机抽取300人l了解其英语学习水平。分层抽样分层抽样 亦可称为类型抽样亦可称为类型抽样 方法:将总体全部单位分类,形成若干个类型组,后方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。从各类型中分别抽取样本单位,合成样本。总体总体N样本样本nkkNnNnNnNn.22112NkN1N1n2nkn例如,对某校800个学生的品德情况进行了解,拟取40个学生作为样本。800个学生学科成绩优(160人):良(320人):中(240人):差(80人):然后从各部分随机抽样。整群抽样整群抽样 方法:方法:首先把总体中的首先把总体中的N个单位
14、划分成为若干个群,个单位划分成为若干个群,并要求每个群对整个总体都具有代表性,然后对群进并要求每个群对整个总体都具有代表性,然后对群进行简单随机抽样,并对抽中群内的所有单位进行调查行简单随机抽样,并对抽中群内的所有单位进行调查研究。研究。 总体群数总体群数R=16 样本群数样本群数r=4 样本容量样本容量ABCDEFGHIJKLMNOPLHPDhlpdnnnnn适合:比简单随机抽样的方法能节约更多的成本,特别适合:比简单随机抽样的方法能节约更多的成本,特别当总体的分布地域非常辽阔当总体的分布地域非常辽阔 时。时。l思想观念+学习方法l教育统计学不神秘,不可怕,不难学好。教育统计学既很有用,也很
15、有趣。l中学教师专业成长过程中必须开展教学研究(论文) 2) 重视典型案例的系统学习 重点掌握 : 基本概念、各种方法使用条件、范围3) 重视理论与课后练习相结合l21 数据的来源及种类l22 统计表 l23 统计图l1 经常性资料l2 专题性资料 l(1) 教育调查 : 现情调查、回顾调查和跟踪调查l(2) 教育实验 : 单组实验 、等组实验l二 数据的种类l1.按数据的来源分: 点计数据和测量数据l2.按随即变量的取值分:间断型随机变量和连续型随即变量 2.2.1 表的基本结构表的基本结构标题表号标目(横标目、纵标目)线条(三栏一竖)数字(表的主要内容)表注1. 简单表简单表只列出观察对象
16、的名称、地点、时序或统计指标名称的统计表为简单表。 表2.2 某年级各班学生人数 班别一班二班三班四班五班人数表2.3 某校高三学生各年高考录取人数 年份199819992000总和高考录取人数1441231253922. 分组表分组表只按一个标志分组的统计表成为分组表。 表2.5 上海市区幼儿20米跑步用时 年龄组岁岁岁岁平均秒数().3. 复合表复合表按两个或两个以上标志分组的统计表为复合表 。表2.6 本市市区、郊区4岁和6岁幼儿守恒能力测定成绩统计表 nS岁市区.郊区.岁市区.郊区.XX2.3.3.1 概念概念1. 频数频数某一个随机事件在n次试验中出现的次数称为这个随机事件的频数。2
17、. 频数分布频数分布将各种随机事件在n次试验中出现的次数分布,称为频数分布。 3. 频数分布表频数分布表 频数分布用表格形式表达出来,这种表格叫频数分布表。例例2.1 师大附小二年级师大附小二年级80个学生的身高如下表,并用该数个学生的身高如下表,并用该数据做频数分布表。据做频数分布表。表2.9 师大附小二年级80个学生的身高1351341291331311311311341251281351271271331301321321291241321221241271311371321331341241281351331311231151321341381241321281361271201251
18、311361271241291291321381251311201211441281331281271301201211221271211251301401211261301221281271251271311. 求全距求全距 全部数据的最大值与最小值之差例:R =最大值最小值 =144115=29(cm)2. 决定组数与组距决定组数与组距 组数(k):分组的个数(一般1015为宜),具体根据样本大小来确定组数,组数的确定要与组距同时考虑。例题中决定组数为10。上例: i= 3. 决定组限决定组限每组的最低值为下限,最高值为上限,列出各组组限时,最低一组应包括最小的一个数据,最高一组应包括最大
19、的一个数据。39 . 21029组数R4. 登记频数并计算登记频数并计算用划“正”字法。将数据列入相应的组距内,在归组时如遇有的数据正好等于某组的组限时,可将它归入数据较大的一组。5. 计算频数计算频数 全部数据登记完后,把各组次数写在频数分布表内,用“f”表示。表2.10 二年级80个学生身高的频数身高(1)组中值(2)频数(3)115-118-121-124-127-130-133-136-139-142-116.5119.5122.5125.5128.5131.5134.5137.5140.5143.513810201912421总和801.区分几个概念区分几个概念组中值频数(绝对频数)
20、(f)相对频数(比率)(rf)累积(绝对)频数(cf)累积相对频数(Rel cf)表2.10 二年级80个学生身高的频数、累积频数、累积百分比表身高身高组中值组中值频数频数相对频数相对频数累积频数累积频数累积百分比累积百分比115-118-121-124-127-130-133-136-139-142-116.5119.5122.5125.5128.5131.5134.5137.5140.5143.513810201912421.0125.3750.1000.1250.2500.2375.1500.0500.0250.01251412224261737779801.255.0015.0027.
21、5052.5076.2591.2596.2598.75100总和总和802.3.1 表示间断变量的统计图表示间断变量的统计图1. 直条图直条图是利用条形的长短比较各种统计指标的大小。是利用条形的长短比较各种统计指标的大小。绘制手续简便、表现形式明确、图形效果良好。绘制手续简便、表现形式明确、图形效果良好。纵排纵排柱形图柱形图横排横排带形图带形图绘制直条图注意点:绘制直条图注意点:图形的尺度必须以零点为起点,同时尺度上的任何单位必须图形的尺度必须以零点为起点,同时尺度上的任何单位必须用相等距离表示。用相等距离表示。条形的长短表示数量的多少。条形的长短表示数量的多少。各条形的宽度必须相等,各条形之
22、间的间隔应一致,一般为各条形的宽度必须相等,各条形之间的间隔应一致,一般为条形宽度的一半至一倍比较合适。条形宽度的一半至一倍比较合适。各条形的排列应有一定的顺序。各条形的排列应有一定的顺序。直条的顶端和下端不要注写数字。直条的顶端和下端不要注写数字。在复合条形图和条形结构图中应采用不同的线纹或颜色加以在复合条形图和条形结构图中应采用不同的线纹或颜色加以区别并加制图说明。区别并加制图说明。2圆形图圆形图圆形图的定义圆形图的定义是一种经常用来说明总体结构的图形。一个圆形代表一个完整的总体,圆形内的各个扇形相当于总体的各个组成部分。绘制步骤绘制步骤求各组成部分所占百分比求组成部分的中心角度数以圆的下
23、半径(或上半径)为基线,按被比事物特定顺序,根据各部分的角度数,以顺时针方向,用量角器将图形分成几个扇形。用不同线条或不同颜色将各扇形加以区别,并在各扇形内用简要文字及百分比加以注明。例2.2 将下表11 的资料制成图2表2.11 某区幼儿园家长文化程度统计表文化程度百分比圆心角初中以下初中高中、中专大专以上40.2%40.8%15.9%3.1%144.72146.88 57.24 11.16 40.2%40.2%40.8%40.8%15.9%15.9%3.1%3.1%初中以下初中高中中专大专以上图2.2:某区幼儿园家长文化程度统计图1线形图线形图定义定义表示两个变量之间的函数关系。一种事物随
24、另一种事物变化的情况;某种事物随时间推移的发展趋势等。绘制方法绘制方法先画一条直角坐标系,横轴表示时间或自变量,纵轴表示频数或因变量。描点:用直线连接相邻两点。(按时间顺序连成线条即成)表2.12 建国以来某地区幼儿园人数统计表年份人数(万)解放前495153552.03.54.04.56.001234567解放前49515355图2.3:建国以来,某地区幼儿园人数发展统计图注意点:注意点:绘折线,不画光滑曲线图中相比较的线一般不超过五条,图中不用文字或数字表示。常用的频数分布图有:直方图多边图累积多边图表2.13 二年级80个学生身高的频数、累积频数、累积百分比身高组中值频数累积频数累积百分
25、比115-118-121-124-127-130-133-136-139-142-116.5119.5122.5125.5128.5131.5134.5137.5140.5143.5138102019124211412224261737779801.255.0015.0027.5052.5076.2591.2596.2598.75100总和80作横轴:把上表第(1)列的上、下限或第(2)列的组中值分置于横轴上。表上共有10个组,而作图时,须在横轴的两端至少各空出一个组距的位置。作纵轴:在纵轴上表明尺度及其单位,以指示频数。在纵轴上定出各组频数高度,并在各组频数高度处划一横线与各组上、下限的两条
26、纵线相交,形成一个矩形。由于横轴上各组距之间是连续的,故各矩形之间不能留空隙。甚至每个矩形的内侧垂线也可以不画02468101214161820115 118 121 124 127 130 133 136 139 142 14502468101214161820115 118 121 124 127 130 133 136 139 142 145图2.5: 二年级80个学生身高的频数分布直方图特点:以纵轴上的高度表示频数的多少。绘制:以各组的中点为横坐标,以各组的频数为纵坐标描点并用直线连接,即成。图形的两端应该引至外侧一组的中点与基线相接。图2.6:二年级80个学生身高的频数分布多边图05
27、1015202502468101214161820115 118 121 124 127 130 133 136 139 142 145图2.7:二年级80个学生身高的频数分布多边图累积频数多边图的绘制:作横轴将学生身高各组的上、下限分置于横轴上。作纵轴在纵轴上标明尺度与单位,以指示累积频数。描点以各组上限为横坐标,各组累积频数为纵坐标描点,用弧线连接每相邻的两点,即成累积频数多变图,图形左端应引至第一组的下限与基线相接。表2.14 二年级80个学生身高的频数、累积频数、累积百分比表例图2.8:二年级80个学生身高的累积频数和累积百分比分布图身高组中值频数累积频数累积百分比115-118-12
28、1-124-127-130-133-136-139-142-116.5119.5122.5125.5128.5131.5134.5137.5140.5143.5138102019124211412224261737779801.255.0015.0027.5052.5076.2591.2596.2598.75100总和80因为累积频数和累积百分比图形都成“S”形,所以统称为“S”型曲线。S型曲线特殊应用是:假如给出横轴上一个分值,我们可以找出其百分位置。成绩成绩组中值组中值甲组甲组乙组乙组2022.5312527.51143032.56203537.510194042.518214547.52
29、1215052.529145557.528136062.54056567.53147072.53227577.51908082.51408587.51009092.540总计总计266134练习:把下列甲乙两组学生化学成绩的分布制在同一直角坐标上,以资比较3.1 算术平均数算术平均数3.2 中位数中位数 3.3 众数众数集中量是代表一组数据典型水平或集中趋势的量。集中量的作用:集中量的作用:利用集中量数可以对各个总体(或各个样本)进行比较。集中量的种类:集中量的种类:平均数 ; 中位数(Md) ; 众数(Mo)X 1、概念、概念算术平均数通常称平均数,统计上简称均值或均数,是最重要的集中量数,
30、常用 代表总体平均数, 代表样本平均数。X2公式:公式:NXX( 算术平均数= )总次数变量总和其中: =总和 X=各观察值 N=观察值的个数3.1.1 算术平均数概念算术平均数概念1. 原始数据计算法原始数据计算法例:某幼儿园大班幼儿10名,在某次计算练习中成绩分别为9,6,8,9,7,6,8,9,7,7。试计算这些幼儿的计算练习的平均成绩。NXX767798679869X)(6.71076分X3.1.2 算术平均数计算算术平均数计算解:公式:NfxX 其中: 表示各组组中值与频数乘积之和 表示频数总和( =N)fxff2. 频数分布表计算法频数分布表计算法(组中值计算法组中值计算法)例:表
31、例:表3.1 48个学生数学分数算术平均数组中值计算个学生数学分数算术平均数组中值计算算术平均数是最好的集中量数,因为它具备一个良好的集中算术平均数是最好的集中量数,因为它具备一个良好的集中量所应具备的条件。量所应具备的条件。(1)(1)优点:优点:反应灵敏:一组数据中任何一个数值发生或大或小的变化,所计算出来的算术平均数也会随之变大变小。严密确定:由同一组数据计算出来的平均数是同一个值。计算简便:只需四则运算。受抽样变动的影响较小。是计算方差、标准差、相关系数以及推断统计的基础。(2) 缺点:易受两极端数值的影响(只要一个极低值, 就会下降,反之则上升)。一组数据中某个数值模糊或不确切,就无
32、法计算其 。XX中位数是位于依一定大小顺序排列的一组数据中央位置的中位数是位于依一定大小顺序排列的一组数据中央位置的数值,大于及小于这一数值各有一半数据分布着。数值,大于及小于这一数值各有一半数据分布着。中位数普遍用符号中位数普遍用符号Md表示,在中位数前后所包含数据的次表示,在中位数前后所包含数据的次数各为数各为50%,即,即50%的分数在它上面,的分数在它上面,50%的分数在它下的分数在它下面。面。3.2.1 中位数概念中位数概念1. 原始数据计算方法原始数据计算方法将原始数据依大小顺序排列后将原始数据依大小顺序排列后,如总频数是奇数,就以位于中如总频数是奇数,就以位于中央的数据作为央的数
33、据作为Md。例:例: 有以下有以下7个数据,依次从小到大排列:个数据,依次从小到大排列:3、5、7、8、9、11、14因为数据个数为奇数,则位于中间的数值因为数据个数为奇数,则位于中间的数值8就是中位数就是中位数即:即: Md=83.2.2 中位数中位数计算方法2. 频数分布表计算法频数分布表计算法如总频数为偶数,则以最中间的的两个数据的算术平均数为如总频数为偶数,则以最中间的的两个数据的算术平均数为中位数中位数例:有以下例:有以下8个数据,依次从小到大排列个数据,依次从小到大排列 6,9,10,11,12,14,13,17 Md= 5 .1121211计算公式:计算公式:Md=Lmd+( n
34、1) (由小向大计算由小向大计算) 2Nmdfi在这里在这里 Lmd表示中位数所在组的下限表示中位数所在组的下限N表示总额数表示总额数n1表示小于中位数所在组下限的频数总和表示小于中位数所在组下限的频数总和i表示额数分布表上的组距表示额数分布表上的组距fmd表示中位数所在组的频数表示中位数所在组的频数计算步骤:计算步骤:求求 确定中位数所在组确定中位数所在组 由上往下由上往下(或由下往上或由下往上)累积频数,直至略大于累积频数,直至略大于 为止,为止,该组就是中位数所在组。该组就是中位数所在组。确定由中位数所在组取多少个频数,就能使由上往下确定由中位数所在组取多少个频数,就能使由上往下(或下往
35、上的积累频数等于或下往上的积累频数等于 ,即求,即求 n1,n1为小于为小于中位数所在组下限的频数总和中位数所在组下限的频数总和)本例中本例中 n1= -23=1242482N2N2N2N2N248计算中位数所在组所取频数的距离计算中位数所在组所取频数的距离即求即求( n1) fmd是中位数所在组的频数是中位数所在组的频数i=组距组距本例:本例:( ) =0.712Nfmdi2324875将以上求得的结果与中位数所在组的下限相加便是中位数将以上求得的结果与中位数所在组的下限相加便是中位数Md=L+( n1) (由上往下数的频数由上往下数的频数)=80+( -23) =80.71另另: Md=U
36、-( - n2) (由下往上数的频数由下往上数的频数) U表示中位数所在组的上限表示中位数所在组的上限 n2表示大于中位数所在组上限的频数总和表示大于中位数所在组上限的频数总和本例本例 Md=85-( ) =85- =80.712Nfmdi248752Nfmdi1824875730注意点:注意点: 由上往下计算由上往下计算Md时,当小于某一组下限的累积频数正好等于时,当小于某一组下限的累积频数正好等于总频数的一半,那么,该组的下限是中位数。总频数的一半,那么,该组的下限是中位数。 由下往上计算由下往上计算Md时,大于某一组上限的累积频数正好等时,大于某一组上限的累积频数正好等于于 ,那么,该组
37、的上限就是中位数。,那么,该组的上限就是中位数。 中位数是百分位数中的特例。中位数是百分位数中的特例。2N在同一数据中按次序位于某一百分位置的数值在同一数据中按次序位于某一百分位置的数值, 百分位数一百分位数一般用般用(Pp)表示表示。例:第例:第70百分位数百分位数,记作记作(P70),就是在依次从小到大排列的一组,就是在依次从小到大排列的一组数据中小于数据中小于 这个数值的有这个数值的有70个频数个频数, 大于大于 这个数值有这个数值有30个个频数的那个数值。中位数频数的那个数值。中位数(Md)就是第就是第50百分位数百分位数, 小于它小于它有有50个频数个频数, 大于它也有大于它也有50
38、个频数,它是百分位数中的特个频数,它是百分位数中的特例。例。3.2.3.1百分位数概念百分位数概念在频数分布表上可以用内插法计算某个百分位数,其计算公在频数分布表上可以用内插法计算某个百分位数,其计算公式为:式为:Pp = Lp + (p*N - n) pfi在这里:在这里: Pp表示百分位数表示百分位数 p表示与百分位数相对应的比数表示与百分位数相对应的比数 N表示总频数表示总频数 Lp表示百分位数所在组的下限表示百分位数所在组的下限 n表示小于百分位数所在组下限的频数总和表示小于百分位数所在组下限的频数总和 fp表示百分位数所在组的频数。表示百分位数所在组的频数。 i表示组距。表示组距。表
39、17:48个学生数学分数百分位数计算表3.3.1 众数的概念众数的概念是集中量的一种指标,用是集中量的一种指标,用Mo表示,它有理论众数和粗略众数两种。表示,它有理论众数和粗略众数两种。理论众数:是指与频数分布曲线最高点相对应的横坐标上的一理论众数:是指与频数分布曲线最高点相对应的横坐标上的一 点。点。粗略众数:是指一组数据中频数出现最多的那个数。粗略众数:是指一组数据中频数出现最多的那个数。3.3. 众数众数(Mo)1、用观察法直接寻找粗略众数、用观察法直接寻找粗略众数在一组原始数据中,频数出现最多的那个数值就是在一组原始数据中,频数出现最多的那个数值就是众数。众数。在一组原始数据在一组原始
40、数据2、4、3、6、4、5、4其中频数出其中频数出现最多的数值是现最多的数值是4,4就是这组数据的众数。就是这组数据的众数。在频数分布表中,频数最多一组的组中值就是粗在频数分布表中,频数最多一组的组中值就是粗略众数略众数2、用公式求理论众数的近似值、用公式求理论众数的近似值(p38)公式:公式:Mo 3Md-2 X返回l4.1 差异量的概念l4.2 全距Rl4.3 方差和标准差l4.4 差异系数1、概念、概念表示一组数据变异程度或离散程度的量称为差异量。表示一组数据变异程度或离散程度的量称为差异量。现有现有A、B、C三组测验成绩如下:三组测验成绩如下:A组:组:8、8、9、10、11、12、1
41、2 ( 10 )B组:组:5、6、8、10、12、14、15 (10 )C组:组:1、2、5、10、15、18、19 (10 ) XXX差异量越大,表示数据分布的范围越广,越不整齐。差异量差异量越大,表示数据分布的范围越广,越不整齐。差异量越小,表示数据分布越集中,变动范围越小。越小,表示数据分布越集中,变动范围越小。常用的差异量指标有全距、方差、标准差、差异系数等常用的差异量指标有全距、方差、标准差、差异系数等2、特点、特点3、种类、种类1概念:概念:一组数据中最大值与最小值之差,又称极差。一组数据中最大值与最小值之差,又称极差。(用符号用符号R表示。表示。)2计算:计算:(1) 原始原始
42、数据求全距数据求全距(R)最大值最小值最大值最小值例:两组学生某科测验分数分别为:例:两组学生某科测验分数分别为: 甲组:甲组:54、63、72、74、82、88、99、 乙组:乙组:67、71、73、76、79、82、84、3. 频数分布表求全距:频数分布表求全距:最大一组与最小一组组中值之差(或)最大一组与最小一组下限之差。表: 小学两年级80个学生身高的全距计算表身高身高(1)(1) 组中值组中值(2)(2)频数频数(3)(3)累积频数累积频数(4)(4)计算全距计算全距(5)(5)115-115-118-118-121-121-124-124-127-127-130-130-133-1
43、33-136-136-139-139-142-142-116.5119.5122.5125.5128.5131.5134.5137.5140.5143.51 13 38 810102020191912124 42 21 11 14 412122222424261617373777779798080R R143.5143.5116.5=27116.5=27或者或者R=142R=142115=27115=27总和804全距的优缺点:全距的优缺点:优点:概念清楚,意义明确,计算简便。优点:概念清楚,意义明确,计算简便。缺点:易受两个极端的数值影响。缺点:易受两个极端的数值影响。4.3.1方差:方差:
44、方差是指离差平方的算术平均数。方差是指离差平方的算术平均数。样本方差用样本方差用 表示。表示。 表示总体方差表示总体方差x224.3. 2 计算公式计算公式 x2NXX2)(X在这里:在这里: X 表示离差表示离差即每个数据与平均数的差数即每个数据与平均数的差数 表示离差平方和表示离差平方和 N表示总频数表示总频数2)( XXx4.3.3标准差标准差标准差就是离差平方和平均后的方根。标准差就是离差平方和平均后的方根。样本标准差用样本标准差用 x 表示,总体标准差用表示,总体标准差用表示表示4.3.4 计算公式计算公式1. 原始数据计算法:原始数据计算法: xNXX2)(实例:在某幼儿园大班中,
45、随机抽取实例:在某幼儿园大班中,随机抽取21名幼儿,分成甲、名幼儿,分成甲、乙、丙三乙、丙三 组,每组组,每组7人,进行看图讲述比赛,他们的成人,进行看图讲述比赛,他们的成绩分别为绩分别为:甲组:甲组:9、9、10、11、 12、13、13乙组:乙组:6、7、 9、 11、 13、15、16丙组:丙组:2、3、 6、 11、 16、19、20试求三组幼儿看图讲述成绩的标准差试求三组幼儿看图讲述成绩的标准差 三组幼儿成绩的标准差。三组幼儿成绩的标准差。 甲组:甲组: x =1.6 乙组:乙组: x =3.6 丙组:丙组: x =7.0 答:甲、乙、丙三组幼儿园看图讲故事成绩的标准差分别为答:甲、
46、乙、丙三组幼儿园看图讲故事成绩的标准差分别为1.6、3.6、和、和7.07)1113(119119222()(解:解: 三组幼儿成绩的平均数三组幼儿成绩的平均数: 11; 11; 111X3X2XX离散程度离散程度(S)(S)说明说明甲组甲组11111.61.6集中集中( (小小) )数据都集中在数据都集中在 附近附近代表性好代表性好乙组乙组11113.63.6( (居中居中) )一般一般丙组丙组11117.07.0最分散最分散( (大大) )各数据分布广各数据分布广代表性较差代表性较差X 2. 频数分布表计算法频数分布表计算法(用于数据较多的分组资料用于数据较多的分组资料) 公式: 222)
47、(NfxNfxx22)(NfxNfxx 其中: X表示各组组中值 表示各组频数 N表示总人数 例:表20:48个学生数学分数方差、标准差的组中值计算表57.52分组(1)组中值X(2)频数f(3)fx(4)=(2 ) (3) (5)=(2) (4)利用公式计算方差、标准差 50-52.5252.52 2 =12.2555-57.5057.50 060-62.5262.52 265-67.5367.53 370-72.5872.58 875-77.5777.5777.5 780-82.5782.57 785-87.5787.57 790-92.5592.55 595-97.5697.56 6总和
48、483840.00314400fx252.52222)(NfxNfxx=150=22)(NfxNfx262.5267.5272.582.5287.5292.5297.522xl3. 袖珍电子计算器统计功能计算法(1)优点:优点:反映灵敏:随任何一个数据的变化而变化反映灵敏:随任何一个数据的变化而变化计算简单:适合代数计算计算简单:适合代数计算严密确定:一组数据的方差以及标准差有确定的值严密确定:一组数据的方差以及标准差有确定的值(2)缺点:缺点:不太容易理解不太容易理解易受两极端数值的影响易受两极端数值的影响有个别数值糊涂不清时,无法计算有个别数值糊涂不清时,无法计算例根据调查,得知例根据调查
49、,得知1000名名16岁男生身高平均为岁男生身高平均为168.88公分。公分。其标准差为其标准差为6.52,体重平均为,体重平均为48.79公斤,其标准差为公斤,其标准差为6.25,试比较身高与体重哪个差异大。试比较身高与体重哪个差异大。例例. 调查所得,调查所得,8岁儿童身高平均为岁儿童身高平均为120.27公分。标准差为公分。标准差为5,16岁儿童身高平均为岁儿童身高平均为168.88公分,标准差为公分,标准差为6.52。试比较。试比较他们的身高的差异大小。他们的身高的差异大小。 1.差异系数差异系数(VC)的概念的概念差异系数是一种相对差异量数,它是凭借着算术平均数来差异系数是一种相对差
50、异量数,它是凭借着算术平均数来表示两个或两个以上标准差的相对差异。表示两个或两个以上标准差的相对差异。2.计算公式计算公式XxCV=CV=100%100%差异系数又称为相对标准差,在算术平均数不为零的情况下:差异系数又称为相对标准差,在算术平均数不为零的情况下:CV越大,表明离散程度越大越大,表明离散程度越大(数据的分布愈分散数据的分布愈分散)CV越小,表明离散程度越小越小,表明离散程度越小(数据的分布愈集中数据的分布愈集中)在这里:在这里:CV表示差异系数表示差异系数 表示标准差表示标准差 表示算术平均数表示算术平均数Xxx3. 用途用途(1) 比较不同单位比较不同单位(现象现象)的的(变异