现代心理及教育统计学课件.ppt_163文库

资源描述

1、现代心理与教育统计学注意的几个问题 1 克服畏难情绪 2 注意每种统计方法的使用条件第一章绪论理论统计学统计理论和方法的数理证明应用统计学统计理论和方法的应用数理统计的基础是概率论概率论所研究的是随机现象。随机概率心理与教育科学研究数据的特点用数字形式呈现语文成绩、数学成绩、人数随机性和变异性误差规律性目标是通过部分推论总体心理与教育统计学是专门研究如何运用统计学原理和方法，搜集、整理、分析心理与教育科学研究中获得的随机性数据资料，并根据这些数据资料传递的信息，进行科学推论找出心理与教育活动规律的一门学科。心理与教育统计学的内容心理与教育统计中的基本概念1 根据数据的观测

2、方法，可分为计数数据和测量数据计数数据就是计算个数的数据。例如，一个班级有35名学生，一个年级有9个班级，等。测量数据，是利用一定的测量工具或测量标准所获得的数据。例如，身高180CM，体重75KG，数学成绩90分，等。2 根据测量水平，数据可分为称名数据、顺序数据、等距数据和等比数据。称名数据，又称为类别数据，此类数据只说明某一事物与其他事物在属性上的不同。例如，男人女人、一年级二年级、中国人美国人，等。顺序数据，是按照事物的某种属性，对一系列事物进行排序后所获得的数据。等距数据，是有相同单位，但是没有绝对零点的数据。例如，温度、智力分数等。此类数据只可进行加减，不能进行乘除运算。例如，数

3、学测验中，A得了80分，B得了60分，可以说A 得分高于B，A比B高了20分，但是不能说A的数学能力是B的4/3倍。比率数据，又叫做等比数据，此类数据有相同单位、也有绝对零点。例如，长度。此类数据可以进行加减运算，也可以进行乘除运算。心理和教育学中的数据绝大多数属于前三种类型。3 根据数据的连续性，分为连续数据和离散数据。连续数据，在任意两个数据点之间都可以继续细分。如，长度而离散数据，在两个相邻数据点之间不可以细分。如人数变量、观测值和随机变量变量，是研究所关心的一种属性，由于在获得具体数据前，其数值具有不确定性，因此称其为变量。例如，青少年的身高一旦确定了某个具体数值，便称为这个变量

4、的一个观测值。与变量相对应的是常量，如圆周率变量与常量Y=X+C 由于变量在测查之前不能确定会获得什么样的数值，因此称其为随机变量。随机变量和非随机变量儿童的智力水平随机变量 Y=X+5（X=1,2,3）非随机变量总体、样本和个体总体，指具有某种特征的一类事物的全体。构成总体的单位是个体。从总体中抽取一部分个体，称为总体的一个样本。样本中个体的数目称为样本大小或样本量（n）。样本和总体大学生中国大学生武汉大学生武汉某高校大学生武汉某高校大二学生武汉某高校大二某专业学生次数、比率、频率与概率某一事件所出现的数目，称为次数，又称为频数（f）全班学生年龄为20岁的人数，即为次数。

5、两个数的比称为比率。全班20岁的10人、21岁的15人，那么比率为2/3。当分子是分母的一部分时，比率又称为比例，百分数或百分比是其中的一种特例。概率，或称为几率（P），指某一事件在总体中出现的比率，通常用比例表示。概率有的可知，有的不可知，可用有限观察得到的某事件的频率作为估计值。概率反映了某一事件发生的可能性。参数和统计量在科学研究中，我们要探究关于所有事物总体的说明和解释。总体的特征称为参数，是描述总体情况的统计指标。样本的那些特征值叫做统计量。参数通常是通过样本特征值来预测得到的。参数常用希腊字母表示，而统计量则用英文字母表示。例如，总体平均数用表示，样本平均数用表示。X第二章统

6、计图表第一节数据的初步整理科学研究中的原始数据，大多杂乱无章，需要进行整理后才能从中提取有意义的规律性知识。统计表和统计图是对数据进行初步整理，以简化形式加以表现的两种最简单的方式。对数据进行统计分类以后，得到的各种数量结果称为统计指标。把统计指标和被说明的事物之间的关系用表格的形式表示就称为统计表。统计表具有简明、清晰、准确的特点，表中的数据易于比较分析。统计图是依据数字资料，应用点、线、画、面、体、色等描绘制成，简明而又有规律，并且能显示数量的图形，它是统计数据资料的可视化显示方式。在制作图表之前，首先要对收集到的数据资料进行初步的整理，整理的基本方法有排序和统计分组两种。数据排序数

7、据排列就是按照某种标准，对收集到的杂乱无章的数据按照一定的顺序进行排列。例如数学成绩：80 79 68 92 85 91 70 由低到高：68 70 79 80 85 91 92 名字：张超梁山陈磊王峰高倩字母顺序：陈磊高倩梁山王峰张超统计分组所谓统计分组，就是根据被研究对象的特征，将所得数据划分到各个组别中。前期准备对数据做进一步的核对和校验。（此步骤在数据排列中也应该进行）分组时要注意的问题分组要以被研究对象的本质特性为基础。分类标志要明确，要能包括所有数据。分组的标志分类标志按形式可分为性质类别和数量类别两种。性质类别，主要是依据事物的属性不同将被观测的事物加以

8、划分，反映事物在组别、种类上的不同，不说明事物之间的数量差异。例如，班级、年级、性别等。数量类别，以数据的取值大小为分类标志，把数据按数值大小以分组或不分组的形式排出一个顺序来。统计表在对数据进行统计分类以后，得到的各种数量结果称为统计指标，把统计指标和被说明的事物之间的关系用表格的形式表示就成为统计表。统计表一般由表题、表号、标目、线条、数字、表注等项构成，具有简明、清晰、准确的特点，表中的数据易于进行比较分析。序号序号要写在表的左上方，序号一般以在文章中出现的先后顺序排列。名称名称又称标题，是一个表的名称，应写在表的上方。标题的用语要简洁扼要，使人一望可知该表的内容。如果用语过简，可

9、在下面附加说明，但这种情况不宜多用。标目标目即分类的项目。标目的好坏决定统计表的质量，因而要认真酌定。标目一般在表的上面一行和左侧一列。如果分类的标志只有一个，写在表的左列或上行都可以。如果分类的标目有两个，且二者没有隶属关系，则左列与上行各一个。如果两个分类标志有隶属关系，则要都在一个方位(或上面或左侧)分两行分述(见表11)。数字数字数字是统计表的语言，又称统计指标。它占据统计表的大部分空间，书写一定要整齐划一，位数要上下对齐，小数点后缺位的要补零，缺数字的项要划“”。表注表注写于表的下面。它不是统计表的必要组成部分。如果需要可对标题补充说明。数据来源、附记等都可作为表注的内容，文字

10、可长可短。另外，关于统计表的画法应注意以下几点：表的各纵行(或称纵列)之间要用线条隔开，表的两边纵线可以省去，上下两边须有横线，标目与数字间，数字与总计间，两个总标目之间都须用线条隔开。表的上下二横线线条要粗些等等。统计图统计图是依据收集的数据资料，应用点、线、面、画、体、色等描绘制成，简单明了、有规律，并且还能够显示数量的图形，是一种将统计数据资料可视化显示的方式。一个完整的统计图通常由图号及图题、图目、图尺、图形、图例和图注等项构成。图号及图题图号及图题统计图的名称为图题或标题。图题的文字应简赅，只要求能扼要叙述统计图的内容，使人一见能知道该图所要显示的是何事、何物，发生于何时、何地。

11、如果图示资料比较复杂，用语简单不能明了，这时图题可用大标题与小标题。图号是图的序号，图题与图号一般写在图的下方。图题的字体是图中所用文字中最大的，但也不能过大，要与整个图形的大小相称。一般与图形标目的顺序一致，自左至右书写。图目图目是写在图形基线图形基线上的各种不同类别、名称，或时间、空间的统计数量，即横坐标上所用的各种单位名称。在统计图的横坐标及纵坐标上都要用一定的距离表示各种单位，这些单位称为图尺，有算术单位，亦有对数单位，百分单位等等，这要根据资料的情况加以选用，图尺分点要清楚，整个图尺大小要包括所有的数据值，如果数据值大小相差悬殊，图尺可用断尺或回尺法，减少图幅。图形图形是图的主要

12、部分，图形曲线要清晰，一般除图形线外，避免书写文字。要表示不同的结果，用不同的图形线以示区别，各种图形线的含义用图例标明，图例可选图中或图外一适当位置表示，这一切的总目的是为了使整个图和谐美观和均衡。图注图注凡图形或其局部或某一点，需要借助文字或数字加以补充说明的，均称为图注。图注部分的文字要少，印刷字型要小，它可以帮助读者理解图形所示资料，提高统计图的使用价值，又不破坏图的美观。此外，一个图形要使用各种线条，这些线条因在图中的位置不同而有不同的名称。包括：图形基线(横坐标)、尺度线(纵坐标)、指导线、边框线等。第二节次数分布表次数分布显示初步整理后一组数据的分布情况。如，同一个观测值出

13、现的次数，或是每一个区间内分布的个体数目。简单次数分布表依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。分组次数分布表当数据量很大时，应该把所有的数据先划分为若干分组区间，然后将数据按其数值大小划归到相应的组别内，分别统计各个组别中包括的数据个数，再用列表形式呈现出来，就构成了分组次数分布表。步骤 1求全距。全距指最大数与最小数之间的差距。2决定组数与组距。组距是指每一组的间距，用符号i表示。组距经常用2、3、5、10、20等数值表示。组数分组数目要看数据的多少，如果数据个数在100个以上，习惯上一般分1020组，常取1216组。如果数据的总体分布为正态，可用下面的经验公

14、式计算组数(K):251.871KN分组多少与哪些因素有关?我们应该如何掌握它的标准?一般说来，分组的数目多，则组距小，计算精确。但它要求总的数据量大，否则会出现有的组距内无次数分布的现象，那将使整个数据的分布规律显示不明显，也就不能发挥次数分布表的作用了。如果分组少，组距就大，计算简单，但引进计算误差较大。因此，要做到既不增加搜集数据的工作量，又能使分组后的计算精确到最大限度，那么，按上述公式分组，是一个较好的方法。3列出分组区间。分组区间又称为分组阶段。列分组区间要注意以下几点：最高组区间内应能包含最大值的数据，最低组区间应能含最小值的数据。最高组或最低组的下限最好是组距i的整数倍。各分组

15、区间的排列顺序，一般按纵坐标单位顺序排列。为了书写方便，各分组区间只写下限的数值，然后在右侧画一横线，而且一般用整数。例如，分组区间可写为10，20，30，40等。注意注意：表述组限和实际组限的区别。组限的表述方法及实际区间范围组限的表述方法及实际区间范围 4登记次数。5计算次数(f)。各组的次数计算好后，还要计算总和即总次数。一是为了以后计算的需要，二是为了核对各组总和与数据的总数(N)是否相等。6抄录新表。登记核实后，重新制表，这个新表应有以下栏目：一栏为分组区间、二栏为组中值，各分组区间组中值的计算是精确下限加上组距i的二分之一。或精确下限与精确上限之和的一半。三栏为次数(f)，四栏为相

16、对次数，可用百分次数、或频数比率(fN)，这一栏有时可不用列出。这样整理的统计表就是次数分表。次数次数f组中值组中值相对次数相对次数累积次数累积次数累积相对次数累积相对次数小于制小于制大于制大于制小于制小于制大于制大于制90-94 1920.0250 1100 285-89 2870.0449 3 98 680-84 8820.164711 94 2275-79 8770.163919 78 3870-7410720.203129 62 58 65-69 6670.122135 42 7060-64 7620.141542 30 8455-59 2570.04 844 16 8850-54

17、4520.08 648 12 9645-49 2470.04 250 4100 501.00心理与教育统计成绩分组次数分布表心理与教育统计成绩分组次数分布表相对次数分布表将次数分布表中各组的实际次数转化为相对次数，就可制成相对次数分布表。累加次数分布表累加次数是把各组的次数由下而上或由上而下累加在一起。用累加次数表示的次数分布为累加次数分布。其他次数分布表双列次数分布表又称相关次数分布表，是对有联系的两列变量用同一个表表示其次数分布。所谓有联系的两列变量，指同一组被试两次测试的结果；各方面基本相同的两组被试的测试结果。编制方法：首先按照分组次数分布表的编制方法，分别列出各变量的分组

18、区间，将一列变量的分组区间竖列，另一横列。不等距次数分布表一般次数分布表都是等距的，实际研究中如果需要也可以列不等距的（工资级别、年龄分组等）。第三节次数分布图直方图，又名等距直方图，是以矩形的面积表示连续性随机变量次数分布的图形。图2-9 学生语文成绩绘制的直方图次数多边图，是一种表示连续性随机变量次数分布的线形图。051015202505101520253035404550556065707580859095 100次数f图2-8 90名语文成绩的次数分布多边图累加次数分布图累加直方图累加曲线图102030405060708090100人数图2-10 90名学生语文成绩累积次数分

19、布图第四节其他统计图表（一）条形图它是用相同宽度的条形长短或高度来比较图示指标数值大小的图形。条形图的排列，如果是横排的，称为带形图；如果是纵排的，称为柱形图。从图示现象的种类上分，有单式条形图、复式条形图和分段条形图等。以表2-8资料为例说明：年份199019911992199319941995册数212429222326263330734888表2-8 1990-1995年某中学图书馆藏书统计表图2-1 1990-1995年某中学图书馆藏书统计图（纵式柱形图）图2-2 1990-1995年某中学图书馆藏书统计图（横式带形图）复合条形图和分段条形图是把两套以上条形画在一起，用以反映有联系

20、的两种或两种以上的统计事项。一班二班三班数学平均分859078物理平均分757290表2-9 某中学初三毕业班数学、物理成绩统计表图2-3 某中学初三毕业班数学、物理成绩统计图（复合条形图）初一初二初三男生128118150女生114130100合计242248250表210 某中学各年级男女生人数统计表图24 某中学各年级男女生人数统计图（分段条形图）（二）圆形图是用圆开内扇形面积的大小来说明总体结构的图形。整个圆形面积代表所统计事项的总体，把圆的面积分成若干扇形，每一扇形面积的大小表示被研究总体的各个组成部分。上网时间所占百分比（%）1小时以内3.001-5小时27.006-10小时29.

21、0011-20小时21.0021小时以上20.00合计100表2-11 我国上网用户每周上网时间统计表图2-5 我国上网用户每周上网时间统计图（三）曲线图它是用曲线的升降来表现统计资料的数值变动的图形。常用来描绘统计事项总体指标的动态、研究对象间的依存关系以及总体各单位的分配情况等。月份123456789101112文稿数12535562070154212 588590表2-12 某公司1-12月打印文稿统计表图2-6 某公司1-12月打印文稿数量动态统计图散点图定义：又称点图、散布图，它是用相同大小圆点的多少或疏密表示统计资料数量大小以及变化趋势的图。通常以圆点分布的形态表示两种现象间相关

22、程度。举例：身高与体重关系散点图HIGHT190180170160150WEIGHT54525048464442第三章集中量数集中量数是用来描述一组数据集中趋势的统计量，用来反映数据分布中大量数据向某个方向集中的程度。常用的集中量数有多种，包括算术平均数、中数、众数、加权平均数以及几何平均数等。第一节算术平均数算术平均数是所有观察值的总和除以总频数所得之商，简称为平均数或均数、均值。一般用字母M表示。只有在与其它几种平均数，如几何平均数、加权平均数等相区别的时候才把它叫做算术平均数。平均数计算方法如下：未分组数据计算平均数的方法：当一组数据未进行统计分组时，想描述其典型情况，找出其代表

23、值而计算其算术平均数时可用下面的公式：iXXN例1 某班选八名同学参加年级数学竞赛，成绩分别为82，90，95，88，90，94，80，93。求其平均成绩。解：把N=8，X1=82,X8=93代入公式得8989380949088959082NXX 用估计平均数计算平均数：如果数据的数目以及每个观测数据值（即数据）都很大时，应用基本公式计算比较麻烦，可以考虑应用估计平均数简化计算。即先设定一个估计平均数，用符号AM表示，从每一个数据中减去AM，使数值变小，易于计算。最后再在计算结果中加上先前的估计平均数。计算公式如下：（P56，例3-1）xXAMN对于已列成次数分布表的分组数据，其算术平均数的计

24、算公式为NfXcX 式中Xc为组中值；f为各组次数，即权数；N为总次数=f。例3 某班50人外语期末考试成绩的次数分布如下，求全班学生的平均成绩。组别组中值Xc次数ffXc90-9492327685-89871087080-848215123075-7977861670-7472536065-6967320160-6462424855-59572114503915表3-1 某班50人外语成绩次数分布表解：将表中数据代入公式，得3.78503915NfXcX 说明：利用次数分布求得的算术平均数是一个近似值。因为我们先假设组内的数据是均匀分布的，利用各组中值分别代表各组数据，这显然与实际不符，把这

25、一误差叫分组误差。算术平均数的特点一组数据中每个观测值与平均数之差（即离均差）的总和等于0；一组数据中，如果每一个观测值都加上常数C，那么最后所得的平均数为原来的平均数加上常数C，估计平均数的公式即根据这一特点建立；一组数据中，若每一个观测值都乘以常数C，最后所得的平均数为原来的平均数乘以常数C。算术平均数的优缺点优点优点反应灵敏，一组数据中任何一个观测值或大或小的变化都可以通过算术平均数反映出来；严密确定，简明易懂，计算方便；适合于进一步用代数方法运算。算术平均值是计算其它很多统计特征值（如离均差、方差、标准差等）的重要基础；受抽样变动的影响较小。观测样本大小或个体的变化，对计算算术平

26、均数影响很小。缺点：容易受两极端数值（极大或极小）的影响；如果一组数据中某个或某些观测值的大小不够确切时就无法计算其算术平均数。算术平均数计算和应用的几个原则同质性原则：即算术平均数只在总体是由同类数据所组成且具有足够多的数据单位时，才具有科学价值和认识意义；平均数与个体数值相结合的原则：即在运用平均数作统计分析时，需要结合个体观测数值予以参考；平均数与标准差、方差相结合的原则：平均数与标准差一起都是用来描述数据总体特征的一对相互联系的统计指标。第二节中数和众数一、中数一、中数指一组数据中，居于中间位置的数，即在这组数据中，有一半的数据比它大，另一半的数据比它小。中数又称中点数、中位数或

27、者中值，常用符号Md或Mdn表示。中数可以是数据中的某一个，也可能根本不是原有的数据。中数的应用更多的表现在一些特殊的统计情境中：一组观测数据中出现两个极端数目的情境；当次数分布的两端数据或个别数据不清楚时，只能取中数作为集中趋势的代表值；当需要快速估计一组数据的代表值时，也常用到中数中数的计算方法根据数据是否分组，中数有不同的计算方法：未分组数据求中数的方法：依据概念，先将数据依其取值大小排序，然后找出位于中间的那个数，就是中数。数据组中无重复数据的情况：一组数据中没有相同的数，这时处于序列中间的那个数为中数。如果数据个数为奇数，则中数为位置的那个数；如果数据个数为偶数，则中数为居于中间位

28、置那两个数的平均数，即第与第()位置的两个数据相加除以2所得值。12N 2N12N 数据组中有重复数据的情况：计算方法基本与无重复数据的单列数据相同。如果重复数值没有位于数列中间时，中数的求法与无重复数据时的中数求法相同；当重复数值位于数列中间，那么就又要将其分为数据的个数为奇数和偶数的两种情形。11、11、11、11、13、13、13、17、17 11、11、11、11、13、13、13、17、17、18 当原始数据进行分组之后，求中数的原理与根据重复数列求中数的原理一样。中数的优缺点与应用优点：计算简单、容易理解；缺点：中数的计算不是每个数据都加入，其计算不受制于全体数据；反应不够灵敏，

29、极端值的变化对中数不产生影响；受抽样影响较大，不够稳定；计算时需先对数据按大小进行排序等等。众数又称范数、密集数、通常数，用符号表示。它是一组数据中出现次数最多的那个数的数值。oM计算众数的方法直接观察求众数：只凭观察找出出现次数最多的那个数据就是众数；用公式求众数：用公式计算的众数成为数理众数，包括皮尔逊经验法和金氏插补法两种众数的优缺点与应用优点：概念简单明了、易于理解；缺点：不太稳定；容易受分组影响，同时也易受样本变动的影响；较少受极端数据的影响，反应不够灵敏；众数不能用来做进一步的代数运算。众数的总体应用不是很广泛，具体的应用情境可能有：当一组数据出现不同质的情况时，可用众数

30、表示典型情况；当次数分布中有两极端的数目时，除了一般用中数外，也用众数；当粗略估计次数分布的形态时，有时用平均数与众数之差，作为表示数据分布是否呈现偏态的指标。平均数、众数、中数的相对位置平均数、中数与众数三者间的关系平均数、中数与众数三者间的关系第三节其他集中量数加权平均数有些测量中所得数据，单位权重并不相等。权重即为对总体而言的重要程度。计算公式：ii1122nn12niWW XW XW XW XMWWWW某年级四个班的学生人数分别为50人，52人，48人，51人，期末数学考试各班的平均成绩分别为90分，85分，88分，92分，求年级的平均成绩。解：由公式得5148525051*924

31、8*8852*8550*90WXWXw=88.74 几何平均数，Mg（或GM）表示，计算公式如下：1234NiNMgXXXXXX 已知某校四年中各年度的学生人数分别为上一年的1.12倍，1.09倍，1.08倍和1.06倍，求每年的平均增长率。解：先求出平均发展速度 09.106.108.109.112.14Mg 然后用公式：平均增长率=平均发展速度-1，求出年平均增长率。平均增长率=1.09-1=0.09故所求的年平均增长率为9%。调和平均数，用表示，因计算中先将各个数据取倒数平均，然后再取倒数，因此又称为倒数平均数。计算公式为HM1231111111111HiiNNMNXXNXXXX第四章

32、差异量数集中量数和差异量数 92 87 85 88 81 79 86 82 84 84 95 90 85 93 79 75 82 81 79 89 差异量数是指对一组数据的变异性，即对离中趋势特点进行度量和描述的统计量，也称为离散量数。差异量越大，表示数据分布的范围越广，越不整齐；差异量越小，表示数据分布得越集中，变动范围越小。常用的差异量数有全距、四分位差、百分位差、平均差、标准差与方差等等。第一节全距和百分位差全距，又称两极差，用R表示。一组数据中的最大值减去最小值而得到。全距全距（range）又称两极差，是一列数据是一列数据的最大值与最小值的差的最大值与最小值的差。RXmaxXmi

33、n 优点：全距是最简单，最容易理解的差异量数；缺点：不稳定、不可靠、不灵敏，受抽样变动的影响，是一种低效的差异量数。建议：与其它差异量数一起使用第一节全距和百分位差百分位差和四分位差百分位数，又叫百分位点，是量尺上的一个点，在此点以下包括数据分布中全部数据个数的一定百分比。第P百分位数就是指在值为P的数据以下，包括分布中全部数据的百分之p，其符号为。百分位差是取消分布两端10%的数据，即用和之间的距离作为差异量数。四分位差则是到距离的一半。pP10P90P25P75P312QQQ 计算百分位数（利用次数分布表）83页例题100bpbpbbbPNFPLifPPLFLN为所求的第个

34、百分位数；为百分位数所在组的精确下限；f为百分位数所在组的次数；为小于的各组次数之和；为总次数；i为组距。平均差、方差和标准差离差离差是离均差的简称，指一组数据中各观测值与平均数之间的差值。离差的大小表示的是观测值偏离平均数的大小。平均差平均差则指次数分布中所有原始数据与平均数绝对离差的平均值。一般用符号A.D或M.D表示。平均差的计算方法如果使用原始数据求平均差，则用下面的公式：如果使用归类分组数据计算平均差，则使用公式：式中：f为各组次数；为各组中点值对平均数离差的绝对值。.iiXXxADnn.if xADnix 方差是指离差平方和的算术平均数。即，一组数据中每个具体数据与该组平均数

35、之差、然后平方、求其和、再除以数据的总个数。作为样本统计量,用表示;作为总体参数,用符号表示。其定义公式为：222XXxsNN2s2 标准差是指离差平方和平均后的算术平方根。即方差的算术平方根，样本标准差用s或是SD表示，总体标准差用表示。其公式为：22xssN方差和标准差的计算方法原始数据计算法：将定义公式加以变形，可变成不必求离差，直接用原始数据计算方差和标准差的公式。222222()()XXNXXsNNN 例题：10名学生的中考总成绩是：450，450，500，500，500，550，550，550，600，600，650，计算其标准差。解：此例n=10，经计算得：x=5400，

36、x2=29550000，代入公式得：5.621010/540029550000/)(222nnxxS10名学生中考总成绩的标准差为62.5分。频数分布表计算法：若将原始数据已经归入频数分布表，而且原始数据又不在手边，这时可以用组中值近似计算。其计算公式为：22cfXXfxsNN22fdfdsiNN/ccdXAMiAMXfif为估计平均数；为组中值；为组距；为各组间的次数。例题2 下表是200名运动员某次竞赛标杆投掷成绩资料的次数分布表，式中，f为各组次数；x为各组的组中值；f=n为总次数，计算标准差。组别组中值（x）次数（f）fxfx244.1545.03135.06075.045.8546.

37、76280.213085.3447.5548.416774.437480.9649.2550.1221102.255220.2250.9551.8301554.080497.2052.6553.5442354.0125939.0054.3555.2281545.085317.1256.0556.9301707.097128.3057.7558.612703.241207.5259.4560.35301.518180.4561.1562.04248.015376.00合计 f=200 fx=9159.5 fx2=575507.11将表中的f、fx、fx2代入公式得：838.8200200/5.9

38、15911.575507/)(222fffxfxS200名运动员标杆投掷成绩的标准差为8.838m总标准差的合成学校中，我们了解了每个班级的情况，再了解全年级情况时，需要将班级的标准差整合成总标准差。计算总方差的公式如下：22222i iiiTiTiiiTiN sN dsNssNdXX为总方差；为个小组方差；为各小组数据个数；方差与标准差的性质和意义方差是对一组数据中各种变异的总和的测量，具有可加性和可分解性的特点。标准差是一组数据方差的平方根，它不可以进行代数计算，但具有以下特性：每一个观测值都加上一个相同常数C之后，计算得到的标准差等于原标准差；每一个观测值都乘以一个相同的常数C，则所

39、得标准差等于原标准差乘以这个常数；以上两点相结合，每一个观测值都乘以同一个非0常数C,再加一个常数d，所得的标准差等于原标准差乘以这个常数C。方差与标准差是表示一组数据离散程度最好的指标。其值越大，说明次数分布的离散程度越大，该组数据较分散；其值越小，说明次数分布的数据比较集中，离散程度越小。在描述统计中，只需要标准差就足以说明一组数据的离中趋势。标准差具备一个好的差异量数应具备的条件：反应灵敏、计算公式严密确定、容易计算、适合代数运算、受抽样变动影响小等。第三节标准差的应用一、差异系数标准差反映了一个次数分布的程度，当对同一特质使用同一种测量工具进行测量，所测样本水平比较接近时，可以直

40、接比较标准差大小。但是如果（1）两个或两个以上样本所测量的特质不同，或使用的工具不同；（2）两个或以上样本的水平相差悬殊。则不能用标准差直接比较。差异系数，又称变异系数、相对标准差，它是一种相对差异量，用CV表示，是标准差对平均数的百分比：100%sCVX二二.标准分数标准分数标准分数又称基分数或Z分数，是以标准差为单位，表示一个分数在团体中所处位置的相对相对位置位置量数。SXXZ计算公式为计算公式为注意注意：Z分数没有实际单位，如果一个数小于平均数，Z分数的值为负，大于平均数，其值为正，等于平均数其值为0，所以Z分数只是一个相对位置量数。例题4-7 Z甲（94.290）/31.4 Z乙（89

41、.190）/30.3 使用Z分数比使用平均数和原分数表达了更多的信息。把原始分数转换成Z分数，就是把单位不等距的和缺乏明确参照点的分数，转化成以标准差为单位以平均数为参照点的分数。以平均数为参照点就是以0为参照点，原始分数转换为Z分数就是转换为以1为标准差，以0为参照点的分数，故名为标准分数。（1 1）标准（）标准（Z Z）分数的性质）分数的性质：在一列数据中所有由原始分数转换得出的在一列数据中所有由原始分数转换得出的Z Z分分数之和等于零，其数之和等于零，其Z Z分数的平均数也为分数的平均数也为0 0 00*112211NSSXnXNSXXSXXSXXNZinn一组数据中各一组数据中各Z Z

42、分数的标准差为分数的标准差为1 1 1)(,)(,2222222ziiiiizNSXXNSXXNsXXsXXzNZNZZ Z分数无实际单位，是以平均数为参照点以标准差为单位的相对量数；若一列数据呈正态分布，则其转化得到的所有Z分数，是以均值为0标准差为1的标准正态分布。（2 2）标准分数的优点）标准分数的优点可比性可比性不同性质的数据，转换成标准分数后可以比较；可加性可加性原始分数转换成的标准分数可以相加，因为他们具有了相同的参照点；明确性明确性利用标准分数可以知道原始分数的百分等级；稳定性稳定性规定了其标准差为1，保证了不同性质的分数在总分数中的权重一样，使分数能更稳定全面真实

43、地反应个体的水平。（3 3）Z Z分数的应用分数的应用：Z分数可用于比较分属性质不同的观测值在各自数据分布中相对位置的高低。这样就能进行不同观测值的比较。相对位置包括两层意思：一是表示原数目以平均数为中心，以标准差为单位，所处距离距离的远近的远近或方向方向；二是表示表示原数目在该组数据分布中的位置位置，即在该数目以上或以下的数目有多少。如果是正态分布中，这两个意思合而为一，在偏态分布中就不能同一。例题：某校期中考试物理均分为80，标准差为4分，英语成绩均分为78，标准差为10分，某生物理成绩和英语成绩均为85分，问该生的英语成绩和物理哪一科更好？解：Z物理8580/41.25 Z英语8578/

44、100.8 答：该生物理成绩好于英语成绩已知不同质不同质的观测值的次数分布为正态时，可用Z分数求不同的观测值的综合的平均值综合的平均值，以表示个体在团体中的相对位置。例如高考各科成绩为正态分布，但各科成绩的难易度不同难易度不同，因此各科成绩就属于不同质不同质的分数，如果简单地将各科成绩加起来或求平均数，这是不科学的。如果用Z分数求综合才更有意义，也更科学。P110例410利用利用Z Z分数求总和分数求总和科目原始分数甲乙全体考生平均数标准差 Z分数甲乙语文政治外语数学理化85 8970 6268 72 53 4072 8770 1065 569 850 675 81.50 1.90

45、1.00 -0.60-0.125 0.3750.50 -1.67-0.375 1.50348 3502.50 1.505问题：如果这两个考生只取一个该取谁？表示标准测验分数表示标准测验分数经过标准化的心理或教育测验，如果其常模分数接近正态，常转化为标准正态分数。其转化公式为：ZaZb 式中Z为正态标准分数zXX/，a,b为常数，为测验常模的标准差。如：韦氏离差智商为：如：韦氏离差智商为：IQ15Z100注注：T分数一般是指对学生的各科成绩计算标准分数。转换公式为T 10*Z+50一、优良差异量数具备的标准1、根据客观数据资料获得；2、全部数据计算得到；3、简明、容易理解；4、计算方便；5、最

46、少受抽样变动的影响；6、采用代数方法计算，且有利于后续计算。第四节差异量数的选用二二.各种差异量数的比较各种差异量数的比较标准差标准差方差方差全距平均差百分位差四分差第五章相关关系第一节相关、相关系数与散点图一、相关相关就是事物之间的相互关系。关系可以分为三种：共变关系相关关系因果关系相关的类别正相关两列变量变动方向相同，如身高和体重。负相关两列变量变动方向相反，如练习时间和错误次数。零相关两列变量无关系，一列变量变动时，另一列变量做无规则运动，如相貌与成就。二、相关系数含义：相关系数是两列变量间相关程度的数字表现形式，是用来表示相关关系强度的指标。作为样本统

47、计量，常用r表示；作为总体参数，一般用表示，并且是指线性相关而言。性质：取值介于-1.00至+1.00之间，常用小数形式表示；符号表示相关的性质，绝对值大小表示强弱；注意：相关密切程度不能只看相关系数的大小，而应注意样本量，经过统计检验才能确定。相关系数的“+、-”号表示双变量数列之间相关的方向，正值表示正相关，负值表示负相关。相关系数r=+1时，表示完全正相关，r=-1表示完全负相关，两者都是完全相关。r=0表示完全独立，即零相关；相关系数取值的大小表示相关的强弱程度。三、散点图含义：通过点的散布形状和疏密程度显示变量间相关趋势和程度的统计图。画法：P.121 通过散点图推断相关关系的方法

48、。利用原始数据作图；利用标准分数作图。相关系数的各种可能图形相关系数的各种可能图形(a)r=(c)r 0(e)r=0yyyyyy x xxxxx(b)r=1(d)r 0(f)r=0用用Z分数绘制的散点图分数绘制的散点图 r=.742(平時考和期中考)255075100MIDMID203040506070TOTALTOTAL第二节积差相关当两个变量都是正态连续变量，而且两者之间呈线性关系时，表示这两个变量之间的相关称为积差相关，也叫皮尔逊积差相关。积差相关的使用条件两个变量都是由测量获得的连续性数据；两个变量的总体都呈正态分布。或接近正态分布，至少是单峰对称的分布；必须是成对数据，而且每对

49、数据之间相互独立；两个变量之间呈线性关系，这可由相关散点图的形状来决定；要排除共变因素的影响；样本容量n30，计算出的积差相关系数才具有有效意义。计算公式为 x、y表示两个变量的离均差，即，；N为成对数据的个数；为X变量的标准差，为Y变量的标准差。22xyxyxyrNs sxyxXXyYYxsys 利用Z分数求积差相关1XYrZ ZN 利用原始数据计算的公式如下：（1）（2）2222XYXYNrXYXYNN 2222NXYXYrNXXNYY 下面这个表记录的是10名中学生身高与体重的测量结果，想知道身高与体重之间的相关程度怎么样？根据已有资料可知中学生身高与体重的分布都呈正态，且身高、体重都

50、属于测量数据并且线性相关，因此本例可用积差相关公式计算相关数值。被试编号身高（cm）X体重（kg）YX2Y2XY1234567891017017316015517318817818318016550454744505350495245289002992925600240252992935344316843348932400272252500202522091936250028092500240127042025850077857520682086509964890089679361742517254852985252360983891 计算积差相关系数的差法公式计算积差相关系数的差法公式222

展开阅读全文