1、课题研究数据整理与分析课题研究数据整理与分析引言课题研究引言课题研究n案例双手交叉案例双手交叉q与性别的关系与性别的关系q与文理科的关系与文理科的关系q与性格气质类型的关系与性格气质类型的关系q如何描述上述结果?如何描述上述结果?n课题研究一般过程课题研究一般过程q选择课题选择课题q实施方案实施方案q实验研究实验研究q整理结果整理结果一、常用统计数据一、常用统计数据n教育研究数据资料通常由三部分构成:教育研究数据资料通常由三部分构成:n静态资料:年龄、性别、年级、班级、职称、静态资料:年龄、性别、年级、班级、职称、学历、户籍、地区等学历、户籍、地区等n行为资料:表明行为资料:表明“是否是否”、
2、“能否能否”、“有有无无”、“常否常否”、“做否做否”、“程度程度”等等n态度资料:表明满意度、赞同度、择优度等态度资料:表明满意度、赞同度、择优度等l根据数据的连续性根据数据的连续性 离散数据离散数据数据是整数或者若干可能的结果之一。例如表数据是整数或者若干可能的结果之一。例如表明类别、品质、等级等按品质分类的数据。明类别、品质、等级等按品质分类的数据。连续数据连续数据数据是连续变量。例如分数、身高、体重等等。数据是连续变量。例如分数、身高、体重等等。l根据数据的属性:根据数据的属性: 数值型:数值型:123.1万元、万元、23.5、4700点点连续型数据:连续型数据: 温度变化,如温度变化
3、,如23.5 、离散型数据:离散型数据: 5个篮板、个篮板、120个集装个集装箱、箱、 属性型:用文字、判断等表示的数据属性型:用文字、判断等表示的数据天气晴、阴、雨;股市升、降;天气晴、阴、雨;股市升、降;CPI高、中、低;质量好、中、高、中、低;质量好、中、差,差,属性型数据都是离散的。属性型数据都是离散的。n按相互关系划分n定类数据定类数据(Categorical/Nominal Data)n由不同类别组成的数据称为定类数据。各类数据的类型和单位一般都不相同。不同类的数据之间有些可以运算,有些则不能运算。n男和女等n定序数据定序数据(Ordinal Data)n仅表明对象的排列次序的数据
4、称为定序数据,定序数据之间的差或比值一般没有意义。n例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。 n定距数据定距数据(Interval Data)n数据没有绝对的零值,没有倍数、比例关系,只有相互之间的差距有实际意义。也就是说,确定变量之间的数量差别和间隔距离。 n定比数据(定比数据(Ratio Data)n定比数据具有明确的零点,可以计算数据的比例。定类数据定类数据定序数据定序数据定距数据定距数据定比数据定比数据计数数据计数数据离散型数据离散型数据测量数据测量数据连续型数据连续型数据二、定性分析二、定性分析n概念:概念:n定
5、性分析的过程定性分析的过程n1、资料的审核、资料的审核n2、资料的分类、资料的分类n3、资料的归纳、资料的归纳n案例:形式聚焦的课堂活动中学生聚焦形式的案例:形式聚焦的课堂活动中学生聚焦形式的语言片段分析语言片段分析n1、资料的审核:考察资料的真实性、有效性、资料的审核:考察资料的真实性、有效性和准确性和准确性n通过转写对两组学生互动过程的录音,进行定通过转写对两组学生互动过程的录音,进行定性分析。性分析。 n对语言片段选择的理论基础:对语言片段选择的理论基础:Ellis(2001) n2、资料的分类:同一标准、统一层次、资料的分类:同一标准、统一层次n3、资料的归纳、资料的归纳n分析学生在两
6、项任务中的互动表现,发现大部分学生在两项任务的话分析学生在两项任务中的互动表现,发现大部分学生在两项任务的话轮中表现出来的大多是确认、再次表达和重铸、重复他人的观点。通轮中表现出来的大多是确认、再次表达和重铸、重复他人的观点。通过这种重复、确认等对话,学生在协商交流中讨论题目的正确答案,过这种重复、确认等对话,学生在协商交流中讨论题目的正确答案,并填写出正确的形式。我们可以看到,这种重复、再次表达、确认、并填写出正确的形式。我们可以看到,这种重复、再次表达、确认、重铸等活动可以有以下作用。重铸等活动可以有以下作用。三、定量分析三、定量分析n(二)类型(二)类型n描述统计描述统计n推断统计推断统
7、计二、描述统计二、描述统计n(一)定义(一)定义q主要研究如何整理心理与教育科学实验或调查得来主要研究如何整理心理与教育科学实验或调查得来的大量数据的大量数据,描述一组数据的全貌描述一组数据的全貌,表达一件事物的表达一件事物的性质性质.n(二)呈现统计资料的主要形式(二)呈现统计资料的主要形式n1、统计表、统计表n统计表是用来表达研究变量与被说明的事物之间数量统计表是用来表达研究变量与被说明的事物之间数量关系的表格。它可以将大量数据的分类结果清晰、概关系的表格。它可以将大量数据的分类结果清晰、概括、一目了然地表达出来,便于分析、比较和计算。括、一目了然地表达出来,便于分析、比较和计算。 统计表
8、的构成统计表的构成 横标目的总标目横标目的总标目 纵标目纵标目 横标目横标目 数字数字表表21 统计表的格式统计表的格式顶线顶线底线底线表线表线表号表号标题标题标目标目标目表注表注注:例:例: 表表2-2 2-2 北京市四街道智力落后患者分布北京市四街道智力落后患者分布街道街道检查人数检查人数病人数病人数患病率(患病率()甲甲518411593.1乙乙760302633.5丙丙495081903.8丁丁517881703.3总计总计2291687823.4资料来源:见资料来源:见心理学报心理学报1979年第年第1期期103页,选部分引用页,选部分引用统计表的种类统计表的种类:只按研究现象(或变
9、量)的:只按研究现象(或变量)的名称、地点、时序等列出数据的统计名称、地点、时序等列出数据的统计表。表。:只按一个标志分组的统计表:只按一个标志分组的统计表称为分组表。称为分组表。:按两个或两个以上标志分组:按两个或两个以上标志分组的统计表称为复合表。的统计表称为复合表。 简单表简单表表表2-3 各校学生数一览表各校学生数一览表学校学校校校校校校校校校人数人数9857628931051分组表分组表n表表2-4 上海市区男幼儿上海市区男幼儿20米跑步用时米跑步用时年龄组年龄组3岁岁4岁岁5岁岁6岁岁平均用时平均用时(秒秒)7.717.166.045.53资料来源:引自资料来源:引自华东师范大学学
10、报华东师范大学学报,1985年第年第2期第期第30页页复合表复合表n表表2-5 某年级操行评定结果某年级操行评定结果班别班别甲甲乙乙丙丙丁丁合计合计男男女女男男女女男男女女男男女女一班一班6588642140二班二班55910331137三班三班7698430138合计合计18162626131033115例例: : 表表2 26 6 中学生心理烦恼调查被试分布中学生心理烦恼调查被试分布推论统计推论统计n定义定义:q研究如何通过局部数据所提供的信息研究如何通过局部数据所提供的信息,推论总体的情形,推论总体的情形,目的目的在于根据在于根据的情况,在一定概率的意义上估计、推测的情况,在一定概率的意
11、义上估计、推测的情况。的情况。n内容内容q假设检验假设检验,大样本大样本(Z检验检验);小样本小样本(t检验检验);计算资料计算资料(百分数检百分数检验验,X2 检验检验),变异数分析变异数分析(F检验检验),回归分析方法回归分析方法q总体参数特征值估计方法总体参数特征值估计方法q非参数的统计方法非参数的统计方法变量、随机变量、观测值变量、随机变量、观测值n变量变量是可以取不同值的量。统计观察的指标都是是可以取不同值的量。统计观察的指标都是具有变异的具有变异的。当我们用一个量表示这个指标。当我们用一个量表示这个指标的观察结果时,这个指标是一个变量。的观察结果时,这个指标是一个变量。n用来表示随
12、机现象的变量,称为用来表示随机现象的变量,称为。一般。一般用大写的或表示随机变量。用大写的或表示随机变量。n随机变量所取得的值,称为随机变量所取得的值,称为。一个随机变。一个随机变量可以有许多个观测值。量可以有许多个观测值。总体、个体和样本总体、个体和样本n需要研究的需要研究的对象的全体,称为对象的全体,称为。 具体研究对象,称为一个具体研究对象,称为一个。n从总体中抽出的用以推测总体的从总体中抽出的用以推测总体的对象的集对象的集合称为合称为。n样本中包含的样本中包含的,称为样本的,称为样本的n。一般把容量一般把容量n 30的样本称为大样本;的样本称为大样本;而而n 30的样本称为小样本。的样
13、本称为小样本。统计量和参数统计量和参数统计指标统计指标统计量统计量参数参数平均数平均数标准差标准差S相关系数相关系数r回归系数回归系数bX次数、比率、频率与概率次数、比率、频率与概率n次数次数/频数:某一事件在某一类别中出现的数目频数:某一事件在某一类别中出现的数目n比率:两个数的比比率:两个数的比n频率:某一事件发生的次数被总的事件数目除频率:某一事件发生的次数被总的事件数目除n概率:某一事件在无限的观测中所能预料的相对概率:某一事件在无限的观测中所能预料的相对出现的次数,即某一事物或某种情况在某一总体出现的次数,即某一事物或某种情况在某一总体中出现的比率。中出现的比率。统计误差统计误差n误
14、差是测得值与真值之间的差值。误差是测得值与真值之间的差值。n测得值真值误差测得值真值误差n统计误差归纳起来可分为两类:测量误差与抽样误统计误差归纳起来可分为两类:测量误差与抽样误差。差。 n由于使用的仪器、测量方法、读数方法等问题造成由于使用的仪器、测量方法、读数方法等问题造成的测得值与真值之间的误差,称为测量误差。的测得值与真值之间的误差,称为测量误差。n由于随机抽样造成的样本统计量与总体参数间的差由于随机抽样造成的样本统计量与总体参数间的差别,称为抽样误差。别,称为抽样误差。抽样原理及其方法抽样原理及其方法n原则:原则:q随机化,在进行抽样中,总体中每一个体是否被抽随机化,在进行抽样中,总
15、体中每一个体是否被抽取,并不由研究者主观决定,而是每一个体按照概取,并不由研究者主观决定,而是每一个体按照概率原理被抽取的可能性是相等率原理被抽取的可能性是相等n抽样方法抽样方法q简单随机抽样:抽签法,随机数字法简单随机抽样:抽签法,随机数字法q等距抽样:排序,隔若干个抽取一个等距抽样:排序,隔若干个抽取一个q分层随机抽样:将总体分层,每层中随机抽样分层随机抽样:将总体分层,每层中随机抽样q两阶段随机抽样:分为两阶段两阶段随机抽样:分为两阶段:指数据不全或缺项未填;例如一份资料中未回答:指数据不全或缺项未填;例如一份资料中未回答的问题占的问题占10以上,或者缺少关键性资料。以上,或者缺少关键性
16、资料。 :指难以辨认或怀疑其真实性的数据;例如,有的:指难以辨认或怀疑其真实性的数据;例如,有的被试填答的问卷全部选同一个选项(如全选被试填答的问卷全部选同一个选项(如全选A或全选或全选B););有的被试填答的结果可以看到是一种规则的排列方式有的被试填答的结果可以看到是一种规则的排列方式(如(如A B C D E D B C A B C D E)。)。:指存在明确差错的数据或答案。:指存在明确差错的数据或答案。n对于个别极端数据是否该剔除,应遵循对于个别极端数据是否该剔除,应遵循法则。法则。1.2 统计表统计表n统计表是用来表达研究变统计表是用来表达研究变量与被说明的事物之间数量量与被说明的事
17、物之间数量关系的表格。它可以将大量关系的表格。它可以将大量数据的分类结果清晰、概括、数据的分类结果清晰、概括、一目了然地表达出来,便于一目了然地表达出来,便于分析、比较和计算。分析、比较和计算。 1.3、统计图、统计图n统计图是整理和呈现数据的另一种方统计图是整理和呈现数据的另一种方法,它把研究变量与被说明事物之间法,它把研究变量与被说明事物之间的数量关系用图形表现,的数量关系用图形表现,、地表达出事物的全貌及其数据的分布地表达出事物的全貌及其数据的分布特征,使人一目了然,便于理解和记特征,使人一目了然,便于理解和记忆,印象深刻。忆,印象深刻。 统计图的构成统计图的构成n统计图一般由统计图一般
18、由、等几部分构成。等几部分构成。n统计图中的标目由统计图中的标目由和和构成。对构成。对于有纵、横轴的统计图,一般以基线表示于有纵、横轴的统计图,一般以基线表示被观察的现象,而尺度线则表示其数量。被观察的现象,而尺度线则表示其数量。 统计图的分类统计图的分类:用直条的长短来表示统计项目数值:用直条的长短来表示统计项目数值大小的图形,主要是用来比较性质相似的间大小的图形,主要是用来比较性质相似的间断型资料。断型资料。 :是用于表示间断型资料比例的图形。:是用于表示间断型资料比例的图形。圆形的面积表示一组数据的整体,圆中扇形圆形的面积表示一组数据的整体,圆中扇形的面积表示各组成部分所占的比例。各部分
19、的面积表示各组成部分所占的比例。各部分的比例一般用百分比表示。的比例一般用百分比表示。 单式条形图单式条形图图图21 某年级操行评定结果条形图某年级操行评定结果条形图 基线尺度线图形复式条形图复式条形图图图22 某年级操行评定结果条形图某年级操行评定结果条形图例:例: 图图2-3 三项影响较大的三项影响较大的SARS信息对不同文化程度民众的影信息对不同文化程度民众的影响响00.511.522.533.544.5世卫组织对来本地旅游的警告卫生部、本市的新闻发布会所在单位和住宅区有无患者初中高中大专本科圆形图圆形图图图24 某年级操行评定结果圆形图某年级操行评定结果圆形图基线尺度线绘制圆形图的步骤
20、绘制圆形图的步骤n求出各组成部分所占的百分比求出各组成部分所占的百分比n求出各部分的中心角度求出各部分的中心角度n以顺时针方向画出扇形以顺时针方向画出扇形n标出不同颜色及百分比标出不同颜色及百分比总数量某一成分数量360总数量某一成分数量线形图线形图 n线形图用来表示连续型资料。它能表线形图用来表示连续型资料。它能表示两个变量之间的示两个变量之间的;一种事;一种事物随另一种事物变化的情况;某种事物随另一种事物变化的情况;某种事物随时间推移的物随时间推移的等。等。 n基于线形图,既可对有关统计变量进基于线形图,既可对有关统计变量进行数量比较,又可分析发展的趋势。行数量比较,又可分析发展的趋势。
21、例如:对有意义的词汇,小学一年级至初中三年级学生视觉、例如:对有意义的词汇,小学一年级至初中三年级学生视觉、听觉记忆再现率的情况。听觉记忆再现率的情况。 图图25 有意义的材料再现率比较线形图有意义的材料再现率比较线形图1.4 集中量数集中量数n集中趋势:数据分布中大量数据向某方向集中集中趋势:数据分布中大量数据向某方向集中的程度的程度n算数平均数算数平均数n中数中数n众数众数n加权平均数加权平均数n几何平均数几何平均数n调和平均数调和平均数差异量数差异量数n离中趋势:离中趋势:数据分布中彼此分散的程度,差异量越大,表数据分布中彼此分散的程度,差异量越大,表明数据越分散、不集中;差异量越小,表
22、明数据越集中,变明数据越分散、不集中;差异量越小,表明数据越集中,变动范围越小。动范围越小。n全距全距n百分位数百分位数n四分位数四分位数n平均差平均差n方差方差n标准差标准差二、平均差二、平均差平均差(平均差(average deviation 或者或者 mean deviation)是指一组数据中,每)是指一组数据中,每一个数据与该组数据的平均数离差的绝一个数据与该组数据的平均数离差的绝对值的算术平均数,通常用对值的算术平均数,通常用ADAD或或MDMD表示。表示。本书中均以本书中均以ADAD表示。表示。三、方差和标准差三、方差和标准差方差(又称为变异数、均方)。是表示一组数据方差(又称为
23、变异数、均方)。是表示一组数据离散程度的统计指标。一般样本的方差用离散程度的统计指标。一般样本的方差用 表表示,总体的方差用示,总体的方差用 表示。表示。标准差(标准差(standard deviation)是方差的算术)是方差的算术平方根。一般样本的标准差用平方根。一般样本的标准差用 S 表示,总体的表示,总体的标准差用标准差用 表示。表示。标准差和方差是描述数据离散程度的最常用的差标准差和方差是描述数据离散程度的最常用的差异量。异量。2S2表表5-1 525-1 52名学生数学成绩方差和标准差计算表名学生数学成绩方差和标准差计算表成绩成绩组中值组中值Xc频数频数fF*XcF*XC2计计 算
24、算9597.5219519012.59092.5218517112.58587.53262.522968.758082.55412.534031.257577.58620480507072.511797.557818.756567.59607.541006.25222nfXnfXScc5 .1242523775522805255 .124S16.115 5方差和标准差的意义方差和标准差的意义n方差与标准差是表示一组数据离散程度的最好指方差与标准差是表示一组数据离散程度的最好指标,是统计分析中最常用的差异量。标,是统计分析中最常用的差异量。n标准差具备一个良好的差异量应具备的条件,如:标准差具备
25、一个良好的差异量应具备的条件,如:反应灵敏,有公式严密确定,简明易懂,适合代反应灵敏,有公式严密确定,简明易懂,适合代数运算等等。数运算等等。n应用方差和标准差表示一组数据的离散程度,须应用方差和标准差表示一组数据的离散程度,须注意必须是同一类数据(即同一种测量工具的测注意必须是同一类数据(即同一种测量工具的测量结果),而且被比较样本的水平比较接近。量结果),而且被比较样本的水平比较接近。1.4 标准分数标准分数n标准分数(标准分数(standard score),又称),又称为基分数或分数(为基分数或分数(Zscore),是以),是以标准差为单位表示一个原始分数在团体标准差为单位表示一个原始
26、分数在团体中所处位置的相对位置量数。中所处位置的相对位置量数。n标准分数从分数对平均数的标准分数从分数对平均数的、该组分数的该组分数的两个方面来表示原两个方面来表示原始分数的地位。始分数的地位。 n分数可以表明原始分数在团体中的相分数可以表明原始分数在团体中的相对位置,因此称为相对位置量数。对位置,因此称为相对位置量数。n把原始分数转换成分数,就把单位不把原始分数转换成分数,就把单位不等距的和缺乏明确参照点的分数转换成等距的和缺乏明确参照点的分数转换成以标准差为单位、以平均数为参照点的以标准差为单位、以平均数为参照点的分数。分数。 2.2.标准分数的性质标准分数的性质n分数无实际单位,是以平均
27、数为参照点、分数无实际单位,是以平均数为参照点、以标准差为单位的相对量。以标准差为单位的相对量。 n一组原始分数得到的分数既有正值,也有一组原始分数得到的分数既有正值,也有负值,所有原始分数的分数之和为零。负值,所有原始分数的分数之和为零。 n一组原始数据中,各个分数的标准差为。一组原始数据中,各个分数的标准差为。n标准正态分布的平均值为,标准差为。标准正态分布的平均值为,标准差为。3.3.标准分数的优点标准分数的优点 :标准分数以团体的平均数为基准,以:标准分数以团体的平均数为基准,以标准差为单位,因而具有可比性。标准差为单位,因而具有可比性。:标准分数使不同的原始分数具有相同:标准分数使不
28、同的原始分数具有相同的参照点,因而具有可加性。的参照点,因而具有可加性。:标准分数较原始分数的意义更为明确。:标准分数较原始分数的意义更为明确。:标准分数保证了不同性质的分数在总:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地反映事实。分数中的权重相同,使分数更合理地反映事实。4 4、标准分数的应用、标准分数的应用n用于比较几个分属性质不同的观测值在用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。各自数据分布中相对位置的高低。 n计算不同质的观测值的总和或平均值,计算不同质的观测值的总和或平均值,以表示在团体中的相对位置。以表示在团体中的相对位置。 当研究需要
29、合成不同质的数据时,如果已知当研究需要合成不同质的数据时,如果已知这些不同质的观测值的次数分布为正态,这时可这些不同质的观测值的次数分布为正态,这时可采用分数来计算不同质的观测值的总和或平均采用分数来计算不同质的观测值的总和或平均值。值。n可以看到,在平均数上下可以看到,在平均数上下各各的范围内,的范围内,分布着全部数据的分布着全部数据的99.73%,反言之,在三,反言之,在三个标准差之外的数据不足个标准差之外的数据不足0.27%,因此常把,因此常把“三个三个标准差标准差”做为判断可疑值做为判断可疑值取舍的依据。取舍的依据。2.2.区间估计区间估计n以样本统计量的抽样分布(概率分布)以样本统计
30、量的抽样分布(概率分布)为理论依据,按一定概率的要求,由样为理论依据,按一定概率的要求,由样本统计量的值估计总体参数值的所在范本统计量的值估计总体参数值的所在范围,称为总体参数的围,称为总体参数的。n对总体参数值进行区间估计,就是要在对总体参数值进行区间估计,就是要在一定可靠度上求出总体参数的一定可靠度上求出总体参数的的上下限。的上下限。n要知道与所要估计的参数相对应的样本要知道与所要估计的参数相对应的样本的值,以及样本统计量的理论分布;的值,以及样本统计量的理论分布; n要求出该种统计量的要求出该种统计量的; n要确定在多大的要确定在多大的上对总体参数作估上对总体参数作估计,再通过某种理论概
31、率分布表,找出与某计,再通过某种理论概率分布表,找出与某种可靠度相对应的该分布横轴上记分的种可靠度相对应的该分布横轴上记分的,才能计算出总体参数的,才能计算出总体参数的的上下的上下限。限。 置信区间置信区间n置信度,即置信度,即,是作出某种推断,是作出某种推断时正确的可能性(概率)。时正确的可能性(概率)。,也称置信间距(,也称置信间距(confidence interval,CI)是指在某一置信度时,总)是指在某一置信度时,总体参数所在的区域距离或区域长度。体参数所在的区域距离或区域长度。置信区间是带有置信概率的取值区间。置信区间是带有置信概率的取值区间。显著性水平显著性水平n对总体平均数进
32、行区间估计时,置信概率对总体平均数进行区间估计时,置信概率表示做出正确推断的可能性,但这种估计表示做出正确推断的可能性,但这种估计还是会有犯错误的可能。显著性水平还是会有犯错误的可能。显著性水平(significance level)就是指估计总体参数就是指估计总体参数落在某一区间时,可能犯错误的概率,用落在某一区间时,可能犯错误的概率,用符号符号表示。表示。 P-n例题例题1:某小学:某小学10岁全体女童岁全体女童身高历年来标准差为身高历年来标准差为6.25厘厘米,现从该校随机抽米,现从该校随机抽27名名10岁女童,测得平均身高为岁女童,测得平均身高为134.2厘米,试估计该校厘米,试估计该
33、校10岁岁全体女童平均身高的全体女童平均身高的95和和99置信区间。置信区间。n解:解:1010岁女童的身高假定是从正态总岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标体中抽出的随机样本,并已知总体标准差为准差为=6.25=6.25。无论样本容量大小,。无论样本容量大小,一切样本平均数的标准分数呈正态分一切样本平均数的标准分数呈正态分布。于是可用正态分布来估计该校布。于是可用正态分布来估计该校1010岁女童身高总体平均数岁女童身高总体平均数9595和和9999的的置信区间。置信区间。其标准误为其标准误为2028. 12725. 6nX当当0.95时,时,1.96因此,该校因此,该校
34、10岁女童平均身高岁女童平均身高95的置信区间为:的置信区间为:nZXnZX205. 0205. 02725.696.12 .1342725.696.12 .134558.136842.131当当0.99时,时,2.58因此,该校因此,该校10岁女童平均身高岁女童平均身高99的置信区间为:的置信区间为:nZXnZX201. 0201. 02725.658.22 .1342725.658.22 .134303.137097.131n例题例题2:从某小学三年级随:从某小学三年级随机抽取机抽取12名学生,其阅读能力名学生,其阅读能力得分为得分为28,32,36,22,34,30,33,25,31,3
35、3,29,26。试估计该校三年级学生阅读能力试估计该校三年级学生阅读能力总体平均数总体平均数95和和99的置信的置信区间。区间。n解:解:1212名学生阅读能力的得分假定是从正名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差态总体中抽出的随机样本,而总体标准差未知,样本的容量较小(未知,样本的容量较小(=1230=1230),),在此条件下,样本平均数与总体平均数离在此条件下,样本平均数与总体平均数离差统计量服从呈差统计量服从呈t t分布。分布。n于是需用于是需用t t分布来估计该校三年级学生阅分布来估计该校三年级学生阅读能力总体平均数读能力总体平均数9595和和9999的置
36、信区间。的置信区间。由原始数据计算出样本统计量为由原始数据计算出样本统计量为917.29X当0.95时,11205. 0205. 01111nStXnStX112926.3201.2917.29112926.3201.2917.29522.32312.27926. 3S因此,该校三年级学生阅读能力得分因此,该校三年级学生阅读能力得分95的置信区间的置信区间为:为:201. 2205. 011t917.29X当0.99时,11201. 0201. 01111nStXnStX112926.3106.3917.29112926.3106.3917.29594.33240.26926. 3S因此,该校
37、三年级学生阅读能力得分因此,该校三年级学生阅读能力得分99的置信区间为:的置信区间为:106. 3201. 011t1.5 平均数差异检验平均数差异检验n例:某小学历届毕业生汉语拼音测验例:某小学历届毕业生汉语拼音测验平均分数为平均分数为66分,标准差为分,标准差为11.7。现以。现以同样的试题测验应届毕业生(假定应届同样的试题测验应届毕业生(假定应届与历届毕业生条件基本相同),并从中与历届毕业生条件基本相同),并从中随机抽随机抽18份试卷,算得平均分为份试卷,算得平均分为69分,分,问该校应届与历届毕业生汉语拼音测验问该校应届与历届毕业生汉语拼音测验成绩是否一样?成绩是否一样?总体平均数的显
38、著性检验总体平均数的显著性检验n总体平均数的显著性检验是指对样本平总体平均数的显著性检验是指对样本平均数与总体平均数之间的差异进行的显均数与总体平均数之间的差异进行的显著性检验。若检验的结果差异显著,可著性检验。若检验的结果差异显著,可以认为该样本不是来自当前的总体,而以认为该样本不是来自当前的总体,而来自另一个、与当前总体存在显著差异来自另一个、与当前总体存在显著差异的总体。即,该样本与当前的总体不一的总体。即,该样本与当前的总体不一致。致。1 1总体平均数显著性检验的原理总体平均数显著性检验的原理检验的思路是:假定研究样本是从平均数检验的思路是:假定研究样本是从平均数为为的总体随机抽取的,
39、而目标总体的平的总体随机抽取的,而目标总体的平均数为均数为0,检验,检验与与0之间是否存在差异。之间是否存在差异。如果差异显著,可以认为研究样本的总如果差异显著,可以认为研究样本的总体不是平均数为体不是平均数为0的总体,也就是说,的总体,也就是说,研究样本不是来自平均数为研究样本不是来自平均数为0的总体。的总体。 2 2总体平均数显著性检验的步骤总体平均数显著性检验的步骤n一个完整的假设检验过程,一般经过四一个完整的假设检验过程,一般经过四个主要步骤:个主要步骤:提出假设提出假设选择检验统计量并计算统计量的值选择检验统计量并计算统计量的值确定显著性水平确定显著性水平做出统计结论做出统计结论检验
40、步骤检验步骤n. . 提出假设提出假设 H0:0, H1:0或或 H0:66, H1:66n. .选择检验统计量并计算统计量的值选择检验统计量并计算统计量的值学生汉语拼音成绩可以假定是从正态总体学生汉语拼音成绩可以假定是从正态总体中抽出的随机样本。总体标准差已知,样中抽出的随机样本。总体标准差已知,样本统计量的抽样分布服从正态,以本统计量的抽样分布服从正态,以Z为检为检验统计量验统计量n计算计算187 .116669 09. 1nXZ0n. .确定显著性水平和检验形式确定显著性水平和检验形式显著性水平为显著性水平为=0.05,双侧检验,双侧检验n. .做出统计结论做出统计结论n查表得查表得Z=
41、1.96,而计算得到的,而计算得到的Z=1.09n|Z|,则概率,则概率P0.05n差异不显著差异不显著,应在应在0.05显著性水平接受显著性水平接受零假设零假设n结论结论:该校应届毕业生与历届毕业生汉该校应届毕业生与历届毕业生汉语拼音测验成绩一致,没有显著差异。语拼音测验成绩一致,没有显著差异。表表10101 1 双侧双侧Z Z检验统计决断规则检验统计决断规则 Z 与临界值比与临界值比较较 P值值 显著性显著性 检验结果检验结果 Z 1.96P0.05不显著不显著保留保留H0,拒绝,拒绝H11.96 Z 2.580.05P0.01显著显著在在0.05显著性显著性水平拒绝水平拒绝H0,接受接受
42、H1 Z 2.58P0.01极其显著极其显著在在0.01显著性显著性水平拒绝水平拒绝H0,接受接受H1表表10102 2 单侧单侧Z Z检验统计决断规则检验统计决断规则 Z 与临界值比与临界值比较较 P值值 显著性显著性 检验结果检验结果 Z 1.65P0.05不显著不显著保留保留H0,拒绝,拒绝H11.65 Z 2.330.05P0.01显著显著在在0.05显著性显著性水平拒绝水平拒绝H0,接受接受H1 Z 2.33P0.01极其显著极其显著在在0.01显著性显著性水平拒绝水平拒绝H0,接受接受H1n:从高二年级随机抽取两个小组,在化学教:从高二年级随机抽取两个小组,在化学教学中实验组采用启
43、发探究法,对照组采用传学中实验组采用启发探究法,对照组采用传统讲授法教学。后期统一测试,结果为:实统讲授法教学。后期统一测试,结果为:实验组验组10人平均成绩为人平均成绩为59.9,标准差为标准差为6.640;对照组对照组9人平均成绩为人平均成绩为50.3,标准差为,标准差为7.272。问两种教学方法是否有显著性差异?(根据问两种教学方法是否有显著性差异?(根据已有的经验,启发探究法优于传统讲授法)已有的经验,启发探究法优于传统讲授法)解题过程:解题过程:n1提出假设提出假设H0:12 H1: 12 n2选择检验统计量并计算选择检验统计量并计算两组化学测验分数假定是从两个正态总体两组化学测验分
44、数假定是从两个正态总体中随机抽出的独立样本中随机抽出的独立样本, 两总体标准差未知,经两总体标准差未知,经方差齐性检验两总体方差齐性,两样本容量小方差齐性检验两总体方差齐性,两样本容量小于于30。因此平均数之差的抽样分布服从。因此平均数之差的抽样分布服从t分布,分布,应以应以t为检验统计量,选用公式(为检验统计量,选用公式(11.7)计算。)计算。计算计算9109102910272. 79640. 6103 .509 .5922835. 2212121222211212nnnnnnSnSnXXt1.6方差分析方差分析方差分析又称为变异分析(方差分析又称为变异分析(analysis of var
45、iance,ANOVA),是由斯内德克),是由斯内德克(George Waddel Snedecor)提出的一)提出的一种方法。种方法。方差分析通过对方差分析通过对的的进行进行显著性检验,分析实验数据中显著性检验,分析实验数据中的的对总变异影响的大小。对总变异影响的大小。 1 1方差分析的逻辑方差分析的逻辑n方差分析作为一种统计方法,是把实方差分析作为一种统计方法,是把实验数据的总变异分解为若干个不同来验数据的总变异分解为若干个不同来源的分量。因而它所依据的基本原理源的分量。因而它所依据的基本原理是是的的。n在统计分析中,一般用方差来描述变在统计分析中,一般用方差来描述变量的变异性。量的变异性
46、。 n方差分析是将方差分析是将分解为分解为几个不同来源的几个不同来源的(实验数据(实验数据与平均数离差的平方和)。然后分与平均数离差的平方和)。然后分别计算不同来源的别计算不同来源的,并计算方,并计算方差的比值即值。根据差的比值即值。根据是否显是否显著对几组数据的差异是否显著作出著对几组数据的差异是否显著作出判断。判断。4 4方差分析中的几个概念方差分析中的几个概念n实验中的实验中的称为称为。只有一个自变。只有一个自变量的实验称为量的实验称为,两个或两个以上,两个或两个以上称为称为。n某一因素的不同情况称为因素的某一因素的不同情况称为因素的“”。n水平包括水平包括或或两类情况,按各个两类情况,
47、按各个“水平水平”条件进行的重复实验称为各种条件进行的重复实验称为各种。 FmaxFmax检验统计决断规则检验统计决断规则Fmax与临界值比与临界值比较较 P值值 显著性显著性 检验结果检验结果 FmaxFmax(df)0.05P0.05不显著不显著保留保留H0,拒绝,拒绝H1Fmax(df)0.05 Fmax Fmax(df)0.010.05P0.01显著显著在在0.05显著性显著性水平拒绝水平拒绝H0,接受接受H1Fmax Fmax(df)0.01P0.01极其显著极其显著在在0.01显著性显著性水平拒绝水平拒绝H0,接受接受H12 2方差分析的基本过程方差分析的基本过程n提出假设提出假设
48、n选择检验统计量并计算选择检验统计量并计算 分解平方和分解平方和SS 分解自由度分解自由度df 计算方差计算方差MS 计算计算F值值n作出统计结论并列方差分析表作出统计结论并列方差分析表 【例】【例】 某水产研究所为了比较四种不同配合饲料对某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。的增重结果列于下表。下一张下一张 主主 页页 退退 出出 上一张上一张 表表6-2 饲喂不同饲料的鱼的增重饲喂不同
49、饲料的鱼的增重 (单位:(单位:10g)下一张下一张 主主 页页 退退 出出 上一张上一张 这是一个单因素试验,处理数这是一个单因素试验,处理数k=4,重复数,重复数n=5。各项平方和及自由度计算如下:各项平方和及自由度计算如下: 矫正数矫正数 总平方和总平方和 03.15169)54/(8 .550/22.nkxCCCxSSijT22225 .289 .279 .3167.19903.151697 .15368下一张下一张 主主 页页 退退 出出 上一张上一张 27.11403.151693.15283)8.1397 .1234 .1319.155(51.122222CCxnSSit40.8
50、527.11467.199tTeSSSSSS 总自由度总自由度 处理间自由度处理间自由度 处理内自由度处理内自由度 用用SSt、SSe分别除以分别除以dft和和dfe便得到处理间均方便得到处理间均方MSt及处理内均方及处理内均方MSe。 因为方差分析中不涉及总均方的数值,所以不必计因为方差分析中不涉及总均方的数值,所以不必计算之。算之。191451 nkdfT3141 kdft16319tTedfdfdf34.516/40.85/09.383/27.114/eeetttdfSSMSdfSSMS下一张下一张 主主 页页 退退 出出 上一张上一张 对于【例】:对于【例】: 因为因为 F=MSt/M