1、12/22/2022.1第一章:数据的初步整理主讲:任杰12/22/2022.2一、实验数据的类型与整理(一)计数数据和测量数据:w 这是依据观测方法,或者说数据的来源进行的分类。1 1、计数数据是指计算个数的数据,一般都取整数的形式,也叫称名变量。如各年龄段被试的人数;不同性别被试的人数;实验中因变量和自变量的个数;等等。2 2、测量数据是指借助于一定的测量工具或一定的测量标准而获得的数据。如高度、重量、成绩分数、能力测验分数、各种感觉阈限等。12/22/2022.3w 测量数据按其有否相等单位和有否绝对零,又可细分为比率数据、等距数据和顺序数据。类型相等单位绝对零举例顺序数据等距数据比率数
2、据无有有无无有等级评定、喜爱程度摄氏温度、各种能力分数长度、重量、反应时,开氏温度12/22/2022.4(二)连续变量和离散变量:w 这是依据数据是否具有连续性进行的分类。1、连续变量:其变化是可以无限增加的,可以在量表(数轴)上的任何两点加以细分,取无限多个大小不同的数值。如长度、重量、时间、温度等。一般测量数据中的比率变量和等距变量都是连续变量。2、离散变量:其数量是有限的,取值一般是整数,在量表(数轴)上的任何两点中只能取得有限个数值。一般计数数据和测量数据中的顺序变量大都是离散变量。12/22/2022.5数据类型与统计方法数据类型与统计方法计数数据顺序数据离散数据非参数方法12/2
3、2/2022.6(三)数据的整理w 数据的整理是指对在研究中所获得的大量的观测数据进行整理,使那些直接获得的看起来纷乱无章的数据,显示出规律性和各种有用信息。w 根据研究对象的本质特征,将所得数据划分到各个类别中去,即分析数据的特点和种类,制定简单明了的统计图表,是整理数据的第一步,又叫数据的统计分组.12/22/2022.7二、统计表(一)定义与特点w 统计表:表示数字资料的一种重要方式,是用来表达统计指标和被说明的事物之间的数量关系的表格。w 对数据进行分类以后,所得到的各种数量结果称为统计指标。w 统计表可以给人一目了然、简洁、清晰的印象,表中的数据易于比较、分析、计算和记忆,是心理学研
4、究报告中经常采用的方法。12/22/2022.8 表2 有无提示条件下两组被试WM容量的均值和标准差及提示数目学困生学优生无提示有提示(提示数目)1.28(1.07)1.28(1.07)4.17(1.50)4.17(1.50)5.065.063.33(1.24)3.33(1.24)5.67(1.32)5.67(1.32)5.065.0612/22/2022.9表3 高低习惯化组在两种条件下的两类错误数错误类型实验条件高习惯化组低习惯化组MSDMSD记忆错误侵入错误无分心物干扰有分心物干扰无分心物干扰有分心物干扰1.532.001.593.590.621.171.421.541.815.002.
5、194.000.981.791.282.0712/22/2022.10一些相关知识:1、该实验研究的是选择性注意的分心物加工对工作记忆的影响。2、实验材料:以不同颜色显示的色字:红,绿,黄,蓝等。3、习惯化=控制条件下反应时(红,绿,黄)-习惯化条件下反应时(红,红,红)。4、侵入错误:按顺序记忆材料A和B,之后回忆A内容,这时,被试做出的反应则是B的内容,称为侵入错误。5、记忆错误:按顺序记忆材料A和B,之后回忆A内容,但被试回忆出来的既不是A也不是B,称为记忆错误。12/22/2022.11(二)如何制作统计表?统计表一般由序号、标题、标目、数字、表注和线条等构成。w 序号:要写在表的左上
6、方,序号一般以在文章中出现的先后顺序排列,一般用阿拉伯数字表示,如“2-1”2-1”或者“2.1”2.1”,其中“-”-”或“.”.”之前的数字代表该统计表所在的章节序号,之后的数字代表该统计表在该章节中是第几个表格。12/22/2022.12如何制作统计表?w 标题:是一个表的名称,应写在表的上方、序号之后。标题的用语要简洁扼要,使人一望可知该表的内容。w 标目:即分类的项目。标目的好坏决定统计表的质量,因而要认真酌定。标目一般在表的上面一行和左侧一列。w 数字:数字是统计表的语言,又称统计指标。数据的书写要整齐划一,通常位数要上下对齐,小数点后缺位的要补零,缺数字的项要划“”。12/22/
7、2022.13如何制作统计表?w 表注:写于表的下面。它不是统计表的必要组成部分。是根据需要对标题、数据来源、附记等的补充说明,文字可长可短。表注不宜多用。w 线条:统计表的线条不宜太多,一般情况下标目和数字间、总标目及其隶属标目间、数字与总计间必须用线条隔开;数字与数字间现在通用的做法是不用线条而用空白分隔;表的两边纵线可以省去;必须有上下边线,且上下边线线条要粗些,左右边线不画。12/22/2022.14(三)统计表的种类统计表可按形式及内容不同划分成不同的类型。w 简单表:只列出调查名称、地点时序或统计指标名称的统计表。w 分组表:只有一个分类标志分组的统计表。w 复合表:统计分组的标志
8、有两个或两个以上的表。若只有两个分组指标的称为两项表,若分组指标有三个的称为三项表,如此类推。12/22/2022.15表1 被试的校区分布情况校区起义路桂花岗广园麓湖龙洞合计人数7712034596935912/22/2022.16表2 上海市男幼儿20米跑步用时年龄组3岁4岁5岁6岁平均秒数7.717.166.045.5312/22/2022.17三、统计图(一)定义与特点w 统计图是指依据数字资料,应用点、线、面、体、色彩等的描绘制成整齐而有规律,简明而又知其数量的图形。w 统计图的作用表现在它可以比数字更具体、更形象地把有用信息概括地表现出来,便于理解和记忆。w 统计图的缺点在于图示的
9、数量不易精确,如果制图不当,反而会掩蔽事实真相。12/22/2022.18(二)如何制作统计图?w 统计图采用的坐标系主要有直角坐标系、角度坐标系和地理坐标系。在心理与教育研究中,对数据进行图表分析多采用前两种坐标系。w 统计图的结构一般包括图号、图题、图目、图形、图注和线条几部分。12/22/2022.19(二)如何制作统计图?w 图号:即图的序号,写在图的下方,通常也用阿拉伯数字表示,其要求与统计表的序号一致。w 图题或标题:写在图号的后面,其文字应简赅,扼要表达统计图的内容。w 图目:写在图形基线上的各种不同类别,名称,或时间、空间的统计数量,即横坐标上所用的各种单位名称。w 图形:图的
10、主要部分,图形曲线要清晰,一般除图形线外,避免书写文字。12/22/2022.20(三)如何制作统计图?w 图注:凡图形或其局部或某一点,需要借助文字或数字加以补充说明的,均称为图注;图注部分文字要少,字型要小。w 线条:图形中的线条包括:图形基线(横坐标)、尺度线(纵坐标)、指导线,边框线等。12/22/2022.21(三)统计图的种类w 条形图:用宽度相同的长条表示各个统计事项间的数量关系。主要用于表示离散型的数字资料,即计数资料,直条图又分单式与复式两种。w 线形图:以起伏的折线来表示某种事物的发展变化及演变趋势的统计图。用于连续性资料,能够较好地表示两个变量之间的函数关系,或描述某种现
11、象在时间上的发展趋势,或一种现象随另一种现象变化的情形。12/22/2022.22(三)统计图的种类w 圆形图:以单位圆内各扇形面积占整个圆形面积的百分比来表示各统计事项在其总体中所占相应比例的一种图示方法。用于间断性资料,主要为了显示各部分在整体中所占的比重,以及各部分之间的比较。w 散点图:用直角坐标系上点的散布图来表示两种事物之间的相关性及联系模式。适合于描述二元变量的观测数据。w 直方图:以矩形的面积表示频数分配的一种条形图。用来表示连续性资料的频数分配。12/22/2022.23横向单式条形图12/22/2022.24高满意度中满意度低满意度百分数80706050403020100社
12、区性质转制社区城市社区762435596不同社区居民生活满意度情况纵向单式条形图12/22/2022.25满意介于二者之间不满意人数240160800工作情况没有工作土地种植打临工有稳定工作676240252140575425455036不同工作性质居民生活满意度情况纵向复式条形图12/22/2022.2601020304050607080同意介于二者之间不同意过多的非户籍人口房屋租赁管理不规范政府投入不够当前社区治安不良原因的态度12/22/2022.2742.6%54.9%2.6%男女Missing被调查对象性别构成情况12/22/2022.28年龄9080706050403020总满意度
13、3020100不同年龄居民生活满意度情况12/22/2022.29年龄90.085.080.075.070.065.060.055.050.045.040.035.030.025.020.015.010.02001000Std.Dev=11.09 Mean=36.9N=667.00被调查对象年龄分布图12/22/2022.30四、次数分布表与图(一)相关概念次数分布:指一批数据中各个不同数值所出现的次数情况,或指一批数据在量尺上各等距区组内所出现的次数情况。w 次数分布表:把一批数据的次数分布情况用规范的表格形式加以体现,就构成了次数分布表。w 次数分布图:用图形表达一批数据的次数分布情况就构
14、成了次数分布图。12/22/2022.31(二)次数分布表的编制下面有3030个数据,试将其编成次数分布表 84,74,69,65,74,74,75,54,60,53,64,78,84,74,69,65,74,74,75,54,60,53,64,78,77,68,70,55,73,48,65,61,51,76,46,82,77,68,70,55,73,48,65,61,51,76,46,82,60,73,70,66,50,7860,73,70,66,50,7812/22/2022.321、简单次数分布表的编制1 1)求全距。全距是指所有观测数据中最大数与最小数之间的差距。用大写英文字母R R表
15、示:R=Max-MinR=Max-Min。2 2)定组数。即确定一批数据要划分为多少个等距的区组,用符号K K表示。通常根据数据的多少确定适当的组数,也可用公式K=1.87(N-1)K=1.87(N-1)2/52/5确定。3 3)定组距。组距是指每一组的间距,用符号i表示。用全距除以组数后,取整数表示组距,组距一般取奇数或5 5的倍数。12/22/2022.334)写出组限。即每个分组区间的起始点界限,现一般用整数表示。要求最高区间组内应能包含最大的数据,最低区间组内应能含最小的数据。5)求组中值。组中值一般取整数,用Xc表示,算法有三种:组中值=(组实上限+组实下限)/2=组实上限-组距/2
16、=组实下限+组距/26)登记次数。依次将数据登记到各个相应的组别内,一般用划线记数或写正字的方法。12/22/2022.347 7)计算次数(f)。各组的次数计算好后,还要计算总和即总次数。一是为了以后计算的需要,二是为了核对各组总和与数据的总数(N)是否相等。8)抄录新表。登记核实后,重新制表,这个新表应有以下栏目:一栏为分组区间,二栏为组中值(XC),三栏为次数(f),四栏为相对次数,或百分次数,或频数比率(fN)。12/22/2022.352、累积次数分布表w 累积次数分布表是指在简单次数分布表的基础上增加一个累积次数栏,这一栏的次数代表的是该分组区间实上限以下数据次数之和或实下限以上数
17、据次数之和。12/22/2022.36次数分布表组别组中值(Xc)次数(f)相对次数上限以下累积次数累积百分数42.5-47.54510.03313.347.5-52.55030.100413.352.5-57.55530.100723.357.5-62.56030.1001033.362.5-67.56540.1331446.667.5-72.57040.1331859.972.5-77.57580.2672686.677.5-82.58030.1002996.682.5-87.58510.03430100.0总和()N=301.0012/22/2022.37(三)次数分布图的绘制1 1、简
18、单次数分布图w 次数直方图:用一个个相连的直方条表示连续性随机变量次数分布的图形。n横轴为测量数据的量尺,通常不从刻度0 0开始,而根据分组区间的最低下限确定;n直方条的宽度为组距;n横轴上的刻度为各分组区间的组中值,各分组区间的直方条以此为对称点。n纵轴为次数的量尺,其刻度应等距标出,直方条的高即该分组区间的次数。12/22/2022.38成绩85.080.075.070.065.060.055.050.045.0人次1086420Std.Dev=10.57 Mean=66.4N=30.0012/22/2022.39w 次数多边形:利用闭合的折线构成多边形以反映次数变化情况的一种图示方法。w 以每个分组区间的组中值为横坐标,以各组的次数为纵坐标标点,连接各点,就成为一条折线。把折线两端画至前一组及后一组(这些组并不实际存在)的组中值点,就可以构成一个多边形。12/22/2022.4012/22/2022.412、累积次数分布图的绘制w 以每分组区间的精确(实)上限或下限为横坐标,以累积次数为纵坐标,分别标出各个交点,连接各交点即可画出累积次数曲线。w 若以累积百分数为纵坐标,画出的曲线就是累积百分数曲线。12/22/2022.42