1、第二章 统计数据的收集与整统计数据的收集与整理理 统计数据的收集是取得统计数据 的过程,是进行统计分析的基础,如何取得准确、可靠的统计数据是体育统计学研究的内容之一。统计数据的整理是对统计数据的加工处理过程,以使统计数据系统化、条理化,符合统计分析的需要,它是数据收集与数据分析之间的一个必要环节。第一节第一节 统计数据的类型统计数据的类型 “statistics”当它以单数名词出现时,表示作为一门科学的“统计学”;当他以复数名词出现时,表示“统计数据”从这里可以看出,统计学与统计数据之间有着密不可分的关系。统计数据是对体育现象进行观察、测量的结果,由于统计数据具有变异,因而统计学中把它称为变量
2、。而变量的观测值即为统计数据或称为观测数据。一、按采用的测量尺度的不同分类一、按采用的测量尺度的不同分类(一)定类数据(一)定类数据 用来测量被测对象类别归属的测度称为定类尺度,按定类尺度进行测量所得的变量称为定类变量,定类变量的观测值即为定类数据,定类变量表现为类别。如对老年人参加的体育活动项目进行测量所得到的结果:健美操、跑步、太极拳、跑步等即是一组定类数据。(二)定序数据(二)定序数据 指用来测量被测对象具体属性的高低、大小、先后、优劣次序的测度称为定序尺度。按定序尺度进行测量所得的变量称为定序变量,定序变量的观测值即为定序数据。定序变量表现为有序的类别。如对长春市500名职工的经济收入
3、按高、中、低进行测量,测量结果为高、高、低、中、低等即为一组定序数据。(三)定距数据(三)定距数据 用来准确测量被测对象之间确切差距的测度称为定距尺度,按定距尺度进行测量所得的变量称为定距变量,定距变量的观测值即为定距数据。定距变量表现为数值,可进行加减运算。如对某小学学生的体育知识进行测验,测验结果为70、89、96分即为一组定距数据。(四)定比数据四)定比数据 定比尺度与定距尺度原则上属于同一层次,定比测量尺度具有定距测量尺度的所有功能,一般可不作区别。它们唯一区别在于定比尺度具有绝对零点,按定比尺度进行测量所得的变量称为定比变量,定比变量的观测值即为定比数据。定比变量也表现为数值,可进行
4、加、减、乘、除运算。如对体育学院某年级男生的跳远成绩进行测量,其结果为5.63、4.89、5.26、5.12米即为一组定比数据。二、按变量在数轴上取值情况分类(一)离散型数据 只能取有限个或可列个数值的变量称为离散型(随机)变量,足球射门次数、安静时心率等均为离散型(随机)变量,其观测值为离散型数据,也可称为计数数据。如某篮球队队员安静时心率为65、60、62、58次/分是一组离散型数据。(二)连续型数据(二)连续型数据 取值连续充满某一区间的变量称为连续型变量,运动员100米成绩、跳远成绩、12岁学生身高等均为连续型变量,其观测值为连续型数据,又称为计量数据。如测得10名12岁学生身高为1.
5、45、1.52、1.48、1.50米是一组连续型数据。第二节第二节 统计数据的收集统计数据的收集一、体育统计数据的直接来源一、体育统计数据的直接来源(一)观察法 直接观察 间接观察(二)调查法 访问调查 问卷调查等(三)实验法二、体育统计数据的间接来源二、体育统计数据的间接来源 统计数据也可以间接地通过其他渠道获取第二手数据。第二手数据主要是公开出版或公开报道的数据。第三节第三节 统计数据的整理统计数据的整理 在进行统计分析推断前必须对原始数据进行加工整理,使之系统化、条理化,以符合分析的需要。一、统计数据的审核与筛选一、统计数据的审核与筛选 对于通过直接调查获得的原始数据,应从完整性和准确性
6、两个方面去审核。对于二手数据,主要审核数据的口径以及有关背景是否与自己的研究相符。对在收集数据的过程中发现的错误应尽可能予以纠正,能设法补测的可补填或改正。无法补测或无法弄清楚的,应予以删除。二、统计数据的排序二、统计数据的排序 统计数据的排序是将数据按一定顺序排列,排序有递增和递减之分。通过数据的排序便于研究者发现统计数据中蕴含着的明显的特征或趋势。三、统计数据的分组整理三、统计数据的分组整理 频数是指落在各类别、各数值或数值区间中数据的个数,又称为次数,用f 表示。把各类别、各数值或数值区间及其相应的频数全部列出即为其频数分布,表示统计数据频数分布的表格称为频数分布表。(一)定性数据的整理
7、一)定性数据的整理 定类、定序数据都属定性数据,它本身就是对事物的一种分类,因此对其整理时除了要列出所分得的类别外,还要计算出每一类别的频数、频率等。例1为研究影响中学生体育兴趣的外部因素,在吉林省随机抽取1000名中学生进行问卷调查,其调查结果整理如下:影响吉林省中学生体育兴趣形成因素频数分布表影响吉林省中学生体育兴趣形成因素频数分布表 影响因素影响因素频数频数频率频率%学校体育12412.4 家庭18918.9 同辈群体30830.8 宣传媒体12812.8 体育明星23523.5 其它16 1.6 合计10001.00(二)定量数据的整理(二)定量数据的整理1 1、连续型数据、连续型数据
8、 对于连续型数据一般采用组距分组的方法,即将全部数据划分为若干区间,然后清点数据落入每一区间的个数,编制成频数分布表。例例2 2 测得上海市某小学80名二年级男生身高数据如下,试整理制成频数分布表。P16页(1 1)求出两极差)求出两极差 一组观测数据最大值与最小值之差叫两极差。也称为极差、全距,用R表示。minmaxxxRR=144115=29 cm(2 2)确定分组组数)确定分组组数样本含量分组组数 3060 58 60 100 710 100200 912 200500 11-16n=80 k=10(3 3)确定组距)确定组距 组距是指组与组之间的距离,用符号i 表示。计算计算公式 kR
9、i39.21029i(4 4)确定组限)确定组限 组限是指组与组之间的界限。组限又分为下组限与上组限。下组限是指每组下端的界限即起点值。上组限是指每组上端的界限即终点值。115118 118121 121124142145 115 118 121 142(5 5)列表划记)列表划记制表 排列组限 划记频数 填频数 写上表的题目 频率频率:又称相对频数,即各组频数与频数总和之比。累计频数:累计频数:是指累加到某组为止的频数和。上海市某小学二年级男生身高频数分布表上海市某小学二年级男生身高频数分布表 组组 限限频频 数数频频 率率累计频数累计频数115 1 0.01251118 3 0.03754
10、121 8 0.112124 10 0.12522127 20 0.2542130 19 0.237561133 12 0.1573136 4 0.0577139 2 0.02579142 1 0.012580 总和总和 80 1.00002 2、离散型数据、离散型数据 例例2 2 某人某人5050发射击成绩如下,试整理编制频发射击成绩如下,试整理编制频数分布表。数分布表。8 7 8 9 9 5 8 9 8 9 9 8 8 9 6 7 9 5 9 8 9 9 8 9 9 8 8 9 9 8 7 8 9 9 6 9 9 8 9 10 8 8 8 9 10 9 8 9 10 8 某人射击成绩频数分布表某人射击成绩频数分布表 环数环数5678910 频数频数22318223