1、1、数据审核2、数据筛选3、数据排序一、数据审核审核的内容 完整性审核应调查的单位或个体是否有遗漏调查项目或指标是否填写齐全 准确性审核内容是否真实反映客观实际情况是否有错误:逻辑检查、计算检查适用性审核数据的来源、口径以及有关的背景材料数据是否符合自己分析研究的需要 时效性审核最新的数据 确认是否必要做进一步的加工整理二、数据筛选对审核中发现的无法纠正错误,或者有些数据不符合调查的要求而又无法弥补时,就要对数据进行筛选。数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来。数据筛选(data filter)用用ExcelExcel进行数据筛选进行
2、数据筛选 7名学生统计学原理考试成绩数据(单位:分)。名学生统计学原理考试成绩数据(单位:分)。请找出平时成绩等于请找出平时成绩等于80分的学生,卷面成绩最高的前两名学生,分的学生,卷面成绩最高的前两名学生,卷面成绩大于卷面成绩大于70小于小于85的学生;平时成绩和考勤成绩大于的学生;平时成绩和考勤成绩大于80,或者总成绩大于或者总成绩大于85分的学生。分的学生。数据排序(data rank)1、数据排序就是按一定顺序将数据排列,其目的是为了便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。2、排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3、在某些场合,排序本身就
3、是分析的目的之一4、排序可借助于计算机完成(1)(2)(n)(1)(2)(n)数据排序(方法)【例3-2】仍以表3-1为例,计算总成绩并按总成绩的递增顺序排序。(一)统计分组的定义统计分组指的是根据统计研究的目统计分组指的是根据统计研究的目的和客观现象的内在特点,按照一定的标志把的和客观现象的内在特点,按照一定的标志把被研究总体划分为若干个性质不同但又有联系被研究总体划分为若干个性质不同但又有联系的组。统计分组可以使资料系统化、科学化、的组。统计分组可以使资料系统化、科学化、条理化,从而得出能够反映事物总体特征的资条理化,从而得出能够反映事物总体特征的资料。料。按品质标志进行分组,就是按研究对
4、象的某种属性特按品质标志进行分组,就是按研究对象的某种属性特征分组,能直接反映事物间质的差别,给人以明确、具体征分组,能直接反映事物间质的差别,给人以明确、具体的概念。例如,人口按性别、民族、职业、文化程度等分的概念。例如,人口按性别、民族、职业、文化程度等分组;企业按所有制分为国有、集体、联营、股份合作、其组;企业按所有制分为国有、集体、联营、股份合作、其他等组。他等组。按数量标志分组,指选择反映事按数量标志分组,指选择反映事物数量差异的数量标志作为分组标志进行分组,物数量差异的数量标志作为分组标志进行分组,例如,按学生人数分组、按人均消费水平分组、例如,按学生人数分组、按人均消费水平分组、
5、按产量分组等。按产量分组等。频数分布是在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组件的分布,又称分布数列。分布数列的两个要素:1、总体按其标志所分的组 2、组的次数或频数 (一)品质数列的编制方法(一)品质数列的编制方法(1)列出各类别(2)计算各类别的频数(3)生成频数分布表1、品质数列的编制方法、品质数列的编制方法【例3-3】一项主要针对高校教师的调查在某学校展开,调查者随机抽取了100名教师调查其文化程度。调查结果如下所示,试用Excel编制一张频数分布表。某高校100名教师文化程度频数分布表2、分类汇总的方法分类汇总的方法如果我们已经建立了一张某高校部分人事统
6、计表,如表所示。试按部门进行分类汇总。3、数据透视表(pivot table)(1)可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图(2)形成一个符合需要的交叉表(列联表)(3)注意:数据源表中的首行必须有列标题数据透视表的编制方法 仍以上题例,若按性别统计各部门的工资总额,建立一个交叉式的复合分组统计表,可使用数据透视表功能。等距分组等距分组异距分组异距分组1.将一个变量值作为一组将一个变量值作为一组2.2.适合于离散变量适合于离散变量3.3.适合于变量值较少的情况适合于变量值较少的情况单项式数列编制方法某班级某班级50名同学某科目成绩频数分布表名同学某科目成绩频数分布表1、将变
7、量值的一个区间作为一组2、适合于变量值较多的连续变量3、遵循“不重不漏”的原则4、可采用等距分组或不等距分组1.下限(low limit):一个组的最小值2.上限(upper limit):一个组的最大值3.组距(class width):上限与下限之差4.组中值(class midpoint):下限与上限之间的中点值22邻组组距下限缺上限开口组组中值邻组组距上限缺下限开口组组中值组距分组步骤1、确 定 组 数:可 以 按 美 国 学 者 斯 特 杰 斯(HA Sturges)提出的经验公式来确定)(lg3.31为观测值的个数NNK2、确定组距:组距(Class Width)是一个组的上限与下
8、限之差.组距(最大值-最小值)组数 3、统计出各组的频数,并整理成频数分布表。【例3-7】某小学图书馆2015年9月至2016年1月120天的入馆登记人数,试对数据进行分组。108120lg3.31K某小学图书馆入馆登记人数频数分布表某小学图书馆入馆登记人数频数分布表某小学图书馆入馆登记人数频数分布表某小学图书馆入馆登记人数频数分布表 为了统计分析的需要,有时需要观察某一数值以下或某一数值以上的频数(或频率)之和,就需要在分组的基础上计算出累积频数(或频率)。从变量值小的一方向变量值大的一方累加频数(或频率),称为向上累积;从变量值大的一方向变量值小的一方累加频数(或频率),称为向下累积。某小
9、学图书馆入馆登记人数频数分布表某小学图书馆入馆登记人数频数分布表条形图(bar chart)和柱形图(column chart)都可以用来表示一组或几组分类相关的数值,用宽度相同的条形的高度或长短来表示数据多少。条形图将用来表示类别的条形柱放在纵轴上柱形图将用来表示类别的条形柱放在横轴上【例3-8】一家市场调查公司为研究不同品牌手机的市场占有率,对随机抽取的一家手机销售连锁店进行了调查。调查员在某天对100名顾客购买手机的品牌进行了记录。根据原始数据整理得到频数分布表(见下表所示),试利用该资料绘制条形图。不同品牌手机分布的条形图不同品牌手机分布的条形图不同品牌手机分布的柱形图不同品牌手机分布
10、的柱形图饼图(pie chart)是用圆内扇形的面积或角度来表示数值大小的统计图形,用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。饼图主要用来研究结构性,一般只能显示一个总体或样本的构成情况。环形图(doughnut chart)与饼图类似,但可以同时绘制多个总体或样本的数据构成情况,有利于进行比较研究。不同品牌手机分布的饼形图不同品牌手机分布的饼形图【例3-9】某服装店三家分店2016年二季度营业额所占比重如下表所示,根据资料绘制环形图。某服装店三家分店营业额所占比重(某服装店三家分店营业额所占比重(%)某服装店三家分店营业额所占比重环形图某服装店三家分店营业额所占比重环形图
11、对于时间序列数据可以通过绘制折线图来反映事物发展变化的规律和趋势。折线图可以显示随时间而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布。【例3-10】2000-20142000-2014年我国三次产业的产值情况数据如下年我国三次产业的产值情况数据如下表所示,试绘制折线图。表所示,试绘制折线图。2000-2014年我国三次产业产值的折线图年我国三次产业产值的折线图 直方图(histogram)又称质量分布图,是用矩形的宽度和高度(即面积)来表示频数分布的图形。在直方图中,一般用横轴表示数据类型,纵轴表示分布情况,矩形
12、的宽度表示各组的组距,对于等距分组的数据,矩形的高度表示各组的频数。但不等距分组数据,要用矩形的面积表示各组的频数分布,或根据频数密度(密度=频数组距)来绘制直方图,就可以准确地表示各组数据的分布特征。无论是等距分组数据还是不等距分组数据,用矩形面积来表示各组频数分布更合适,因为这样可使直方图下的总面积等于1。在直方图中实际上是用矩形的面积来表示各组的频数分布。1、条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的2、直方图是用面积表示各组频数的多少,矩形的高度表示各组的频数或百分比,宽度表示各组的组距,其高度与宽度均有意义3、直方图的矩形是连续排列,条形图则是分开排列 入
13、馆人数分布直方图入馆人数分布直方图1.展示两个变量之间的关系2.用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图 小麦单产与温度的数据小麦单产与温度的数据 小麦单产与温度数据散点图小麦单产与温度数据散点图绘制时将一个变量放在横轴,一个变量放在纵轴,第三个变量用气泡的大小来表示。小麦单产与降雨量、温度的数据小麦单产与降雨量、温度的数据 小麦单产与降雨量和温度的气泡图小麦单产与降雨量和温度的气泡图1.也称为蜘蛛图(spider chart)2.显示多个变量的图示方法3.假定各变量的取值具有相同的正
14、负号,总的绝对值与图形所围成的区域成正比4.可用于研究多个样本之间的相似程度 2014年我国城乡居民平均每人生活消费支出构成(%)一、统计表的结构二、统计表的构成三、统计表的编制原则二、统计表的分类(一)简单表省级区划名称省级区划名称地级区划数地级区划数地级市地级市河北省河北省11111111山西省山西省11111111辽宁省辽宁省14141414吉林省吉林省9 98 8黑龙江省黑龙江省13131212 我国部分省行政区划我国部分省行政区划 单位:个单位:个数据来源:数据来源:根据中国统计年鉴2015整理所得。(二)简单分组表按成绩分组按成绩分组学生数(个)学生数(个)比重(比重(%)6060
15、以下以下3660-7060-7091870-8070-80122480-9080-9020409090以上以上612合计合计50100 某班某班50名同学统计学期末考试成绩分组表名同学统计学期末考试成绩分组表(三)复合分组表项项 目目博士博士硕士硕士合计合计 哲哲 学学68036744354 经济学经济学22622402126283 法法 学学28033658739390 教育学教育学9712809229063 文文 学学18872985431741 历史学历史学79945405339 理理 学学109223808049002 工工 学学18537166110184647 农农 学学23821
16、706119443 医医 学学84575273561192 军事学军事学23206229 管理学管理学34666620669672 艺术学艺术学4641504415508 我国我国2015年分学科研究生情况年分学科研究生情况数据来源:数据来源:根据中国统计年鉴2015整理所得。1、总标题应满足3W(when、where、what)要求2、数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明3、表中的上下两条横线一般用粗线,其他线用细线4、通常情况下,统计表的左右两边不封口5、表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一6、表中不应有空格,无数字的表格用“”表示,应有数字而不祥或不需的用“”表示。7、必要时可在表的下方加上注释。1.数据预处理的内容和目的2.品质数据的整理与显示方法3.数值型数据的整理与显示方法4.合理使用统计表5.用Excel作频数分布表和图形
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。