1、一、一、数据处理的概念数据处理的概念三、数据处理的前期准备三、数据处理的前期准备二、数据处理的意义二、数据处理的意义数据处理及前期准备数据处理及前期准备 数据处理就是根据调查研究的目的与任务,对搜集到数据处理就是根据调查研究的目的与任务,对搜集到的各种数据进行审核与汇总,使之条理化、系统化,的各种数据进行审核与汇总,使之条理化、系统化,以符合数据分析的需要以符合数据分析的需要。数据处理有利于发现工作中的不足。数据处理有利于发现工作中的不足。有利于提高信息资料的价值。有利于提高信息资料的价值。选择高效率的数据处理人员。选择高效率的数据处理人员。建立完善的工作制度。建立完善的工作制度。制定科学的工
2、作标准。制定科学的工作标准。一、一、数据审核数据审核二、后编码二、后编码三、数据录入三、数据录入四、数据文档的转换四、数据文档的转换五、数据库清理五、数据库清理六、数据库储存六、数据库储存一般数据处理流程图一般数据处理流程图是否需要加入新变量是否需要加入新变量是是否否是是否否(1)数据审核)数据审核数据是否可数据是否可用用剔除或返还纠错剔除或返还纠错(3)数)数 据录据录 入入(4)数据文档转换)数据文档转换(5)数据库清理)数据库清理(6)数据库储存)数据库储存加入新变量加入新变量(2)后编码)后编码数据资料的审核是数据资料处理的第一步工作。数据资料的审核是数据资料处理的第一步工作。审核方式
3、审核方式审核的一般方法审核的一般方法l 资料收集过程中的审核。资料收集过程中的审核。l 资料回收后的审核。资料回收后的审核。l 文字资料的审核方法。文字资料的审核方法。l 数字资料的审核方法。数字资料的审核方法。一般数据处理流程图一般数据处理流程图常见需审核的问题:问卷的某些部分填写不完整或记录字迹不清楚;调查对象回答差异不大;返回的调查问卷本身丢失几页;问卷的回收超过时限;问卷的填写人员不符合调查要求;问卷存在明显不一致的答案;处理方式:对于样本量较少而调查对象又比较容易确认的不合格问卷,通常采用退回现场重新调查的方式;对于无法退回现场,缺失值较少且缺失值不是关键变量的少数问卷,进行填补确实
4、值的处理;其他情况采用丢弃不合格问卷。编码指将问卷(或调查表)中的文字信息转化为编码指将问卷(或调查表)中的文字信息转化为计算机能识别的数字符号的过程,即给问卷或调计算机能识别的数字符号的过程,即给问卷或调查表的每一个题目的每一个备选答案分配一个符查表的每一个题目的每一个备选答案分配一个符码,符码通常是一个数字码,符码通常是一个数字。指将问卷或编码表中的每一题目或变量对应的代指将问卷或编码表中的每一题目或变量对应的代码读到磁盘等储存介质上,或通过键盘直接敲入码读到磁盘等储存介质上,或通过键盘直接敲入计算机中计算机中。数据编码与录入的处理方式:数据编码与录入的处理方式:(1)单项选择题录入)单项
5、选择题录入-根据题项附值,题内若有其根据题项附值,题内若有其他选项则转化为开放式问题模式录入。他选项则转化为开放式问题模式录入。(2)多项选择题录入)多项选择题录入 A多选项二分法多选项二分法-每个变量只有每个变量只有0或或1取值;取值;B多选项分类法多选项分类法-为多个答案分设变量。为多个答案分设变量。(3)开放式问题录入)开放式问题录入 A列出答案;列出答案;B合并答案;合并答案;C设置编码;设置编码;D选定编码。选定编码。你为什么喜欢喝你为什么喜欢喝A品牌的啤酒?品牌的啤酒?1因为它口味好;因为它口味好;2它具有最好的味道;它具有最好的味道;3我喜欢他的口味;我喜欢他的口味;4我不喜欢其
6、他啤酒太重的口味;我不喜欢其他啤酒太重的口味;5它最便宜;它最便宜;6它经常打折;它经常打折;7其他牌子酒使我胃不舒服;其他牌子酒使我胃不舒服;8喝这种酒头不疼;喝这种酒头不疼;9我总是选择这个牌子的;我总是选择这个牌子的;10我已经喝了我已经喝了10多年了;多年了;11它是大多数朋友喝的品牌;它是大多数朋友喝的品牌;12我的朋友基本都喝它;我的朋友基本都喝它;13我没想过;我没想过;14不知道;不知道;15没有特殊的原因。没有特殊的原因。你为什么喜欢喝A品牌的啤酒?1因为它口味好;2它具有最好的味道;3我喜欢他的口味;4我不喜欢其他啤酒太重的口味;5他最便宜;6他经常打折;7其他牌子酒使我胃
7、不舒服;8喝这种酒头不疼;9我总是选择这个牌子的;10我已经喝了10多年了;11他是大多数朋友喝的品牌;12我的朋友基本都喝它;13我没想过;14不知道;15没有特殊的原因。回答类别描述回答类别描述回答回答编编码码口味好口味好/喜欢味喜欢味道道1,2,3,41低低/较低价格较低价格5,62不会引起头痛不会引起头痛,胃痛,胃痛7,83长期喝,习惯长期喝,习惯9,104朋友喝朋友喝/受朋友受朋友影响影响11,125不知道不知道13,14,156数据文档的初始形态数据文档的初始形态 统计分析软件:如统计分析软件:如 数据库管理软件:如:数据库管理软件:如:不让有错误的数据进入统计分析过程。不让有错误
8、的数据进入统计分析过程。数据库清理是对数据库文件做以下检查:数据库清理是对数据库文件做以下检查:l 编码检查编码检查l 一致性检查一致性检查l 缺失值检查缺失值检查 一致性检查一致性检查-为了找出超出正常范围、逻辑上不合理或极端为了找出超出正常范围、逻辑上不合理或极端的数值。如一般备选答案的数值。如一般备选答案15,9为缺失值,若出现为缺失值,若出现8则错。则错。缺失值检查缺失值检查-是存在明显错误、不合理数据、漏填数据项。是存在明显错误、不合理数据、漏填数据项。处理方式:均值代替、处理方式:均值代替、估计值代替、问卷删除、估计值代替、问卷删除、结对删除。结对删除。注:不同处理方式分析结果将有
9、所不同。注:不同处理方式分析结果将有所不同。是否需要给数据库加入新的变量。是否需要给数据库加入新的变量。数据库文档通常储存在磁盘等储存介质上,另外再数据库文档通常储存在磁盘等储存介质上,另外再用一张磁盘或其他储存介质作为备份以保证安全用一张磁盘或其他储存介质作为备份以保证安全。一、一、频数分布表和统计图法频数分布表和统计图法三、多变量描述统计三、多变量描述统计二、单变量描述统计二、单变量描述统计统计分析方法的选择:1、调研问题的性质 描述性问题-如对某电视广告接触状况的反应;对某产品性能的评价;不同人对某品牌偏好差异等。采用频数分析和描述统计。关系性问题-如相关关系和因果关系。采用相关分析、回
10、归分析、方差分析等。2、数据资料的性质 品质变量-如性别、职业等。采用列联分析、非参数检验等。数量变量-如年龄、收入、销售量、知名度等,即等距、等比量表,或次序量表进行数学转换后。可采用各种方法。一、频数分布和统计图表一、频数分布和统计图表指把总体按某一标志分组,并按一定顺序列出每个组的单位指把总体按某一标志分组,并按一定顺序列出每个组的单位数,所形成的总体单位在各组间的分布;也称为数,所形成的总体单位在各组间的分布;也称为或或。把总体中各个类别及其相应的频数、频率及累计频率等指标把总体中各个类别及其相应的频数、频率及累计频率等指标用汇总表格的形式展示出来所形成表格用汇总表格的形式展示出来所形
11、成表格。找出数据的变动范围;找出数据的变动范围;确定组数和组距;确定组数和组距;确定组限(上限、下限)和组中值;确定组限(上限、下限)和组中值;计算调查数据落入各组的频数和频率。计算调查数据落入各组的频数和频率。是一种以点、线条、面积等方法描述和显示数据的形式,具是一种以点、线条、面积等方法描述和显示数据的形式,具有直观、醒目、易于理解等特点,一般由有直观、醒目、易于理解等特点,一般由、和和三部分组成。三部分组成。、等。等。一、频数分布和统计图表一、频数分布和统计图表二、单变量描述统计二、单变量描述统计指调查数据的频数分布从两边向中间集中的趋势,也称作指调查数据的频数分布从两边向中间集中的趋势
12、,也称作。指调查数据远离其分布中心值的程度。指调查数据远离其分布中心值的程度。又称均值,主要有算术平均数、调和平均数和几又称均值,主要有算术平均数、调和平均数和几何平均数等计算方法,其中以算术平均数最为常用。何平均数等计算方法,其中以算术平均数最为常用。nxnxxxxniin1211 1221121kiikkikkiix fx fx fx fxfffk二、单变量描述统计二、单变量描述统计 中位数中位数 指把一组数据按照从小到大的顺序排列后,位置指把一组数据按照从小到大的顺序排列后,位置居中的变量值,记为居中的变量值,记为 。eMiLM2110 众数众数 指数据中出现次数最多的变量值,记为指数据
13、中出现次数最多的变量值,记为 。0M21nexM2122nnexxMnnLi12二、单变量描述统计二、单变量描述统计 标准差标准差 指调查数据中各变量值与其算术平均数离差平方指调查数据中各变量值与其算术平均数离差平方的算术平均数的平方根,记为的算术平均数的平方根,记为 。s 方差方差 指标准差的平方,记为指标准差的平方,记为 。2s11122kiikiiiffxxs1122nxxsnii二、单变量描述统计二、单变量描述统计 四分位差四分位差 把调查数据按照从小到大的顺序排列后,用三把调查数据按照从小到大的顺序排列后,用三个四分位数点(个四分位数点()将其分为四个相等部分,高四分)将其分为四个相
14、等部分,高四分位数点位数点 与低四分位数点与低四分位数点 之间的距离即为之间的距离即为四分位差四分位差。321,QQQ3Q1Q 变异系数变异系数 指调查数据的标准差与其算术平均数的比值,指调查数据的标准差与其算术平均数的比值,也称为也称为离散系数离散系数,主要用于比较不同类别数据的离散程度。,主要用于比较不同类别数据的离散程度。%100 xsCV13QQQD二、单变量描述统计二、单变量描述统计三、多变量描述统计三、多变量描述统计 l 散点图散点图 以直角坐标系的横轴代表自变量以直角坐标系的横轴代表自变量x,以纵轴代表,以纵轴代表因变量因变量y,将两个变量间相对应的变量值用坐标点的形式,将两个变
15、量间相对应的变量值用坐标点的形式描绘在坐标平面上所形成的图形。描绘在坐标平面上所形成的图形。l 相关系数相关系数 在直线相关的条件下,衡量两变量之间线性相在直线相关的条件下,衡量两变量之间线性相关程度的统计指标。关程度的统计指标。niniiiniiiyxyyxxyyxxSSxyr11221)()()()cov(三、多变量描述统计三、多变量描述统计l 一元线性回归一元线性回归xy10l 多元线性回归多元线性回归innixxxy22110l 非线性回归非线性回归三、多变量描述统计三、多变量描述统计三、多变量描述统计三、多变量描述统计例题例题 下表是一份数据,其中的y是保险公司职员一周平均加班时数,
16、x是一周新签保单数,这里希望能确立一个模型来研究新签保单和员工加班时数之间的关系。实例数实例数据据周序号周序号 新签保单新签保单(X)(X)加班时数加班时数(Y)(Y)1 825 3.5 2 215 1 3 1070 4 4 550 2 5 480 1 6 920 3 7 1350 4.5 8 352 1.5 9 670 3 10 1215 5 0.00359X+118.0XbaY表表计算一元回归的中间变量计算一元回归的中间变量 周序号周序号 新签保单新签保单(X)(X)加班时数加班时数(Y)(Y)X2Y2XY 1 825 3.5 680625 12.25 2887.5 2 215 1 462
17、25 1 215 3 1070 4 1144900 16 4280 4 550 2 302500 4 1100 5 480 1 230400 1 480 6 920 3 846400 9 2760 7 1350 4.5 1822500 20.25 6075 8 352 1.5 123904 2.25 528 9 670 3 448900 9 2010 10 1215 5 1476225 25 6075 查表求F的临界值,将F值与其比较,判断模型(回归方程)是否可用。查表知,当 即置信度为0.95或95%时,分子自由度为1,分母自由度为8的F临界值为11.26,F值远远大于F临界值,所以模型的可
18、信度不低于95%,在此标准水平上模型是完全可用的,因为在此标准水平上因变量与自变量之间确实存在线性相关关系。表表一元回归方差分析表一元回归方差分析表 平方和平方和 自由度自由度 平均平方和平均平方和 F F值值回归回归 16.882 1 16.682 72.396 残差残差 1.843 8 0.230 总和总和 18.525 9 72.360.23016.682 平均残差平方和平均残差平方和平均回归平方和平均回归平方和MSEMSRF05.0一、参数估计一、参数估计 三、方差分析三、方差分析二、假设检验二、假设检验一、参数估计一、参数估计指在满足一定精度和把握程度的条件下,利用样本指在满足一定精
19、度和把握程度的条件下,利用样本信息来估计总体特征的统计分析方法。信息来估计总体特征的统计分析方法。指直接用样本估计量作为总体未知参数的估计量;指直接用样本估计量作为总体未知参数的估计量;该方法简便、直观,但无法提供误差程度的准确信息。该方法简便、直观,但无法提供误差程度的准确信息。指以区间的形式给出总体参数的取值范围和推指以区间的形式给出总体参数的取值范围和推断的把握程度;该方法弥补了点估计不能给出推断把握程断的把握程度;该方法弥补了点估计不能给出推断把握程度的不足。度的不足。(1 1)对于正态总体,当总体方差对于正态总体,当总体方差 已知时,总体已知时,总体均值均值 的置信度为的置信度为 的
20、置信区间为:的置信区间为:21nZxnZx2/2/,(2 2)对于正态总体,当总体方差)对于正态总体,当总体方差 未知时,总体未知时,总体均值均值 的置信度为的置信度为 的置信区间为:的置信区间为:21nsntxnsntx)1(,)1(2/2/一、参数估计一、参数估计 二、假设估计二、假设估计。p0H 例题:例题:现代人喝茶越来越多,对茶也越来越讲究。此调查目的就是研究在公寓小区里开设一家茶叶店计划的可行性。该小区总共有5000人,抽选是按不放回简单随机抽样的随机数表方法。右表的数据是调查资料的一部分,50个人从一个公寓小区抽选。数据处理人员据此进行常规统计分析,以便得到该小区居民的整体情况。
21、实例实例数据数据(一)计数(一)计数计算出符合特定条件的全部个体数目。从上表可以很容易地看出,男性 =24 女性 =26(二)比例(二)比例 比例比例=整体整体部分部分男性比例男性比例(n1/n)100%24/50100%48%(三)分布(三)分布 为了计算年龄分布,需规定分组标准,据此进行分组,在这之前要首先按年龄进行排序。组别组别 1 2 3 4 5 年龄年龄 =60频数频数 18 14 8 6 4(四)平均数与标准差(四)平均数与标准差 概括反映分布状况的两个基本指标,平均数说明样本或总体某一变量的一般水平,标准差则刻划样本或总体某一变量相对于平均数的差异大小。(五)估计总体参数(五)估计总体参数 样本参数计算以计数和加总为基础,总体参数估计以比例和平均数为基础,并且需要考虑与样本均值的抽样分布和样本比例的抽样分布有关系,因此要计算抽样方差 和进行区间估计:nZxnZx2/2/,nsntxnsntx)1(,)1(2/2/谢谢!谢谢!
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。