1、2.3 统计数据的质量数据的误差抽抽样样误误差差抽样框误差回答误差无回答误差调查员误差非非抽抽样样误误差差数数据据的的误误差差抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差大小的因素n样本量的大小(越大误差越小,抽样误差与样本容量的平方根大致成反比)n总体的变异性(越小误差越小)非抽样误差(non-sampling error)1.相对于抽样误差而言2.除抽样误差之外的,由其他原因(人为)造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中,理论上可以避免n概率抽样,非概率抽样,全面性调查4
2、.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差误差的控制1.抽样误差可计算和控制,但不可避免2.非抽样误差的控制,理论上可以避免n调查员的挑选n调查员的培训n督导员的调查专业水平n调查过程控制n调查结果进行检验、评估n现场调查人员进行奖惩的制度2.4 统计数据的整理一、统计数据的分组一、统计数据的分组二、次数分配二、次数分配三、次数分配直方图三、次数分配直方图四、洛伦茨曲线四、洛伦茨曲线数据分组(主要研究变量分组方法)n在对数据进行分组时,分组标志是最重要的;n分组后,组内同质,组间差异;n分组是基础,汇总是中心,编表是结果;n按分组标志的多少分为简单分组和复合分组;n按分组标志的
3、性质分为品质分组和变量分组;n间隔尺度和比例尺度是按事物的数量标准划分的,又称为数量标志分组;数据分组(续)n品质分组:n性别(列名尺度):男生、女生;n成绩(顺序尺度):优、良、中、及格、不及格;n列名尺度、顺序尺度的数据是按事物的性质、属性划分;n变量分组:主要用于数值型数据n 单项式分组:单项式分组:整个数据中,将每一数据值(变量取值)作为一组;适用于离散型变量,且变量值较少的情况;n组距分组:组距分组:将全部变量值一次划分为若干数量区域,并将在每个区域的变量值作为一组;适用于连续型变量。数据分组(续)分组方法分组方法等距分组等距分组异距分组异距分组单项式分组单项式分组(适用于离散变量)
4、(适用于离散变量)组距分组组距分组组距分组(要点)1.将变量值的一个区间作为一组2.适合于连续变量、取值较多的离散变量3.原则:不重不漏,上组限不算在内,即 )4.可采用等距分组,也可采用不等距分组。当标志值变动比较均匀时,可采用等距分组。当标志值变动很不均匀时,宜采用不等距分组。分组标准:品质标志(性质、属性);数量标志(数量大小)。组距分组(要点)n等距分组n可直接根据绝对频数来观察频数分布的特征n不等距分组n各组各组绝对频数绝对频数的多少不能反映频数分布的实际的多少不能反映频数分布的实际状况状况n需要用频数密度(需要用频数密度(频数密度频数密度=频数频数组距组距)反)反映频数分布的实际状
5、况映频数分布的实际状况组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为准则(一般分5-15组)2.确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 等距组距(最大值-最小值)组数3.统计出各组的频数,并整理成频数分布表组距分组(几个概念)n1.下限下限(low limit):一个组的最小值n2.上限上限(upper limit):一个组的最大值n3.组距组距(class width):上限与下限之差4.组中值组中值(class midpoint):下限与上限之 间的中点值次数分配表次数分配:将观察值
6、按其分组标志进行分组,并计算出分配在各组内的观察值个数;两个组成要素:分组、次数(频次)。种类:品质数列:按品质标志分组 变量数列:按数量标志分组次数分配表:将数据按其分组标志进行分组,并将每组与其频次(次数)对应成表。次数分配表的编制(例题分析)次数分配表次数分配直方图直方图(histogram)1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积面积来表示各组的频数分布2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图3.若纵轴表示频率,直方图下的总面积等于1使用Excel频数函数(FREQUENCY)Excel的“直方图”工具
7、的缺陷是:频数分布和直方图没有与数据联系起来,这样,如果你改变任何一个数据,频数分布表和直方图不会跟着改变使用Excel中的统计函数“FREQUENCYFREQUENCY”来创建频数分布表和直方图,可解决这一问题。创建频数分布表的步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的“FREQUENCY”函数在对话框Date-arrayDate-array后输入数据区域,在Bins-arrayBins-array后输入接受区域同时按下ctrl-shift-Enterctrl-shift-Enter组合键,即得到频数分布分组数据的图示(直方图的绘制)8090100110
8、12013004812折线图(frequency polygon)1.折线图也称频数(次数)多边形图2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是n第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴n折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的n直方图与折线图所表示的分布规律相同,是两种面积相同但表示形式不同的次数分配图示法。观察的次数越多,组距越小且组数越多,折线图越光滑。分组数据的图示(折线图的绘制)折线图与直方图下的面
9、积相等!809010011012013004812次数分配曲线的类型次数分配曲线 举例n对称分布(钟型):身高、体重,农作物产量等;n右偏:人均收入分配,收入低的人数多,在左边形成高峰,收入高的人数较少,且收入越高的人越少,故在右边形成一个细长的尾巴;n正J 型曲线:供给曲线,随着价格(横轴)的上升,供给量(纵轴)以更快的速度增加;n倒J 型曲线:需求曲线,随着价格(横轴)的上升,需求量(纵轴)以更快的速度减少;nU 型曲线:生命曲线或浴盆曲线,人或动物的死亡 率近似服从U 型曲线。洛伦茨曲线洛伦茨曲线1.20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家帕累托
10、(V.Pareto)提出的收入分配公式绘制而成,其中人口按收入 从低到高排序。2.是一条描述收入和财富分配性质的曲线,可用来分析该国家或地区收入分配的平均程度。AB洛伦茨曲线 如果某国绝大多数人口占有很少的收入(财富),而一小部分人占有绝大部分的收入(财富),则该国的洛伦茨曲线就靠近右下方。一般的国家,收入不是绝对平均的,即不是对角线,也不是绝对不平均的。洛伦茨曲线可以分析收入(财富)分配的平均程度。AB基尼系数 1.20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标2.A:实际收入曲线与绝对平均线之间的面积3.B:实际收入曲线与绝对不平均线间的面积AB基尼系数4.如果A=0,则基尼系数=0,表示收入绝对平均5.如果B=0,则基尼系数=1,表示收入绝对不平均6.一般情况下,基尼系数在0和1之间取值7.一般认为,基尼系数小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。