[计算机软件及应用]数据的计量尺度课件.ppt

上传人(卖家):晟晟文业 文档编号:4105848 上传时间:2022-11-11 格式:PPT 页数:58 大小:1.25MB
下载 相关 举报
[计算机软件及应用]数据的计量尺度课件.ppt_第1页
第1页 / 共58页
[计算机软件及应用]数据的计量尺度课件.ppt_第2页
第2页 / 共58页
[计算机软件及应用]数据的计量尺度课件.ppt_第3页
第3页 / 共58页
[计算机软件及应用]数据的计量尺度课件.ppt_第4页
第4页 / 共58页
[计算机软件及应用]数据的计量尺度课件.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、数据的计量尺度与类型:例子数据的计量尺度与类型:例子定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度精精确确程程度度良好良好19801980134134公斤公斤中国中国国籍:国籍:健康状况:健康状况:出生年份出生年份:体重:体重:(1)定类尺度定类尺度(Nominal Scale)也称分类尺度也称分类尺度例如:例如:性别、民族、职业性别、民族、职业数据表现为数据表现为“类别类别”各类之间各类之间无等级次序无等级次序 各类别可以用数字代码表示各类别可以用数字代码表示根据定类尺度得到的数据为根据定类尺度得到的数据为分类数据。分类数据。(2)定序尺度定序尺度(Ordinal Scal

2、e)也称顺序尺度也称顺序尺度例如例如健康状况、质量等级健康状况、质量等级可对等级、大小等排序可对等级、大小等排序未测量出类别之间的准确差值未测量出类别之间的准确差值根据定序尺度得到的数据为顺序数据。根据定序尺度得到的数据为顺序数据。(3)定距尺度定距尺度(Interval Scale)也称间隔尺度也称间隔尺度例如例如年份、摄氏温度年份、摄氏温度数据表现为数据表现为“数值数值”可以进行加减运算可以进行加减运算“0”是只是尺度上的一个点,不代表是只是尺度上的一个点,不代表“不存在不存在”根据定距尺度得到的数据为间距数据。根据定距尺度得到的数据为间距数据。(4)定比尺度定比尺度(Ratio Scal

3、e)也称比率尺度也称比率尺度例如例如体重、身高体重、身高数据表现为数据表现为“数值数值”可以进行加减、乘除运算可以进行加减、乘除运算“0”表示表示“没有没有”或或“不存在不存在”根据定比尺度得到的数据为比根据定比尺度得到的数据为比率数据。率数据。四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度 分类分类(=,)排序排序()间距间距(+,-)比值比值(,)计量尺度计量尺度数学特性数学特性四种计量尺度的比较四种计量尺度的比较 1、四种尺度所包含的信息量是依次递增的,级、四种尺度所包含的信息量是依次递增的,

4、级别由低到高。别由低到高。2、根据较高层次的计量尺度可以获得较低层次、根据较高层次的计量尺度可以获得较低层次的计量尺度。的计量尺度。3、不同的尺度数据对应着不同数据显示方法和、不同的尺度数据对应着不同数据显示方法和分析方法。分析方法。8/20数据的基本类型 问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,详细举例介绍如下:9/203.2 统计图数据类型数据类型定性数据定性数据定量数据定量数据条形图条形图饼饼 图图线线 图图茎叶图茎叶图箱线图箱线图直方图直方图3.2.1 线图(Line Chart)利用线形的升降起伏来表现描述的变量在一段时期内

5、的变动情况,主要用于显示时间数列的数据。1996年-2003年城乡居民人民币储蓄存款年底余额闹计SARS發生可能評估1009080706050403020100百分比20100性別男女双变项线形图(延伸线)输出结果双变项线形图(复线图)输出结果3.2.1 线图(Line Chart)3.2.2 条形图(Bar Chart)用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。2003年我国就业人员情况(万人)3.2.3 圆形图(Pie Chart)也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占

6、比例等。2003年我国国内生产总值中各产业比重年齡分組遺漏60歲以上50-59.99歲40-49.99歲35-39.99歲30-34.99歲25-29.99歲20-24.99歲20歲以下3.2.4 直方图(Histogram)用来反映定量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。注意注意对不等距分组:纵轴必须表示为频数密度纵轴必须表示为频数密度。频数密度频数密度=频数/组距(面积之和=总频数)手工绘制直方图时需要先对数据进行分组;用统计软件spss作直方图时统计软件可以自动进行分组。直方图(等距分组)某会计师事务所对

7、某会计师事务所对20家公司家公司进行年终审计所需时间(天)进行年终审计所需时间(天)的频数分布表的频数分布表审计时间(天)频数10-15415-20820-25525-30230-351合计20直方图(不等距分组)某会计师事务所对某会计师事务所对20家公家公司进行年终审计所需时间司进行年终审计所需时间(天)的(天)的频数分布频数分布表表审计时间(天)频数频数密度10-1540.815-2081.620-255125-3530.3合计20-直方图与条形图的异同 都是用来反映数据的分布状况,适用于不同类型的数据。条形图条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图直

8、方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。树叶的竖列要对齐,以计算各组的次数。原始数据:24,26,24,21,27,27,30,41,32,38从小到大排序后的数据:21,24,24,26,27,27,30,32,38,413 0 2 84 12 1 4 4 6 7 7303.2.5 茎叶图(Stem-and-Leaf Di

9、splay)茎叶图SPSS Statistics生成的一个茎叶图40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64Stem-and-Leaf PLot frequency Stem&Leaf 9.00 2.677888999 4.00 3.3344 8.00 3.55566679 10.00 4.0011222233 3.00 4.588 4.00 5.0112 1.00 5.5 1.

10、00extremeS (=64)Stem width:10.00 each Leaf:1 caSe(S)常用的集中趋势的测度指标:算术平均数中位数众数l集中趋势集中趋势:一组数据向其中:一组数据向其中心值靠拢的倾向和程度。心值靠拢的倾向和程度。l集中趋势测度集中趋势测度:寻找数据水:寻找数据水平的代表值或中心值。平的代表值或中心值。4.1.1 算术平均数(均值,Arithmetic Mean)总体均值常用 表示。样本均值常用 表示。样本均值的计算公式:简单平均数:加权平均数(分组数据):或_Xxnxxnii1kiikiiiffxx11 4.1 集中趋势的测定集中趋势的测定算术平均数的性质 1、

11、所有的定量数据都有算术平均数。2、计算算术平均数时使用了所有数据。3、一组数只有一个均值。4、各变量值与均值的离差之和等于零。0)(xx张村有个张千万,张村有个张千万,九个邻居穷光蛋;九个邻居穷光蛋;统计平均算资产,统计平均算资产,个个都是张百万。个个都是张百万。l缺点:缺点:l易受极端值的影响。一组数据按大小顺序排列后,处在数列中点位置的数值。特点:对一组数据是唯一的。不受极端值的影响。主要用于顺序数据,也可用数值型数据,但不能用于分类数据。4.1.2 中位数中位数(Median)4.1 集中趋势的测定集中趋势的测定根据原始数据计算中位数n为奇数时等于第(n+1)/2个数。n为偶数时等于第n

12、/2和n/2+1个数的平均值1,2,5,9,11中位数中位数=51,2,5,9,11,18中位数中位数=(5+9)/2=7 一组数据中出现次数最多的变量值。主要特点:不受极端值的影响。有的数据无众数或有多个众数。对未分组定量资料很少使用。4.1.3 众数众数(Mode)4.1 集中趋势的测定集中趋势的测定众数的不惟一性众数众数无众数无众数众数众数 1众数众数2众数、中位数和算术平均数的关系0_MMxe对称分布对称分布 均值均值=中位数中位数=众数众数左偏分布左偏分布均值均值 中位数中位数 众数众数0_MMxe右偏分布右偏分布众数众数 中位数中位数均值均值_0 xMMe 反映各变量值远离其中心值

13、的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。l常用指标:常用指标:l全距(极差)l四分位距l方差和标准差l离散系数 4.2 离散程度的测定离散程度的测定三个不同的曲线表示三个不同的总三个不同的曲线表示三个不同的总体,其体,其均值相同均值相同,但,但离散趋势不同离散趋势不同。全距也称极差,是一组数据的最大值与最小值之差。R=最大值最小值 组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。全距=?2,5,6,7,8,9,10,12,15,16,204.2.1 全距全距(Range)4.2 离散程度的测定离散程度的测定 等于上四分位数与下四分位数之差 反映了中间50%

14、数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。13QQIQR2,5,6,7,8,9,10,12,15,16,20Q1=6,Q2=9,Q3=154.2.2 四分位距四分位距(Inter-Quartile Range)4.2 离散程度的测定离散程度的测定 方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。总体方差和样本方差的符号不同,计算公式也不一样。是反映定量数据离散程度的最常用的指标。4.2.3 方差和标准差方差和标准差 4.2 离散程度的测定离散程度的测定方差的计算公式总体方差总体方差 样本方差样本方差 未分组数据分组

15、数据 NXXNii122)(KiiKiiiffXX1122)(1)(122nxxsniikiikiiiffxxs11221)(样本方差用(样本方差用(n-1)去除,)去除,从数学角度看是从数学角度看是因为它是总体方差因为它是总体方差2的无偏估计量。的无偏估计量。标准差与其相应的均值之比,表示为百分数。特点:反映了相对于均值的相对离散程度;可用于比较计量单位不同的数据的离散程度;计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。(样本)或(总体)xscvXCV4.2.4 离散系数离散系数(Coefficient of Variation)4.2 离散程度的测定离

16、散程度的测定偏态和峰度的类型左偏分布左偏分布右偏分布右偏分布扁平分布扁平分布峰态峰态尖峰分布尖峰分布数据分布的不对称性称作偏态。偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测度。偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:3)()2)(1(sxxnnnSKi4.3.1 偏态及其测定偏态及其测定(Skewness)4.3 分布形态的测定分布形态的测定偏态系数的含义左偏分布左偏分布(也称负偏分布也称负偏分布):偏态系数偏态系数 SK 0;偏态系数的绝;偏态系数的绝对值越大,偏斜越严重。对值越大,偏斜越严重。数据向右边数据向右边延伸得更多延伸得更多对称分布:偏态系

17、数对称分布:偏态系数=0。峰度:数据分布的扁平或尖峰程度。峰度系数(K):数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度。统计软件(如Excel等)中常用以下公式计算)3)(2()1(3)()3)(2)(1()1(24 nnnsxxnnnnnKi4.3.2 峰度及其测定峰度及其测定(Kurtosis)4.3 分布形态的测定分布形态的测定峰度系数的含义扁平分布扁平分布尖峰分布尖峰分布峰度系数峰度系数K0,与正,与正态分布相比该分布一态分布相比该分布一般为尖峰、肥尾,肩般为尖峰、肥尾,肩部较瘦。部较瘦。均值和方差均值和方差相同的正态相同的正态分布分布 5.2.2 相关系数的计算l相关系数相关

18、系数(Coefficient of Correlation)是用来是用来衡量变量之间相关程度的指标,根据变量的多衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。少和属性可以有多种不同的计算方法。l衡量两个定量变量之间线性相关程度的常用指衡量两个定量变量之间线性相关程度的常用指标是标是皮尔逊皮尔逊(Pearson)相关系数相关系数。l通常以通常以表示总体的相关系数,以表示总体的相关系数,以r r表示样本的表示样本的相关系数。相关系数。r的取值范围为:的取值范围为:-1r1;r越接近越接近1,X与与Y之间的线性关系越好;之间的线性关系越好;r=1为完全正相关关系;为完全正

19、相关关系;r=-1为完全负相关关系为完全负相关关系r=0,两个变量之间不存在线性关系或不相关。,两个变量之间不存在线性关系或不相关。一般可按三级划分:一般可按三级划分:|r|0.4为低度线性相关;为低度线性相关;0.4|r|0.7为显著性相关;为显著性相关;0.7|r|1为高度线性相关。为高度线性相关。相关系数r 的特征5.2.3 相关系数的显著性检验 样本相关系数r受到抽样波动的影响,是一个随机变量。相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行假设检验。(1)Multiple R,又称为相关系数,它用来衡量变量x和y之间相关程度的大小。R为0.996

20、8,表示二者之间的关系是强正相关。1.1.回归统计表回归统计表实验任务二:使用Excel的分析工具库进行回归R的取值范围为:的取值范围为:-1R1;R越接近越接近1,X与与Y之间的线性关系越好;之间的线性关系越好;R=1为完全正相关关系;为完全正相关关系;R=-1为完全负相关关系为完全负相关关系R=0,两个变量之间不存在线性关系,两个变量之间不存在线性关系或不相关。或不相关。一般可按三级划分:一般可按三级划分:|r|0.4为低度线性相关;为低度线性相关;0.4|r|0.7为显著性相关;为显著性相关;0.7|r|1为高度线性相关为高度线性相关。实验任务二:使用Excel的分析工具库进行回归(2)

21、R Square(拟合优度系数拟合优度系数R2):用来说明用:用来说明用自变量解释因变量自变量解释因变量变差变差的程度,以测量对因变量的程度,以测量对因变量的拟合效果。的拟合效果。拟合优度系数为拟合优度系数为0.9936,表明用自变量可解释,表明用自变量可解释因变量变差的因变量变差的99.36%。实验任务二:使用Excel的分析工具库进行回归决定系数的取值 R2的取值范围是0,1。R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。

22、所有的回归程序都会给出R2的值.(3)Adjusted R Square(调整的拟合优度系数):仅用于多元回归才有意义,它用于衡量加入独立变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修正的R2也要增大,修正的R2仅用于比较含有同一个因变量的各种模型。(4)标准误差:又称为标准回归误差或估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值越小,说明拟合程度越好。实验任务二:使用Excel的分析工具库进行回归实验任务二:使用Excel的分析工具库进行回归Company Logo 拟合优度 1、决定系数 2、估计标准误差 显著性检验 3

23、、t检验 4、F检验季节指数 乘法模型中的季节成分通过季节指数来反映。季节指数季节指数(季节比率):反映季节变动的相对数反映季节变动的相对数。1、月(或季)的指数之和等于1200%(或400%)。2、季节指数离100越远,季节变动程度越大,数据越远离其趋势值。因子分析因子分析 因子分析在一定程度上可被视为主成分分析因子分析在一定程度上可被视为主成分分析的深化和拓展。的深化和拓展。基本原理基本原理是将具有一定相关关系的多个变量是将具有一定相关关系的多个变量综合为数量较少的几个因子,研究一种具有综合为数量较少的几个因子,研究一种具有错综复杂关系的实测指标是如何受少数几个错综复杂关系的实测指标是如何

24、受少数几个内在的内在的独立因子独立因子所支配的。所支配的。SPSS因子分析操作因子分析操作 6、单击“得分”,选中“保存为变量”,“显示因子得分系数矩阵”,单击“继续”;其余选项使用默认值。单击“确定”。Display factor score coefficient matrix因子分析结果分析因子分析结果分析 除了“外貌外貌”变量外其他变量的共同度都比较高。变量共同变量共同度表度表变量共同度:各变量中所含原始信息能被提取的公共因子所解释的程度。变量的共同度越接近1,说明被变量公共因子解释的程度越高,因子分析的效果越好。前4个因子的贡献率为81.49%。旋转之后各因子旋转之后各因子的方差贡献

25、率可的方差贡献率可能会发生变化!能会发生变化!SPSS因子分析操作因子分析操作贡献贡献率率旋转前后的因子载荷矩阵 旋转成分矩阵,每行都有一个较大的值。旋转成分矩阵,每行都有一个较大的值。因子因子旋转后旋转后1 12 23 34 4简历格式简历格式.116.116.830.830.109.109-.136-.136外貌外貌.440.440.151.151.399.399.227.227研究能力研究能力.064.064.128.128.007.007.928.928兴趣爱好兴趣爱好.220.220.245.245.871.871-.081-.081自信心自信心.916.916-.107-.107.

26、163.163-.065-.065洞察力洞察力.863.863.097.097.255.255.002.002诚信度诚信度.219.219-.242-.242.863.863.001.001推销能力推销能力.910.910.223.223.103.103-.041-.041工作经验工作经验.087.087.851.851-.055-.055.211.211工作魄力工作魄力.800.800.349.349.156.156-.052-.052志向抱负志向抱负.918.918.159.159.100.100-.041-.041理解能力理解能力.811.811.255.255.331.331.143.

27、143潜能潜能.747.747.326.326.413.413.224.224求职渴望度求职渴望度.440.440.363.363.534.534-.524-.524适应力适应力.383.383.797.797.076.076.084.084因子含义的解释因子含义的解释 第一个因子第一个因子在外貌、自信心、洞察力、推销能力、工作魄力、志向抱负、理解能力、潜能等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子应聘者主客观工作能力因子;第二个因子第二个因子在简历格式、工作经验、适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因应聘者对客观环境的适应力因子子;第三个因子第三个因子在兴

28、趣爱好、诚信度、求职渴望度变量上有较大的系数,可抽象为应聘者的兴趣和诚信因子应聘者的兴趣和诚信因子;第四个因子第四个因子在研究能力变量上系数较大,可抽象为应应聘者的学习能力因子聘者的学习能力因子。成分得分系数矩阵成分得分系数矩阵FAC1-1-0.099简历格式分+0.016外貌分-0.020学习能力分-0.159兴趣爱好分+0.251自信心分+0.185洞察力分-0.093诚信度分+0.217销售能力分-0.082工作经验分+0.155工作魄力分+0.228志向抱负分+0.129理解能力分+0.080潜能分-0.026求职渴望度分-0.014适应力分公因子的表达式标准化变量SPSS计算的因子得分计算的因子得分 根据因子得分可以对应聘者进行综合评价。例如可以按照第一因子进行排序,对应聘者主客观工作能力进行评价。中央财经大学统计学院 57小结小结 主成分分析的基本原理和模型 SPSS主成分分析结果的解释 因子分析的基本原理和模型 SPSS因子分析结果的解释

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文([计算机软件及应用]数据的计量尺度课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|