1、1第九讲第九讲 数据分析(一)数据分析(一)余可发余可发 博士博士江西财经大学工商管理学院2345678910问题问题025:您认为打工的外地人对北京市的社会秩:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)序是否有影响?(单选)1有很大影响 2有较大影响 3没有影响 4不好说 4编码答案112)制作编码表12变量名变量名码位码位码数码数尺度尺度编码编码不适用不适用不知道不知道未回答未回答缺失值缺失值备注备注num1-44IntervalDirectW0151CategoryD99W01a6-72ID9999W0281CD99W0391OrdinalD99W04101OD0,9W05
2、.1111C0-199W05.2121C0-199W05.3131C0-199W05.4141C0-199W05.5151C0-199W05.6161C0-199W05.7171C0-199W06181CD99W07191CD79W08.120-212ID97989999W08.222-232ID97989999W08.324-252ID97989999直接过录直接过录0-1编码编码变量名变量名: 一个数据文件中一个数据文件中,一个变量只能有一个唯一名称。一个变量只能有一个唯一名称。码位:某一变量在码位:某一变量在数据文件中占据的栏位数据文件中占据的栏位码数:码数:某一变量由几位数组成。某一变
3、量由几位数组成。该变量是数值型(该变量是数值型(Numeric)如定距、定比,如定距、定比,还是字串型(还是字串型(String),如定类、定序。),如定类、定序。前者在统计中可以做高级运算,后者则不可以。前者在统计中可以做高级运算,后者则不可以。不适于被访人回答的问题的编码。不适于被访人回答的问题的编码。一般采用一般采用7,97,997等。等。被访人回答不知道时的编码。被访人回答不知道时的编码。一般采用一般采用8,98,998等。等。被访人拒绝回答某变量时的编码。被访人拒绝回答某变量时的编码。一般采用一般采用9,99,999等。等。问卷中出现漏答时的处理编码。问卷中出现漏答时的处理编码。一般
4、采用一般采用9,99,999等。等。13外部式录入内部式录入采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。采用SPSS数据编辑器(SPSS Data Editor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。14151617VAR000016.005.004.003.002.001.00Count22201816141218VAR000011717.017.017.02020.020.037.02121.021.058
5、.01616.016.074.01313.013.087.01313.013.0100.0100100.0100.01.002.003.004.005.006.00TotalValidFrequencyPercentValidPercentCumulative Percent19270. 31001001iixxfffxfxfxnxx为组频数 2021hfSfLMmme1212223万元 85.103101310230100212111hfSfLMhfSfLMmmemme24hLMo2112526万元 四分位差万元 万元 606243.9662.109262.10910131034301004
6、3.961073430901331.QQQQ27nxxnxxs2)(28fxfxffxxs2)(29是否喜欢现在居住的城市050100150200北京广州上海沈阳成都不喜欢一般喜欢 30德国德国英国英国法国法国意大利意大利西班牙西班牙荷兰荷兰瑞典瑞典瑞士瑞士比利时比利时奥地利奥地利土耳其土耳其挪威挪威丹麦丹麦中国中国芬兰芬兰葡萄牙葡萄牙希腊希腊俄罗斯俄罗斯 200 400 600 800 1000 1200 1400 xxx年中国内地与欧洲各国市场调查业年中国内地与欧洲各国市场调查业 的市场规模比较(年营业额:百万美元)的市场规模比较(年营业额:百万美元) 31对环境问题的关心情况2%8%15
7、%31%44%根本不知道不太关心一般关心比较关心很关心32 32.5 2 15元元 14元元 13元元 12元元 11元元 10元元 9元元 8元以下元以下33 森氏森氏满满 10.5%意意 4度度 沃力沃力 中美中美 3 14.4% 38.5% 2 1 20% 40% 首都知名度首都知名度 郑州市主要纯水品牌的知名度、美誉度和市场占有率郑州市主要纯水品牌的知名度、美誉度和市场占有率 34对现在居住城市的喜欢程度对比-3.5-6-10.5-8-13.578.571.556.554.543.5成都上海广州沈阳北京-20% 0% 20% 40% 60% 80% 100%系列1系列235对郑州市三大
8、纯水品牌和纯水公司的满意程度比较0246水质口感价格送水及时度送水员的态度举止送水服务拨通订水热线难易程度接线员态度信誉知名度宣传力度美誉度系列1系列2系列336373839频数分布表频数分布表一般性描述一般性描述探索性分析探索性分析交叉列表交叉列表计算连续变计算连续变量的相对比量的相对比4041待分析变量的列表待分析变量的列表定义需要计算的统计量定义需要计算的统计量定义需要绘制的统计图定义需要绘制的统计图定义表格定义表格42百分位数百分位数离散趋势离散趋势集中趋势集中趋势43统计图类型统计图类型直方图加上正态曲线直方图加上正态曲线以频数绘制条图或饼图以频数绘制条图或饼图无图形无图形条图条图饼
9、图饼图直方图直方图以构成比绘制条图或饼图以构成比绘制条图或饼图44按数值升序按数值升序按数值降序按数值降序按频数升序按频数升序按频数降序按频数降序45Statistics身 高9991160.639.2659160.100161.08.403870.6235.226.077.405.15569.1136.4205.5160478.0154.700160.100166.500ValidMissingNMeanStd. Error of MeanMedianModeStd. DeviationVarianceSkewnessStd. Error of SkewnessKurtosisStd. Er
10、ror of KurtosisRangeMinimumMaximumSum255075Percentiles4647身高202.5197.5192.5187.5182.5177.5172.5167.5162.5157.5152.5147.5142.5137.5身高Frequency160140120100806040200Std. Dev = 8.40 Mean = 160.6N = 999.0048495051Descriptive Statistics999136.4205.5160.6398.403899932.5108.059.58210.7649999身高体重Valid N (lis
11、twise)NMinimumMaximumMeanStd. Deviation52Descriptive Statistics999-2.884255.33824.00000001.00000000999-2.515794.49776.00000001.00000000999Zscore: 身高Zscore: 体重Valid N (listwise)NMinimumMaximumMeanStd. Deviation5354统计量统计量图图分组变量列表分组变量列表待分析变量列表待分析变量列表5556箱图绘制方式箱图绘制方式茎叶图茎叶图直方图直方图57缺失值的缺失值的处理方式处理方式58Case
12、Processing Summary45999.8%1.2%460100.0%53899.6%2.4%540100.0%性别男女腰围NPercentNPercentNPercentValidMissingTotalCases59Descriptives80.628.449179.74581.51080.30279.00092.5749.621559.5117.558.013.800.535.114.061.22778.076.451077.19078.96277.66476.500109.42310.460552.7118.065.313.000.709.105.698.210MeanLowe
13、r BoundUpper Bound95% ConfidenceInterval for Mean5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosisMeanLower BoundUpper Bound95% ConfidenceInterval for Mean5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis
14、性别男女腰围StatisticStd. Error60538459N =性别女男腰围14012010080604059772963234539870851517842103527184573761626364210:H0Ht ,ttt ,00:H0H6566210:H21:AH6721:AH210:H68697071720100:HHnsxU05.096.12U2U2UU 730100:PPHPPHnPPPpU)1(05.096.12U2U2UU 74211210:HH22212121nsnsxxU05.096.12U2U2UU 75211210:PPHPPH22211121)1()1(npp
15、nppppU05.096.12U2U2UU 76xx770975. 000097. 030053. 0nxxxx:75. 9H000AH:7879210:H21:AH83.651x77.592x7299.5921S8747.4222S8494. 1S 22112122nnSSxx80* 28. 3S)()(u)21()21(2121xxxxxxxx81820100:HH1nsxt01.0)1(nt)1(nt) 1( ntt83211210:HH)11(2212122221121nnnnsnsnxxt01.0)2(21 nnt)2(21 nnt)2(21 nntt84211210:ppHppH2
16、122112121)11)(1(nnpnpnpnnppppt 其中 01.0)2(21 nnt)2(21 nnt)2(21 nntt85x8600:H0:AH*667. 635005200 xSuxt87df888921:AH210:H47.981x65.1322x3267.821S2350.522S5034. 1S 222121nSSxx90735.225034. 165.13247.982121xxSxxt10) 1(2ndf919221:AH210:H15.281x61.282x93)11() 1() 1()()(221121222211nnnnxxxxSxx21212222212121
17、11) 1() 1(nnnnnxxnxx332. 0942121xxSxxt381. 13332. 061.2815.28 91516) 1() 1(21)()(nndf(4)查临界t值,作出统计推断 当df=9时,查临界值得:t 0.05(9)=2.262,|t|1.381 0.05,接受 ,表明两种工艺的粗提物中茶多糖含量无显著差异。210:H95kiiiiEEQX122)(iQiiEk9697 两个配对样本的非参数检验两个配对样本的非参数检验 两个独立样本的非参数检验两个独立样本的非参数检验 多个独立样本的非参数检验多个独立样本的非参数检验 多个相关样本的非参数检验多个相关样本的非参数检
18、验98治疗前(治疗前(x):):24.00 16.70 21.60 23.70 37.50 31.40 14.90 37.30 17.90 15.50 29.00 19.90治疗后(治疗后(Y):):23.10 20.40 17.70 20.70 42.1 36.10 21.80 40.30 26.00 15.50 35.40 25.5099100101 Wilcoxon符号检验符号检验 适用于连续变量适用于连续变量 sign符号检验符号检验 适用于对无法用数字计量的情况进行比较,如两分类,对于适用于对无法用数字计量的情况进行比较,如两分类,对于 连续资料最好不要使用连续资料最好不要使用 Mc
19、Nemar 实际上就是常用的配对实际上就是常用的配对2检验,只适用于二分类资料检验,只适用于二分类资料 Marginal Homogeneity 是是McNemar法向多分类情形下的扩展,适用于资料为有序法向多分类情形下的扩展,适用于资料为有序 分类情况分类情况配对样本的非参数检验配对样本的非参数检验102Exact:用于计算确切概率:用于计算确切概率只给出近似概率只给出近似概率 蒙特卡罗方法蒙特卡罗方法给出精确概率值,并给出精确概率值,并可设定耗时限制可设定耗时限制103v共共12对指标,指标值治疗后小于治疗前的有对指标,指标值治疗后小于治疗前的有3对,其平均秩次为对,其平均秩次为2.83,
20、总秩和为,总秩和为8.50;治疗后大于治疗前的有;治疗后大于治疗前的有8对,其平均秩次为对,其平均秩次为7.19,总秩和为,总秩和为57.50;治疗后等于治疗前的有;治疗后等于治疗前的有1对。对。(1) 秩次表秩次表104v Wilcoxon符号秩检验的统计量符号秩检验的统计量Z值值-2.179,近似概率,近似概率(Asymp.sig.)P0.029,按,按0.05的水准的水准可以认为治疗前后该指可以认为治疗前后该指标值的差别具有统计学意义。标值的差别具有统计学意义。(2) 检验统计量检验统计量105例例2 在缺氧条件下,观察在缺氧条件下,观察4只猫与只猫与12只兔的生存时间(分钟),只兔的生
21、存时间(分钟),结果如下。试判断猫、兔在缺氧条件下生存时间的差异是否具结果如下。试判断猫、兔在缺氧条件下生存时间的差异是否具有统计学意义。数据见有统计学意义。数据见npb.sav:生存时间(猫):生存时间(猫):25 34 44 46 46生存时间(兔):生存时间(兔):15 15 16 17 19 21 21 23 25 27 28 28 30 35两独立样本的非参数检验两独立样本的非参数检验106107108109 默认的默认的Mann-Whitney U检验最常用检验最常用110v 生存时间样本共生存时间样本共19例,其中猫的生存时间例,其中猫的生存时间5例,例,其平均秩次为其平均秩次为
22、15.70,总秩和为,总秩和为78.50;兔的生存时;兔的生存时间间14例,其平均秩次为例,其平均秩次为7.96,总秩和为,总秩和为111.50。(1) 秩次表秩次表111v 给出给出Mann-Whitney U 、Wilcoxon W 统计量和统计量和Z值,近似值概率值,近似值概率(Asymp.Sig)和精确概率值()和精确概率值(Exact.sig)均小于)均小于0.05,结论一致,表明,结论一致,表明猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫猫、兔在缺氧条件下的生存时间的差异具有统计学意义,由平均秩次猫(15.7)、兔()、兔(7.96)来看,可以认为缺氧条件下猫的生
23、存时间长于兔。)来看,可以认为缺氧条件下猫的生存时间长于兔。(2) 检验统计量检验统计量112例例3 14名新生儿出生体重按其母亲的吸烟习惯分组(名新生儿出生体重按其母亲的吸烟习惯分组(A组:每日吸烟多组:每日吸烟多于于20支;支;B组:每日吸烟少于组:每日吸烟少于20支;支;C组:过去吸烟而现已戒烟;组:过去吸烟而现已戒烟;D组:组:从不吸烟),具体如下。试问四个吸烟组出生体重分布是否相同?数据从不吸烟),具体如下。试问四个吸烟组出生体重分布是否相同?数据见见npc.sav:A组:组: 2.7 2.4 2.2 3.4 B组:组: 2.9 3.2 3.2C组:组: 3.3 3.6 3.4 3.
24、4多个独立样本的非参数检验多个独立样本的非参数检验D组:组: 3.5 3.6 3.7113114115设置组别变量的最小值设置组别变量的最小值1、最大值、最大值4116117 Kruskal-Wallis H检验:检验:k=3个独立随机连续分布样个独立随机连续分布样本的比较,而正态性假设及等方差假设存在问题时,它本的比较,而正态性假设及等方差假设存在问题时,它可以进行总体是否相同的检验。可以进行总体是否相同的检验。 Median:中位数检验,三种方法中检验效能最低,但:中位数检验,三种方法中检验效能最低,但对于拖长尾的对称分布很有效对于拖长尾的对称分布很有效 Jonckheere-Terpst
25、ra:对连续性资料或有序分类资料:对连续性资料或有序分类资料都适用,并当分组变量为有序分类资料时,此法的检验效都适用,并当分组变量为有序分类资料时,此法的检验效能要高于能要高于Kruskal-Wallis法。法。118v 母亲每日吸烟多于母亲每日吸烟多于20支组共支组共4名新生儿,体重平均秩次名新生儿,体重平均秩次3.75;每;每日吸烟少于日吸烟少于20支组共支组共3名新生儿,体重平均秩次名新生儿,体重平均秩次5.00;过去吸烟现;过去吸烟现已戒烟组共已戒烟组共4名新生儿,体重平均秩次名新生儿,体重平均秩次9.38;从不吸烟组共;从不吸烟组共3名新生名新生儿,平均秩次儿,平均秩次12.50。(
26、1) 秩次表秩次表119v Kruskal-Wallis H统计量的近似显著概率为统计量的近似显著概率为0.023,按,按0.05的水准拒绝原假设,可认为四个组中至少有两组出生体重的水准拒绝原假设,可认为四个组中至少有两组出生体重的总体分布不同。的总体分布不同。(2) 检验统计量检验统计量120例例4 三批甘蓝叶样本分别在甲、乙、丙、丁四种条件下测量核黄素浓度,三批甘蓝叶样本分别在甲、乙、丙、丁四种条件下测量核黄素浓度,试验结果如下。问四种条件下的测量结果的差异是否具有统计学意义?数试验结果如下。问四种条件下的测量结果的差异是否具有统计学意义?数据见据见npd.sav:多个相关样本的非参数检验
27、多个相关样本的非参数检验121122 Friedman:常用的多个配伍样本的非参数检验:常用的多个配伍样本的非参数检验 Kendalls W:可进一步给出一致性程度:可进一步给出一致性程度 Cochrans Q:是两配对样本:是两配对样本McNemar方法的推广,方法的推广, 只适合二分类变量只适合二分类变量123(1) 秩次表秩次表v 经经Friedman Test,近似概率(,近似概率(Asymp.sig.)P0.042,小于,小于0.05,故拒绝原假设,认为四种条件下测量结果的差别具有统计学意义的。故拒绝原假设,认为四种条件下测量结果的差别具有统计学意义的。(2) 检验统计量检验统计量124125谢谢!谢谢!