第四章3基本统计分析课件.ppt

上传人(卖家):晟晟文业 文档编号:5034169 上传时间:2023-02-04 格式:PPT 页数:41 大小:366.50KB
下载 相关 举报
第四章3基本统计分析课件.ppt_第1页
第1页 / 共41页
第四章3基本统计分析课件.ppt_第2页
第2页 / 共41页
第四章3基本统计分析课件.ppt_第3页
第3页 / 共41页
第四章3基本统计分析课件.ppt_第4页
第4页 / 共41页
第四章3基本统计分析课件.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

1、探索性数据分析探索性数据分析p调用此过程可产生所有个案或不同分组调用此过程可产生所有个案或不同分组 个案的综合统计量及图形个案的综合统计量及图形,提供各种不同提供各种不同 的统计量与描述作图的统计量与描述作图,可进行数据筛查可进行数据筛查,发现发现 奇异值奇异值,描述性分析描述性分析,假设检验及不同分组假设检验及不同分组 个案的特征描述个案的特征描述p可帮助用户决定选择哪种统计方法进行数据分析可帮助用户决定选择哪种统计方法进行数据分析,选择选择 将数据转换成正态方法及是否使用非参数将数据转换成正态方法及是否使用非参数目的目的按Analyze-Descriptive Statistics-Exp

2、lore 顺序单击,打开 Explore 主对话框。选择一个或多个变量选择一个或多个变量进入进入Dependent框作为框作为因变量因变量此作为分组变量,可以是字符变量,对此作为分组变量,可以是字符变量,对因变量的分析将按该变量的观测值进行因变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会分组分析。可有多个分组变量,这时会按多个变量的交叉组合进行分组。按多个变量的交叉组合进行分组。该框中的变量作为个案该框中的变量作为个案标识符标识符可同时输出基本统可同时输出基本统计量和图形计量和图形只输出基本统计量只输出基本统计量只输出图形只输出图形输出基本统计量输出基本统计量 均值的置信区

3、间,可键入均值的置信区间,可键入199%的任的任意值,根据该值算出置信区间的上下限。意值,根据该值算出置信区间的上下限。给出中心趋势的给出中心趋势的的稳健最大似然的稳健最大似然估计量,当数据估计量,当数据分布均匀,且两分布均匀,且两尾较长,或当数尾较长,或当数据中存在极端值据中存在极端值时,可给出比均时,可给出比均值或中位数更合值或中位数更合理的估计。理的估计。输出最大和输出最大和最小的最小的5个个数,且在输数,且在输出窗口中加出窗口中加以标明。以标明。输出输出5%、10%、25%、50%、75%、90%和和95%的百分位数。的百分位数。只有指定分组变量才有效,可输出分布只有指定分组变量才有效

4、,可输出分布水平图,同时输出回归直线水平图,同时输出回归直线斜率以及对方差的斜率以及对方差的Levenes检验检验不输出分布不输出分布水平图水平图功效估计功效估计根据在根据在Power参数框中指定的变换对原始数据进行变换。参数框中指定的变换对原始数据进行变换。不对数据进行转换不对数据进行转换 Explore 栏中栏中Plots对话框对话框箱型图箱型图每一个因变量生每一个因变量生成一个箱形图成一个箱形图所有因变量生成所有因变量生成一个箱形图一个箱形图不显示任何箱形不显示任何箱形图图生成茎叶图,生成茎叶图,为默认为默认生成直方图生成直方图输出带检验的正态输出带检验的正态图图确定缺失值的处置:确定缺

5、失值的处置:因变量或分组变量中带有缺失值的观因变量或分组变量中带有缺失值的观 测量都将在分析过程中被剔除。测量都将在分析过程中被剔除。在分析过程中剔除此分析中含缺失值在分析过程中剔除此分析中含缺失值 个案。个案。分组变量的缺失值被单独分为一组,分组变量的缺失值被单独分为一组,在结果中产生一个附加分类。在结果中产生一个附加分类。Explore 栏中栏中Options对话框对话框实例实例 child.sav,根据因子变量性别对根据因子变量性别对 身高进行探索性数据分析身高进行探索性数据分析EXAMINE VARIABLES=x5 BY x2 /PLOT BOXPLOT STEMLEAF /COMP

6、ARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.p 检验检验列联表分析列联表分析2p列联表列联表p 相关性测度相关性测度数数 据据定量数据定量数据(数值型数据数值型数据)定性数据定性数据(品质数据品质数据)离散数据离散数据连续数据连续数据定性变量的结果表现为类别例如:性别(男,女)各类别用符号或数字代码来测度使用定类或定序尺度你吸烟吗?1.是;2.否你赞成还是反对这一改革方案?1.赞成;2.反对n对定性数据的描述和分析通常使用列联表n可使用检验一分公司 二分公司 三分公司 四分公司合计合计赞

7、成该方赞成该方案案68755779279反对该方反对该方案案32753331141合计合计10012090110420 列联表按多个列联表按多个(两个或两个以上两个或两个以上)变量的不同取值对不变量的不同取值对不同情形进行同情形进行划分划分,也即划分不同的行或列。用以分行,也即划分不同的行或列。用以分行的变量称为的变量称为行行(row)变量变量,和用以分列的变量则称为,和用以分列的变量则称为列列(column)变量变量。表格中间各行变量和列变量不同取值的交汇处,就是表格中间各行变量和列变量不同取值的交汇处,就是这种情形出现的这种情形出现的频数频数或或计数计数(count)。列联表中行变量和列变

8、量的个数称为列联表的列联表中行变量和列变量的个数称为列联表的维数维数。二维的列联表又称为二维的列联表又称为交叉表交叉表(cross table)。三维或三维以上的列联表叫做三维或三维以上的列联表叫做高维列联表高维列联表。列联表中每个行变量或列变量又有两个或更列联表中每个行变量或列变量又有两个或更多的不同取值,这些取值常称为多的不同取值,这些取值常称为水平水平(level)。每一种不同的每一种不同的水平组合水平组合就代表一种不同的情就代表一种不同的情形。形。列列(cj)合计合计j=1j=2i=1f11f12f11+f12i=2f21f22f21+f22合计合计f11+f21f12+f22n列列(

9、cj)合计合计j=1j=2i=1f11f12r1i=2f21f22r2:合计合计c1c2n关于某项政策调查的结关于某项政策调查的结果果观点:赞成观点:赞成观点:反对观点:反对低收入低收入中等收入中等收入高收入高收入低收入低收入中等收入中等收入高收入高收入男男201055810女女25157279列联表223高维列联表边缘分布行边缘分布行观察值的合计数的分布例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人,90人,110人条件分布与条件频数变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X

10、的分布每个具体的观察值称为条件频数一分公司 二分公司 三分公司 四分公司合计合计赞成该方赞成该方案案68755779279反对该方反对该方案案32753331141合计合计10012090110420条件频数反映了数据的分布,但不适合对比为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布百分比分布行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)总百分比:每一个观察值除以观察值的总个数(fij/n)假定行变量和列变量是独立的一个实际频数 fij 的期望频数 eij,是总频数的个数 n 乘以该实际频数 fij

11、落入第 i 行 和第j列的概率,即用于检验列联表中变量间拟合优度和独立性用于测定两个分类变量之间的相关程度 计算公式为一一.相关系数相关系数 列联相关系数列联相关系数2 V 相关系数相关系数测度22列联表中数据相关程度对于22 列联表,系数的值在01之间 相关系数计算公式为用于测度大于22列联表中数据的相关程度计算公式为计算公式为同一个列联表,、C、V 的结果会不同不同的列联表,、C、V 的结果也不同在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数 按按Analyze-Descriptive Statistics-Crosstabs 顺序

12、打开顺序打开 Crosstabs 主对主对话框。话框。该框中的变量该框中的变量作为分布表中作为分布表中的行变量,的行变量,该框中的变量作该框中的变量作为控制变量,决为控制变量,决定频数分布表中定频数分布表中的层,可有多个的层,可有多个控制变量控制变量显示每显示每一组中一组中各变量各变量的分类的分类条形图。条形图。只输出统只输出统计量,不计量,不输出多维输出多维列联表。列联表。Crosstabs 对话框对话框该框中的变量该框中的变量作为分布表中作为分布表中的列变量,的列变量,exact精确检验精确检验卡方检验卡方检验计算相关系数:Pearson相关系数和 Spearman相关系数适用于定类变量的

13、统计量:适用于定类变量的统计量:相关性检验相关性检验适用于连两定序变量适用于连两定序变量,相关性检验相关性检验适用于一定类一定适用于一定类一定距变量:距变量:用于检验相关性用于检验相关性内部一致性系数内部一致性系数,用于检验两个评估人用于检验两个评估人对同一对象的评估是否具有一致系。对同一对象的评估是否具有一致系。相对危险度相对危险度,检验某事件发生和某因子检验某事件发生和某因子之间的关系之间的关系进行两个相关的二值变量的非参数检进行两个相关的二值变量的非参数检验验进行一个二值因素变量和一个二值响进行一个二值因素变量和一个二值响应变量的独立性检验。应变量的独立性检验。Crosstabs的的Ce

14、ll Display 对话框对话框选择在列联表中输出的统计量,选择在列联表中输出的统计量,包括观测量数、百分比、残差包括观测量数、百分比、残差输出观测量的实际数量输出观测量的实际数量如果行和列变量在统计上如果行和列变量在统计上是独立的或不相关的,那是独立的或不相关的,那么会在单元格中输出期望么会在单元格中输出期望的观测值的数量。的观测值的数量。输出单元格中观测量的数目占输出单元格中观测量的数目占整行全部观测量数目的百分比整行全部观测量数目的百分比输出单元格中观测值的数目占输出单元格中观测值的数目占整列全部观测量数目的百分比整列全部观测量数目的百分比输出单元格中观测量的数目占输出单元格中观测量的

15、数目占全部观测量数目的百分比全部观测量数目的百分比计算非标准化残差计算非标准化残差计算标准化残差计算标准化残差计算调整后残差计算调整后残差Table Format 对话框对话框决定各行的排列顺序:决定各行的排列顺序:各行的排列按升序各行的排列按升序各行的排列按降序各行的排列按降序CROSSTABS /TABLES=a13 BY a14 /FORMAT=AVALUE TABLES /CELLS=COUNT /COUNT ROUND CELL.对居民储蓄调查数据.sav建立列联表,分析户口和职业的关系 为了探讨吸烟与慢性支气管炎有无关为了探讨吸烟与慢性支气管炎有无关 系,调查了系,调查了33933

16、9人,情况如下人,情况如下:(数据为:(数据为:吸烟与支气管炎吸烟与支气管炎.sav)患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121实例分析实例分析在Data菜单中选Weight Cases项,打开Weight Cases对话框。Weight Cases by,再将变量x3选入Frequence Variable 框,单击OK完成加权。按Analyze-Descriptive Statistics-Crootabs 顺序打开 Crootabs 主对话框。将x1变量 选入Row框作为行变量,将x2变量 选入Column 框作为列变量。打开Statistics对话框,选中Chi-sq

17、uare、Contingency coefficient和Phi and CramersV复选框,单击Continue返回。单击Cell按钮,打开Cell display对话框,选中observed和Expected 复选框,单击Continue返回;单击OK。实例分析实例分析 统计摘要表,列出观测量有效值个数、缺失值个数和总的个数。从列联表中可看出,吸烟人中患病者有43人,比期望值33.9大,不吸烟人中患病者只有13人,比期望值22.1小。输出结果如下表:C Ca as se e P Pr ro oc ce es ss si in ng g S Su um mm ma ar ry y3391

18、00.0%0.0%339100.0%是否吸烟*是否患病NPercentNPercentNPercentValidMissingTotalCases表吸烟与患病统计摘要表表吸烟与患病统计摘要表是是 否否 吸吸 烟烟 *是是 否否 患患 病病 C Cr ro os ss st ta ab bu ul la at ti io on n4316220533.9171.1205.01312113422.1111.9134.05628333956.0283.0339.0CountExpected CountCountExpected CountCountExpected Count吸烟不吸烟是否吸烟Tot

19、al患病不患病是否患病TotalC Ch hi i-S Sq qu ua ar re e T Te es st ts s7.469b1.0066.6741.0107.9251.005.007.0047.4471.006339Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesValuedfAsymp.Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Compute

20、d only for a 2x2 tablea.0 cells(.0%)have expected count less than 5.The minimum expected count is22.14.b.表表 吸烟与患病列联表吸烟与患病列联表表表 卡方检验卡方检验S Sy ym mm me et tr ri ic c M Me ea as su ur re es s.148.006.148.006.147.006339PhiCramers VContingency CoefficientNominal byNominalN of Valid CasesValueApprox.Sig.No

21、t assuming the null hypothesis.a.Using the asymptotic standard error assuming the nullhypothesis.b.卡方检验表中可看出,Chi-Square值为7.469,显著值为0.0060.05,应否定零假设,即认为吸烟与患慢性支气管炎是不独立的。由于使用卡方检验要求每个单元格频数不少于5,当条件不满足时,还可用Fisher精确检验。其双侧检验显著值为0.007。对称性测量表表明,变量间相关关系弱,不应拒绝原假设表 对称性检验表练习练习2 为了解住房条件对婆媳关系的影响为了解住房条件对婆媳关系的影响,对对60

22、0户家庭进行调查户家庭进行调查,见见婆媳关系与住房条件婆媳关系与住房条件.sav 问住房条件与婆媳有无关系问住房条件与婆媳有无关系?婆媳关系 住房条件差一般好紧张577860一般458763和睦4845117练习练习2 为了解住房条件对婆媳关系的影响为了解住房条件对婆媳关系的影响,对对600户家庭进行调查户家庭进行调查,见见婆媳关系与住房条件婆媳关系与住房条件.sav 问住房条件与婆媳有无关系问住房条件与婆媳有无关系?WEIGHT BY 频数.CROSSTABS /TABLES=婆媳关系 BY 住房条件 /FORMAT=AVALUE TABLES /STATISTIC=CHISQ CC PHI

23、 CORR /CELLS=COUNT EXPECTED ROW COLUMN TOTAL /COUNT ROUND CELL.1:居民储蓄调查数据居民储蓄调查数据 分析储户存分析储户存(取取)款金额的基本描述统计量款金额的基本描述统计量,并对城市储户和农村储户进行比较并对城市储户和农村储户进行比较.作业作业1作业作业2 某班某班42名男女同学全部参加大学英语名男女同学全部参加大学英语 4级水平考试级水平考试,男生合格男生合格2人人,不合格不合格26人人,女生合格女生合格6人人,不合格不合格8人人,问男女生在英语问男女生在英语 学习水平上有无显著差别学习水平上有无显著差别?将以上结果保存为将以上结果保存为word文件文件,并对结果作出并对结果作出统计分析统计分析,要写明第几次作业要写明第几次作业.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第四章3基本统计分析课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|