1、数据分析数据数据分析技巧概述单变量数据分析双变量数据分析多变量数据分析市场调查与预测第七章ZHGJ数据 什么是数据? 数据的变异及其意义1关于数据的几个基本概念 观察值(observation) 样本(sample) 样本容量(sample size) 变量(variable)在这一例子中 观察值(observation)是什么? 样本(sample)是什么? 样本容量(sample size)是什么? 变量(variable)是什么? 这是什么数据? 有什么问题吗? 你可以做什么分析?在使用统计工具进行的分析研究中,所有相关关系的推断以及大部分因果关系的推断都是建立在共变异的基础上数据的变异
2、及其意义 variance 青海电力公司的例子中 数据有变异吗? 数据的变异是什么? 你能够观察到变异吗? 你能够根据变异做分析吗?为什么?检查数据的变异及其特点DATA3 表7-9 2000年深圳A股股价与持股集中度:PRICE PRICE Stem-and-Leaf Plot Frequency Stem & Leaf 3.00 0 . 455 26.00 0 . 66666666777777777777777777 48.00 0 . 888888888888888888999999999999999999999999999999 56.00 1 . 000000000000000000
3、00000000000011111111111111111111111111 85.00 1 . 2222222222222222222222222222222222222222222233333333333333333333333333333333333333333 78.00 1 . 444444444444444444444444444444444444444444444444455555555555555555555555555555 56.00 1 . 66666666666666666666666666677777777777777777777777777777 36.00 1 .
4、 888888888888888888888889999999999999 26.00 2 . 00000000111111111111111111 15.00 2 . 222222233333333 21.00 2 . 444444455555555555555 14.00 2 . 66666667777777 8.00 2 . 88888899 28.00 Extremes (=30) Stem width: 10.00 Each leaf: 1 case(s)PRICE Stem-and-Leaf Plot框图DATA3 表7-9 2000年深圳A股股价与持股集中度:lnPRICE 数据
5、之间的共变异 Covariance “满足顾客需求的企业,有更好的盈利前景” 对企业满足顾客需求的测量:顾客满意度 对企业盈利的测量:总利润或利润率 样本2000家企业 我们期望什么?数据分析技巧概述 为了选用适当的分析技巧,研究或分析人员需要考虑以下几个方面的问题 一次要分析几个变量? 是进行描述性分析还是推断性分析? 分析涉及的变量都是用什么性质的量表测量的?2变量数目与分析工具变量数目与分析工具选择分析工具一次分析涉及的变量数目单变量分析双变量分析多变量分析第二节第三节第四节一个两个两个以上345描述性分析与推断性分析 描述性分析:利用统计值对样本有关特性或变量之间关系的描述 推断性分析
6、:根据数理统计的有关原理,利用样本统计值推断总体统计值,或对于变量之间关系显著性的推断量表的性质 量表的性质不同,使用的统计工具有别 用类别量表测量某一变量获得的结果,被称为非参数(nonparametric)变量 这种变量的中心趋势和离散程度不能用平均值和方差来描述,只能用众数和频率来描述;也不适合于进行区间估计和Z检验和t检验,而只适用于做卡方检验 用等差量表和等比量表测量获得的结果被称为参数(parameter)或参数(parametric)变量 已有的大部分统计分析工具都适用于这种变量的分析单变量数据分析数据的量表性质描述性分析推断性分析中心趋势离散程度单样本多样本等差和比量表数据平均
7、值标准差全距区间估计Z检验t检验独立样本t检验非独立样本t检验顺序量表数据中位数四分位差K-S检验Mann-Whitney U检验Wilcoxon方差分析类别量表数据众数频率卡方检验卡方检验McNemar Cochran Q3描述性分析 中心趋势 平均值:等差与等比资料 中位数:顺序资料 众数(可用百分比来描述):类别资料 可以回答下述问题,如购物中心调查 被调查者的平均年龄是多大? 在购物中心的平均花费是多少? 哪个时间段来惠顾的人最多? 他们进入购物中心的主要目的是什么?描述性分析(二) 离散程度 标准差:等差与等比资料 百分比(成数):类别资料、顺序资料 可以回答下述问题,如购物中心调查
8、 被调查者的年龄差别大吗?平均而言,有多大? 他们在购物中心的花费差别有多大? 他们进入购物中心的时间段集中吗? 他们进入购物中心的目的一致吗?描述性分析(三) 同一个变量,多个样本之间的比较 比如,广州的顾客与西安的顾客有差别吗?西安的顾客在2003年与2014年相同吗? 在被调查者的年龄上? 在花费上? 在时间段上? 在目的上?推断性分析 估计 点估计:用样本值代替总体值 区间估计:在一定的把握程度下,根据样本统计值和抽样平均误差,对总体落入的区间范围作出估计 显著性检验 Z检验与t检验 卡方检验与K-S检验区间估计 把握程度:置信概率=1 - 为置信度 区间:置信区间 统计值:平均值和成
9、数(百分比) 抽样平均误差:标准误 两种情况 已知允许误差,求总体统计值落入置信区间的置信概率 已知置信概率,求总体统计值落入的置信区间检验的意义 一个批发企业定向供给一些工厂某种原料。原来每个工厂每月的平均购买量为950吨,该批发企业为了鼓励各厂增加购买量,采用批量作价的价格策略推销原料,即每次购买的批量越大,享受越高的数量折扣。半年以后,这个批发企业测量这一价格策略的效果如何。企业的市场部随机抽出64家工厂作为样本进行调查,结果发现64家工厂平均购买量增加到了1000吨,标准差为200吨。现在这个批发企业想知道:平均购买量的增加是由价格策略的改变引起的,还是一种随机现象?建立假设 在本例中
10、,考虑到批量作价的价格策略对销售主要是有利的影响,所以我们建立如下假设:H0(虚无假设): 950吨Ha(对立假设): 950吨 这个检验的意义是:样本平均值为1 000吨时,我们能否得出总体均值小于等于950吨的结论 若能,则接受H0 若不能,则接受Ha 单尾检验:只有在样本平均值显著大于950吨时,我们才接受Ha检验方法 选择适当的检验方法 确定显著性水平 查表求0.025的临界值Z 比较Z和Z ,得出检验结果Z检验与检验与t检验检验 Z检验 样本容量任意,但总体的标准差已知 总体标准差未知,但样本容量n30 t检验 样本容量n30,且总体标准差未知的情况下 当n30时,t检验等同于Z检验
11、 Z检验实际上是t检验的一个部分,专门用于抽样分布为正态分布的情况卡方检验与卡方检验与K-S检验检验 卡方检验( 检验)适合于对类别量表数据进行假设检验 K-S检验是Kolmogorov-Smirov检验的简称 它与卡方检验相似,都是通过比较观察值(频率)与期望值(频率)之间的差异来确定观察值(频率)是否与虚无假设一致 不同的是,K-S检验适用于顺序量表数据双变量数据分析依赖分析中因变量和互依分析中变量的量表性质描述性分析推断性分析依赖分析中自变量的量表性质互依分析等差和等比量表数据顺序量表数据类别量表数据等差和等比量表数据简单回归分析n.a.以哑变量为自变量的简单回归分析简单相关分析回归系数
12、的t检验双样本t检验方差分析(ANOVA)顺序量表数据n.a.Spearman排序相关分析n.a.排序Kendall系数U检验K-S检验Mann-Whitney U检验Wilcoxon方差分析类别量表数据判别分析简单logistic 回归分析n.a.权变系数n.a.卡方检验McNemar Cochran Q4简单相关分析 描述两个变量之间的相关程度 有一种产品的价格为X,销量为Y,企业常常对Y和X之间的相关程度和方向感兴趣 企业的商品销售与国家的经济发展真的有正向的相关关系吗?若有,两者的相关程度如何?企业的产品价格与利润之间有怎样的关系?是正,还是负?简单相关分析的结果X1X2X3X4X5X
13、6X11.150.397.483-.294.533X2.1501.624*.102.518.810*X3.397.624*1.195-.148.641*X4.483.102.1951.058.600*X5-.294.518-.148.0581.435X6.533.810*.641*.600*.4351注:* 表示p0.05(双尾检验);*表示p0.01(双尾检验)简单回归分析 简单回归分析的目的与相关分析相近,即要找出两个变量之间的相关关系 不同之处在于,在进行简单回归分析时,变量之间暗含着因果关系简单回归分析的结果方差分析 方差分析一般用于检验两组或两组以上调查对象在某一变量均值的差异 虚无
14、假设为各组均值相等方差分析的结果:ANOVA平方和df均方F显著性在中心的时间 组间7049.90117049.9014.577.033组内460536.8772991540.257 总数467586.777300 陪伴的人数 组间8.16318.1633.976.047组内632.2763082.053 总数640.439309 惠顾店铺的数量 组间103.3511103.351.557.456组内54533.078294185.487 总数54636.429295 多变量数据分析5依赖分析中因变量和互依分析中变量的量表性质描述性分析推断性分析依赖分析中自变量的量表性质互依分析等差和等比量表
15、数据顺序量表数据类别量表数据等差和等比量表数据多元回归分析等式建模(SEM)n.a.以哑变量为自变量的多元回归分析或等式建模多元相关分析因子分析聚类分析回归系数的t检验双样本t检验方差分析(ANOVA)顺序量表数据n.a.Spearman排序相关分析n.a.排序Kendall系数U检验K-S检验Mann-Whitney U检验Wilcoxon方差分析类别量表数据判别分析多元logistic 回归分析n.a.权变系数带哑变量的因子分析聚类分析卡方检验McNemar Cochran Q多元相关分析与偏相关系数 多元相关分析:描述两个以上变量之间的相关程度 有一个企业认为它的某一种产品的销售额与该产
16、品的价格、广告支出和推销人员的数量有关 为了确定这些变量之间是否两两相关以及它们之间两两相关的程度,就需要使用多元相关分析,并计算偏相关系数 偏相关系数是在控制其他变量的条件下,得出的两个变量之间的相关性指标多元相关分析的结果:偏相关系数控制变量X2X6X3X2相关性1.000.684显著性(双侧).020df09X6相关性.6841.000显著性(双侧).020.df90多元回归分析 多元回归分析的应用范围十分广泛,很多预测模型都以多元回归分析的结果为基础 比如对销售量进行预测,相关的解释变量就有广告费用、销售代理人的数量、产品价格和季节等因素 多元回归分析可分为多元线性回归分析和多元非线性
17、回归分析多元回归分析 LnPRICE =0 +1 LnHOLDER+2 LnSHARE+3 ASSET+4 RETURN99+5 RETURN00+ 预测模型 LnPRICE =8.758 +0.152LnHOLDER-0.368 LnSHARE+0.054ASSET+0.286RETURN99+0.148RETURN00多元回归分析的结果因变量: LnPRICE模型非标准化系数标准系数t Sig. B标准误1(常量)8.785.307 28.600.000 LnHOLDER.152.012.34112.339.000 LnSHARE-.368.017-.603-21.778.000 ASSE
18、T.054.010.1795.394.000 RETURN99.286.053.2005.378.000 RETURN00.184.043.1554.286.000因子分析 因子分析的目的是简化数据,用少量的概括性指标(即因子)来反映包含在许多测量项目(如问卷中李克特表量的题项)中的信息 它是一种互依分析(interdependence analysis),没有因变量,并且要求变量必须是等差或等比量表数据 因子分析提出的因子,每一个都是一组相关变量根据各项目或题项对于因子变化的贡献来加权而得到的加权组合探测性因子分析的结果题项供应商对零售商的依赖123D1 产品的全国性广告 .464.444-
19、.158D2 产品的地方性广告.559.377.011D3 产品送货.455.412-.188D4 产品信息.690.072.182D5 销售信息.723-.212.269D6 售后服务 .581.106.105D7 营销活动 .467.121.438D8 销售额.189-.023.816D9 利润额.062.182.830D10 资金支持.297.629.057D11 产品质量保证 -.022.698.073D12 产品信誉 -.040.657.376变异解释程度%27.82513.02611.043值.710.550 .752判别分析 因变量为类别量表数据,自变量为等差或等比量表数据的情况
20、 因变量是对汽车品牌A、B或C的选择,自变量为消费者对于这些品牌在多种属性上的评价 判别分析可用于回答以下问题 对于某品牌忠诚的顾客与其他顾客在人口特征方面有何差异? 价格敏感的顾客与价格不敏感的顾客在心理特征上具有哪些差异? 不同的细分市场在媒体接触的习惯上有差异吗?聚类分析 将研究对象聚合归类的统计分析工具 在市场营销中有广泛的应用,比如进行市场细分 聚类分析和判别分析都涉及分类问题,但是判别分析要求事先知道每一研究对象的组别,以便制定分组规则 聚类分析不要求事先知道任何一个对象的组别,群组是根据数据定义的,而不是事先确定的 聚类分析是一种互依分析,所使用的数据既可以是等差或等比量表数据,
21、也可是类别量表数据联合分析 可以用于估计产品、品牌、服务或商店的不同属性对消费者的相对重要性,以及消费者对不同属性水平及其组合的偏好 在收集数据时,向调查对象展示由不同属性水平组合成的选项,然后让他对其渴望程度进行评价 基于这样的数据,联合分析就可以为被评价物找到一个较好的属性组合结构等式建模 structural equation modeling, SEM 基于回归分析,又高于回归分析 与回归分析相比,它的最大优点在于能够对模型中的变量做因果关系的推断 LISREL和AMOS SEM主要有两部分组成 测量模型(measurement model):对指标或变量的测量结果进行评价,称为确定性因子分析 路径模型(path model):对指标或变量的因果关系进行路径分析作业与思考题 阅读附录7-1 假设检验的原理 什么是显著性检验? 为什么要进行显著性检验? 如何进行显著性检验?