1、2020/4/8北京大学光华管理学院 胡健颖1市场调研市场调研Marketing Research主讲人:胡健颖教授北京大学光华管理学院2005年5月2020/4/8北京大学光华管理学院 胡健颖2市场调研第六章 频数分布:列联表和假设检验参考书第14章和第15章2020/4/8北京大学光华管理学院 胡健颖31.数据处理?确认与编辑 1)确认:目的是尽可能确保每份调查问卷都是有效问卷 2)编辑整理:确认是对访问员的欺骗行为及调查是否严守程序进行核实,而编辑是对访问员和应答者的错误进行检查。2020/4/8北京大学光华管理学院 胡健颖41.数据处理 下面情况的问卷一般是不能接受的:所回收的问卷是明
2、显不完整的,例如缺了一页或半页 问卷从整体上是回答不完整的 问卷的几个部分是回答不完整的 回答的模式说明调查员(或被访者)并没有理解或遵循访问(回答)指南,例如没有按要求跳答,等等 问卷是在事先规定的截止日期以后回收的 问卷是不合要求的被访者回答的 2020/4/8北京大学光华管理学院 胡健颖51.数据处理?数据编码?数据录入?数据清理 在录入数据后,利用计算机来检查数据的一致性,处理缺失值。?一致性检查:超出数据范围、逻辑问题、极端值?处理缺失值:中性值代替(如均值);估计值代替;删除 (去掉有缺失值的样本);结对删除(每一步计算中采用有完整 答案得样本)2020/4/8北京大学光华管理学院
3、 胡健颖62.数据的表现统计数字和统计图表?假如你已经获得了所要的全部数据;?认识数据的第一步:你得到的是什么类型的数据??利用图和表来展示数据中的信息;?运用指标刻画数据的某些特征和程度;?使用EXCEL来完成对数据的描述。2020/4/8北京大学光华管理学院 胡健颖7数据变量的分类数据变量的分类?按照取值类型:品质数据和数量数据;?按照测量水平:定类(Nominal)、定序(Ordinal)、定距(Interval)、定比(Ratio)等四类;?按照获取时间:截面数据、时间序列;?不同类型的数据应使用不同的统计方法;?问题:刚才的数据表中分别是什么类型?2020/4/8北京大学光华管理学院
4、 胡健颖8区分不同的测量水平区分不同的测量水平?区分原则:定类数据没有大小之分;定序数据有大小之分,差值有意义;定距数据有大小之分,差值有意义,但其比值无意义;定比数据比值有意义。?定比定距数据可以向前化成定序或者定类数据,但是将损失一定信息;反之,不能将定序定类数据化成定距定比数据。2020/4/8北京大学光华管理学院 胡健颖9品质标志的描述方法(1)频数分布、相对分布、百分比频数分布频数分布、相对分布、百分比频数分布是否锻炼 人数(频数)相对频数 百分比 累计百分比 非常喜欢 4 0.2 20.00%20.00%喜欢 6 0.3 30.00%50.00%一般 5 0.25 25.00%75
5、.00%不太喜欢 1 0.5 5.00%80.00%讨厌 2 0.1 10.00%90.00%很讨厌 2 0.1 10.00%100.00%求和 20 1 100.00%100%某校学生对体育锻炼的态度2020/4/8北京大学光华管理学院 胡健颖10品质标志描述方法(2)条形图、柱形图某校学生对体育锻炼态度调查结果0.00%5.00%10.00%15.00%20.00%25.00%30.00%35.00%非常喜欢喜欢一般不太喜欢讨厌很讨厌2020/4/8北京大学光华管理学院 胡健颖11品质标志的描述方法(3)饼图某校学生对体育锻炼态度调查结果20%30%25%5%10%10%非常喜欢喜欢一般不
6、太喜欢讨厌很讨厌2020/4/8北京大学光华管理学院 胡健颖12对矿泉水市场的调查对矿泉水市场的调查北京市居民矿泉水最喜欢品牌33%32%19%5%4%3%2%2%乐百氏农夫山泉娃哈哈可赛雀巢蓝涧获特满其它2020/4/8北京大学光华管理学院 胡健颖13数量标志的描述方法(1)?频数分布1)单项式分布2)组距式分布:等组距、不等组距有关概念:组数、组限(上限、下限)、开口组、闭口组、组距、组中值2020/4/8北京大学光华管理学院 胡健颖14如何按品质标志分类如何按标志标志分类假设某年某月某工地100名工人所得工资资料如下:(单位:元)450 520 540 580 650 720 580 7
7、80 650 620首先:编制一个序列其次:编制变量数列数量标志的描述方法(1)案例:案例:2020/4/8北京大学光华管理学院 胡健颖15(1)单项变量数列表1 某年某工地某年某工地100名工人的月工资情况名工人的月工资情况按工资水平分组(元)工人数(人)4204504808804234合计100数量标志的描述方法(数量标志的描述方法(1 1)2020/4/8北京大学光华管理学院 胡健颖16(2)等组距变量数列表2 某年某工地某年某工地100名工人的月工资情况名工人的月工资情况按工资水平分组(元)工人数(人)4005001050060035600700207008002080090015合计
8、100数量标志的描述方法(数量标志的描述方法(1 1)2020/4/8北京大学光华管理学院 胡健颖17表3 某年某工地某年某工地100名工人的月工资情况名工人的月工资情况按工资水平分组(元)工人数(人)500以下10500600356007002070080020800以上15合计100数量标志的描述方法(数量标志的描述方法(1 1)2020/4/8北京大学光华管理学院 胡健颖18注意几个问题:第一 工资水平是连续变量 要用重叠组限第二 组限的确定,即分组界限的确定第三 组距大小的确定第四 组数的确定,组数全距组距数量标志的描述方法(1)2020/4/8北京大学光华管理学院 胡健颖19(3)不
9、等组距变量数列如在生命统计中,人口死亡率将人口按年龄分组1岁以下11.9岁22.9岁33.9岁44.9岁组距为159.9岁1014.9岁1519.9岁组距为52029.9岁3039.9岁4049.9岁5059.9岁组距为106064.9岁组距为5数量标志的描述方法(1)2020/4/8北京大学光华管理学院 胡健颖20数量标志的描述方法(2)身 高频 数百 分 比 累计百分比=180210.00%100.00%累计20100.00%某校20名学生的身高分布表2020/4/8北京大学光华管理学院 胡健颖21数量标志的描述方法(3)直方图 X185.0180.0175.0170.0165.0160.
10、0155.0150.0Histogram Fitting Density CurvesNormal Curve(Mu=168.0 Sigma=9.94)65432102020/4/8北京大学光华管理学院 胡健颖22数量标志的描述方法(数量标志的描述方法(4 4)?对数据进行探索性分析:J.W.Tukey;?茎叶图(Stem-leaf)茎叶次数153,4,4315611601165,7,7,8,85170,2,3,44175,5,9,94180,12体重体重2020/4/8北京大学光华管理学院 胡健颖23描述两个变量的关系描述两个变量的关系?研究两个变量之间的关系:两个变量的类型分别是什么??两
11、个品质变量之间的关系;?一个品质变量和一个数量变量的关系;?两个数量变量之间的关系。2020/4/8北京大学光华管理学院 胡健颖24交叉分组列表(列联表)交叉分组列表(列联表)表1 学生性别对体育锻炼的态度调查结果比较非常喜欢 喜欢 一般 讨厌很讨厌 合计男80683651190女356250103160合计115130861543502020/4/8北京大学光华管理学院 胡健颖2545 岁以下45 岁或以上45 岁以下45 岁或以上是60%40%35%65%否40%60%65%35%调查对象人数300300200200是否希望出国旅行男性女性表2 年龄和性别对出国旅行的愿望的影响交叉分组列表
12、(列联表)交叉分组列表(列联表)2020/4/8北京大学光华管理学院 胡健颖26图形展示两个变量的关系图形展示两个变量的关系0.00000.05000.10000.15000.20000.2500非常喜欢喜欢一般讨厌很讨厌某校男女生对体育锻炼的态度男女2020/4/8北京大学光华管理学院 胡健颖27描述两个数量型的变量散点图学生身高和体重的散点图405060708090150160170180190学生身高(厘米)学生体重(千克)通过这个图,你觉得身高和体重是什么关系?2020/4/8北京大学光华管理学院 胡健颖28数据描述的数值方法数据描述的数值方法?通过数据指标来概括数据中的信息;?如何刻
13、画数据的集中程度,或集中位置;?如何刻画数据的变异程度;?如何刻画检验异常值;?如何刻画两个变量之间的关系;?探索性分析。2020/4/8北京大学光华管理学院 胡健颖29数据集中位置的度量数据集中位置的度量?平均数(Mean)?中位数(Median)?众数(Mode)?四分位数(Quartiles)?百分位数(Percentiles)?调整(或截尾)平均数(Trimmed Mean)2020/4/8北京大学光华管理学院 胡健颖30一个例子一个例子某城市一居室月租金(美元)的 70个数据4254304304354354354354354404404404404404454454454454454
14、504504504504504504504604604604654654654704704724754754754804804804804854904904905005005005005105105155255255255355495505705705755755805906006006006006156152020/4/8北京大学光华管理学院 胡健颖31平均月租金平均月租金美元80.49070356,34?nxxi2020/4/8北京大学光华管理学院 胡健颖32月租金的中位数月租金的中位数中位数=(475+475)/2=475美元4254304304354354354354354404404
15、404404404454454454454454504504504504504504504604604604654654654704704724754754754804804804804854904904905005005005005105105155255255255355495505705705755755805906006006006006156152020/4/8北京大学光华管理学院 胡健颖33月租金的众数月租金的众数众数是450,450出现的最多,频数是 74254304304354354354354354404404404404404454454454454454504504504
16、504504504504604604604654654654704704724754754754804804804804854904904905005005005005105105155255255255355495505705705755755805906006006006006156152020/4/8北京大学光华管理学院 胡健颖34理解百分数理解百分数?P百分数是这样一个数,它使得至多有 p%的数据项小于这个数,而且至多有(100-p)%的数据的数据大于这个数。?中位数和上下四分位数都是特殊的百分位数。P%(100-p)%P百分位数2020/4/8北京大学光华管理学院 胡健颖35计算第P
17、百分位数的步骤以递增顺序排列原始数据(由小到大);计算 I=(p/100)n;如果I不是整数,将I向上取整。大于I的毗邻整数指示第p百分位数的位置;如果 I是整数,则第p百分位数是第I项与第I+1项的平均值。?2020/4/8北京大学光华管理学院 胡健颖36月租金的第90百分位数计算I=(90/100)70=63。所以第90百分位数是第63和64个数的平均值。42543043043543543543543544044044044044044544544544544545045045045045045045046046046046546546547047047247547547548048048
18、0480485490490490500500500500510510515525525525535549550570570575575580590600600600600615615?2020/4/8北京大学光华管理学院 胡健颖37四分位数四分位数?第一个四分位数=第25百分位数?第三个四分位数=第75百分位数425430430435435435435435440440440440440445445445445445450450450450450450450460460460465465465470470472475475475480480480480485490490490500500500
19、5005105105155255255255355495505705705755755805906006006006006156151Q3Q2020/4/8北京大学光华管理学院 胡健颖38截尾均值截尾均值去除%的最大和最小值,计算剩余数的平均值。月租金的5%的截尾值=487.19?425430430435435435435435440440440440440445445445445445450450450450450450450460460460465465465470470472475475475480480480480485490490490500500500500510510515525
20、5255255355495505705705755755805906006006006006156152020/4/8北京大学光华管理学院 胡健颖39考虑数据的类型考虑数据的类型?不同类型的数据应该采用不同类型的指标来刻画他们的集中位置。?对于定类数据你能够做什么??对于定序数据你能够做什么??对于定距数据和定比数据你能够做什么?2020/4/8北京大学光华管理学院 胡健颖40数据变异程度的度量数据变异程度的度量?全距(Range)?四分位间距(IQR)?方差(Variance)?标准差(Standard Deviation)?变异系数(Coefficient of Variance,CV)2
21、020/4/8北京大学光华管理学院 胡健颖41月租金的全距和四分位间距月租金的全距和四分位间距4254304304354354354354354404404404404404454454454454454504504504504504504504604604604654654654704704724754754754804804804804854904904905005005005005105105155255255255355495505705705755755805906006006006006156152020/4/8北京大学光华管理学院 胡健颖42关于方差和标准差关于方差和标准差总体方
22、差样本方差总体标准差,样本标准差s。样本的标准差系数=NXi22)(?1)(22?Nxxsi()100%sx?2020/4/8北京大学光华管理学院 胡健颖43月租金的标准差月租金的标准差方差标准差标准差系数16.996.22?s74.542?ss%75.11%100?xs2020/4/8北京大学光华管理学院 胡健颖44探索性的数据分析探索性的数据分析?五数概括最小值(Min),第一个四分位数(),中位数(),第三个四分位数(),最大值(Max).2Q3Q1Q2020/4/8北京大学光华管理学院 胡健颖45用EXCEL对数据进行描述分析?数据录入?制作图表?数据分析?计算描述统计量?相关系数20
23、20/4/8北京大学光华管理学院 胡健颖463.假设检验?假设检验问题的提出假设检验是首先对总体提出假设,从而抽取一个随机样本,然后以样本的统计值来验证这个假设是否成立,可以说假设检验是统计推论的反证法。2020/4/8北京大学光华管理学院 胡健颖473.假设检验?假设检验的一般步骤1)建立零假设和备择假设;2)选择适当的用来决定是否拒绝零假设的统计方法和相应的检验统计量;3)选择显著水平的大小。在实践中,进行假设检验的人员确定允许拒绝第一类错误概率的最大值称为检验的显著性水平。显著性水平一般选择0.05和0.01;1H0H2020/4/8北京大学光华管理学院 胡健颖483.假设检验4)决定样
24、本规模并收集数据,计算检验统计值,如样本均值、样本比例、样本标准差等等;5)用检验统计量的抽样分布来决定检验统计量在零假设条件下的概率,以及检验统计量的临界值(即指拒绝域的边界),以便将检验统计量的值与临界值比较;2020/4/8北京大学光华管理学院 胡健颖493.假设检验6)做出是否拒绝零假设的决定。有四种拒绝零假设的方式:如果最终统计量落入拒绝域之内,则拒绝零假设H0如果最终统计量(它的绝对值)大于临界值,则拒绝零假设H0如果概率值小于显著性水平,则拒绝零假设H0如果零假设的值落在置信区间之外,则拒绝零假设H02020/4/8北京大学光华管理学院 胡健颖503.假设检验7)用市场营销研究的
25、语言说明统计决定的意义。注意,如果零假设没有被拒绝,那么最好将结论叙述为“无法拒绝零假设”而不是“接受零假设”,因为从逻辑上讲“无法拒绝 H0”并不一定就意味着可以接受 H0。否则在一些情况下可能会出现严重的问题,或者只给出概率值,让决策者进一步考虑。如前述,最重要的抽样分布是正态分布,作为最终统计量的z 比值常常用于大样本的情况(例如120n?的时候),其计算方法为:检验统计量的标准误差原假设的值)(检验统计量比值/?z 2020/4/8北京大学光华管理学院 胡健颖513.假设检验对于零假设的检验称为单尾检验,因为备择假设是以单方向形式表述的。如果要进行双侧检验,常用的理论如下:?如果64.
26、1?z,那么结果在 10%的水平下是显著的(或在 10%的显著水平下拒绝 H0接受 H1)?如果96.1?z,那么结果在 5%的水平下是显著的(或在 5%的显著水平下拒绝 H0接受 H1)?如果58.2?z,那么结果在 1%的水平下是显著的(或在 1%的显著水平下拒绝 H0接受 H1)?如果29.3?z,那么结果在 0.1%的水平下是显著的(或在 0.1%的显著水平下拒绝 H0接受 H1)在商业性营销研究中,单尾检验比双尾检验更常用。通常,研究收集的证据所支持的结论都有一定的方向性,例如销售额越高产品质量就越高。2020/4/8北京大学光华管理学院 胡健颖52课堂练习课堂练习某百货商场正在考虑
27、是否提供网上购物服务,如果网络用户中 40%通过网络购物,就可以推出这项服务。结合这个例子,第一步应该如何考虑?建立假设 对零假设检验的表述方式为:40.0:0?pH 40.0:1?pH 2020/4/8北京大学光华管理学院 胡健颖53课堂练习课堂练习 如果研究者需要检验通过网络购物的网络用户比例是否是 40%,就要进行双尾检验,假设表达方式变为:40.0:0?pH 40.0:1?pH 2020/4/8北京大学光华管理学院 胡健颖54课堂练习课堂练习第二步选择适当的检验方法 由于检验统计量通常服从某种分布,比如正态分布、t分布或者卡方分布。在网络购物服务的例子中,适用的是z统计量,它服从正态分
28、布,其计算方法如下:(1)p PzPPn?当P已知时 2020/4/8北京大学光华管理学院 胡健颖55课堂练习课堂练习nppPpz)1(?当 P 未知,但样本量很大时 假设本例中调查了 30 个用户,其中 17 人表示使用因特网购物,从而样本的比例填写为 p=17/30=0.567 已知089.0306.04.0)1(?nppp?则检验统计量 z 计算如下:88.1089.040.0567.0?pPpz?2020/4/8北京大学光华管理学院 胡健颖56课堂练习课堂练习第三步选择显著性水平?的大小 我们知道抽样调查结果与总体参数完全相等的情况几乎 是不可能发生的。关键问题是要确定,如果统计假设正
29、确,实际样本成数和假设成数之间的离差是否会在 100 例中出 现 5 例。因此需要一个判定标准来决定是否拒绝原假设,统计学家用显著性水平来说明判定标准。我们采用一项显 著水平为 0.05 的假设。2020/4/8北京大学光华管理学院 胡健颖57课堂练习第一类错误第一类错误是指样本结果拒绝了实际上正确的零假设。本例,如果通过样本数据得出,认为偏好新的服务的客户比例超过40名,而实际数字却等于或小于 40名,我们就犯了第一类错误。第一类错误发生的概率也叫显著性水平,即原假设是正确的,却接受了对立假设。?2020/4/8北京大学光华管理学院 胡健颖58课堂练习 第二类错误第二类错误 是指根据样本结果
30、接受了实际上错误的零假设。本例,如果我们根据样本数据认为偏好新服务的顾客等于或少于40 名,而实际上却大于40 名,我们就犯了第二类错误,即对立假设是正确的,却接受了原假设。第二类错误发生的概率用 表示。换句话说?和?被分别称为犯第一类错误和第二类错误的概率。犯第一类错误的概率也被叫做显著性程度。(参考书第 552 页)?2020/4/8北京大学光华管理学院 胡健颖59课堂练习课堂练习在第二步中已经计算出z=1.88,利用标准正态表,可以计算出 z值为1.88的概率(或者利用标准正态分布查右侧尾部累计概 率)。可知 z=1.88 右侧的区域为0.0301(1-0.9699)取?=0.05,位于
31、 z的临界值 0.05的右侧区域,介于1.64和 1.65之间,为 1.645。2020/4/8北京大学光华管理学院 胡健颖60课堂练习课堂练习2020/4/8北京大学光华管理学院 胡健颖61课堂练习课堂练习第四步比较概率并做出决策 在第三步中,已知本例的样本的比例值p=0.567的概率 为0.0301,小于显著性水平 0.05,因此零假设被拒绝。同样,计算出的统计量 z=1.88,位于拒绝假设区域,超 过了1.645的值,也可以拒绝零假设。最后一步市场营销研究结论 结论:由于网络用户中通过网络购物的比例显著大于0.40,故建议百货商店推出新的网络购物服务。2020/4/8北京大学光华管理学院 胡健颖62课堂练习课堂练习二试实验生产电视机显像管的新工序是否明显优于传统的旧工序的显像管。解:零假设为“新工序生产的显像管的总体平均寿命1200 小时与旧工序生产 的没有什么差异”,即 1200:1200:1100?HH 又知:100?n%5?1265?x 300?S 则:样本均值x的标准差=30100/300/?ns 64.117.230/)12001265(?z 结论:差异是显著的,因而在 5%的显著性水平下拒绝零假设,即新工序生产的 显像管的平均寿命显著地长于传统旧工序,这一检验的错误水平为5%。