1、 Market survey & ForecastMarket survey & Forecast 市场调查取得的资料反映的是调查对象各单位的具体情况,它们是分散、表面和零散的,而且精粗并存,真伪混杂,不能体现事物的全貌。要说明调查对象的总体情况,揭示其总体特征、变化发展过程和本质联系,还需要对这些调查资料去粗存精、去伪存真、由表及里、由此及彼的加工整理和分析。 (nominal scale ) 是指资料用来确认被调查者的品质特征或名称时,所采用的度量尺度叫做定性尺度。 例如,在进行消费者的家庭结构调查中,得到的单身家庭、夫妻二人家庭、两代人家庭、三代人家庭等资料的度量尺度称为。 为了便于资料
2、的收集并做好资料录入计算机建立数据库的工作,通常定类尺度的资料用数字代码来表示。例如,用1表示单身家庭;用2表示夫妻二人家庭;用3表示两代家庭;用4表示三代家庭等等。虽然定类尺度的资料各类中能够计算出它所拥有的单位数,但不能反映第一类的一个单位可以相当于第二类的几个单位等等。定类尺度的资料在整理中一般作为分组标志使用。 (ordinal scale)是指当资料既具有定性尺度的性能又需要按照先后顺序或赋予一定的顺序来排列。 例如,对消费某种商品的顾客享受到的售后服务质量进行调查,得到的资料分别是优秀、良好和较差,这些资料属于定序尺度的资料。虽然这些资料具有反映售后服务人员的工作品质特征,即有定类
3、数据的特征,但是它们可以按照一定的顺序排列,如按照服务质量由好到差的顺序排列分别是:优秀、良好和较差。定序资料除了用于分组外,还可以确定变量的中位数、众数和四分位数等指标的位置。(interval scale)是指当资料具有定序性能,并以特定的计量单位表示的观测值之间的一段距离。 总是表现为数字型的。例如,企业的产量、城市居民的常住人口数、企业用于研发的资金投入额等资料都属于定距尺度资料。相同性质的定距尺度的资料可以计算相互间的差值,并可以相加求得它们的总和数值。 (ratio scale)是指资料具有定距尺度的所有性能,并且有必要用两个数值的比例来表示,这种资料的度量尺度就是。的资料总是数字
4、型的,它反映调查对象的构成、比重、速度和密度等的数量关系。例如,企业销售量的增长速度、市场占有率、地区人口的自然增长率等资料都属于定比尺度度量的资料。 市场调查资料的整理依据市场调查整理方案进行。市场调查资料整理内容如下:1、对调查资料进行审核、订正;2、剔除异常数据、缺漏数据;3、根据市场调查的目的、要求对获得的资料进行 分类或分组并汇总;4、将汇总的资料用图表的形式简明扼要的表示出 来。(直方图、饼图、散点图等)5、用表格或图形等形式,将整理过程的市场调查资料简明扼要、系统有序地表现出来。主要审核被调查的单位是否全部被调查,调查问卷或调查表中的各项目是否都填写齐全。如果发现单位漏查或项目漏
5、填的情况,必须查明原因,采取切实有效的措施补全应填而未填的空白表格或项目;如果问卷中出现“不知道”的答案所占比重过大,应采取适当的措施处理并加以说明,以免影响市场调查资料的完整性。主要审核调查资料的口径、计算方法和计量单位等方面是否符合调查设计的基本要求。 准确性审核所使用的方法主要有。 就是根据审核人员已有的实践经验和理论素养,判断市场调查资料的真实性和准确性; 主要审核调查资料的内容是否符合逻辑,项目之间是否又有前后不一致或相互矛盾的地方; 主要通过数据的计算,审核定距资料或定比资料项目之间是否保持资料固有的数字联系和平衡关系。通过逻辑审核和计算审核相结合,对审核中发现的不准确的调查资料,
6、应查明原因,进行反馈和订正。 主要审核各个被调查对象是否都按规定的日期填写、送达调查问卷或调查表和填写的资料是否是最新的。由于市场变化越来越快,只有收集市场最新状态的信息才能最大限度地满足的要求。 在市场调查结束后,通过审核将无效的或不能接受的调查问卷或调查表退回使之重新调查,或视为缺失数据或放弃不用。无效的问卷或调查表主要包括:(相当多的问题没有填写答案、错答了问卷、或没有按照要求回答问题、缺页的问卷或调查表格)、在截止日期之后收回的问卷或调查表等。 判断异常数据的方法可以凭借审核人员的工作经验与实践用进行,也可以用方法进行。 是利用正态分布确定数据允许在合理范围,超出该范围的数据视为异常数
7、据。 数据合理允许范围可用下列式子表示:.,)()(样本的标准差样本的序列数据均值数据允许的上限和下限下上下上SYYKSYY 由下表查得,它由n、P 和P 三个参数决定:n为样本单位数;P1为置信度,通常采用0.95和0.99;P2为数据落在区间内 的概率。),(KSYKSY P0.950.990.990.9990.990.999101520253035404550604.433.883.613.463.353.273.213.163.133.075.654.954.614.414.284.184.104.043.993.925.594.604.163.903.733.613.523.443.
8、383.297.135.885.314.994.774.614.494.404.324.21PKn 某地区连续30年降雨量资料分别为:(单位:mm) 1243 1236 1230 1240 1251 1266 1273 1252 1301 1274 1245 1275 1264 1282 1310 1304 1323 1352 1628 1350 1347 1328 1326 1333 1371 1344 1320 1383 1383 1360 现要求按95%的可靠度,使99%的数据落在允许的范围内,试找出异常数据。n=30, =1330,S=123,P1=0.95,P2=0.99,查表得 K
9、=3.35,Y95.91712335. 3133005.174212335. 31330KSYYKSYY下上则正常数据的区间为(917.95-1742.05),可知1845为异常。 对异常数据的处理,通常要在定性分析的基础上,结合序列数据的具体情况采用不同的方法加工处理。常用的方法有: 当非时间序列数据较多,对不合理的异常数据可以剔除掉. 当时间序列数据较少时,剔除掉不合理的异常数据后可根据序列散点图所显示的数据变化趋势,用相应的方法补齐所缺数据,具体做法如下:(1)当散点图趋势时,异常数据可用算术平均代替。(2)当散点图呈趋势时,异常数据可用其前后的算术平均代替。(3)当散点图呈趋势时,异常
10、数据可用前后两数据的几何平均代替。 有些序列数据虽然异常,但经过分析后,这些数据能够反映调查对象的未来发展趋势,如行政区变更(指标计算口径、计算方法、计量单位变更、市场开放与保护等变更引起的近期数据跳跃性波动等)。显然,这种异常数据非但不能被剔除,还必须作为基础数据,并以此数据的口径来调整其他历史数据,形成新的序列数据。某地区各年度水泥销售量如下表 单位:万元年份1998199920002001200220032004调整前某地销售量某县销售量调整后某地销售量11521136113221331172314012526151130281582919230198 从上表可以算出,在调整前某地销售量
11、自2003年后的销售量出现了跳跃性的增加,为异常数据.经过调查了解到,从2003年起,该地区行政划分发生了变化,增加了一个县.故2003、2004年的数据是正常的,应保留。 在调查数据较少,残缺数据不止一个,或有连续若干个异常数据或数据空缺时,不能简单剔除残缺数据,可用均值替代法、回归估计法、随机抽取法、近距离确定法等修补残缺数据。 是使用变量的平均值替代其中某些异常值或缺失值。这种修补法的优点是能保持变量均值不变,变量的其他统计量(如标准差、相关系数)因此受到的影响也较小。 回归插值法是根据现有的数据,分析该变量与其他变量之间的联系,建立回归模型,然后根据被调查者对其他变量的回答,估计残缺资
12、料的取值。(例如,估计居民家庭对某种消费品的购买量,可依据现有资料建立购买量与家庭人口数、家庭可支配收入之间的回归模型,然后把被调查者填报的家庭人口数、家庭可支配收入作为自变量代入回归模型估计出该家庭对该种消费品的购买量)。 都是依照指定其他被调查者的填报值替代异常值或缺失值的资料修补方法。 资料分组,是根据市场研究的需要,按一定的标志,将研究资料划分为若干个组的整理方法。通过分组,。因此,通过分组可以区分市场的类型、市场内部结构。 对市场调查资料分组的关键在于。分组标志就是进行分组的标准或依据。分组标准选择是否正确,是资料分组能否发挥其作用的基本前提。分组标志一旦确定,在整理中就会突出单位在
13、该标志下的差异,而掩盖了单位在其他方面的不同。因此,同一调查总体由于选择的分组标志不同,由此得出的认识结论也会有所不同,甚至是相反的结论。为此,在进行分组是应遵循以下原则选择分组标志: 对同一研究对象的总体,由于研究目的不同,需要采用不同的分组标志。 例如,研究某地区的消费品零售市场时:(1)研究的目的是分析某种商品的,分组时应采用消费品的生产厂商或品牌作为分组标志;(2)当研究目的在于分析该种商品的,分组标志应选择居民的户型或收入水平等。 总之,根据不同的研究目的,选择合适的分组标志,才能使分组资料更好地满足进行研究的需要。 反映事物的差异的标志很多,分组时应当抓住反映其最具本质区别的关键性
14、标志作为分组标志。 例如,在研究投资的规模效益时,对简单劳动密集型企业的规模分组标志应当选用职工人数;对资金密集型企业的规模分组标志应当选用固定资产原值等。 例如,要获取某地区零售消费品市场规律时:是某种商品的市场供应情况,分组时应当选用某种消费品的生产厂商或品牌作为分组标志;是获取某种商品的消费结构,分组标志应当选择居民的户型或收入水平等。 总之,不同的,才能使分组资料更好地认识市场变化规律。 事物都处于不断地发展和变化之中,在不同阶段研究对象所表现出的性质和特征都会有所不同。因此,在进行分组时,必须用动态的观点选择分组标志。这一点在研究历史资料,进行时间序列分析和预测中需要特别注意。 。
15、常用的资料分组有:品质标志、数量标志分组方法。 当资料的度量尺度是或,这些资料反映调查对象的性质或品质,在对各单位分组时可采用按品质标志分组。 例如,按照企业进行产品宣传的媒体类别标志分组,可划分为: 招贴、报刊杂志、广播、电视、互联网等; 例如,居民按文化程度标志分组,可划分为: 大学、大学以上、高中、初中、小学、文盲和半文盲等。 例如,人口按照性别标志分为男、女两组; 例如,企业按照组织形式标志分为个人业主企业、合伙制企业、股份制企业、合资企业等均属此类。 当资料的度量尺度是或,则这些资料反映调查对象是数量特征。 例如,居民的生活水平分组,按照居民家庭的标志分为: 在60%以上居民家庭归为
16、贫困家庭; 在50%60%的家庭归为温饱家庭; 在40%50%的家庭归为小康家庭; 在40%以下的家庭归为富裕家庭。 由于,按数量标志分组时,有时组与组之间的界线不直观,因此在分组时应 , 各组的能反映各组的差别 例如,对合同履约率不能把90%和100%合并为一组,这是因为这个数字对要约方具有十分不同的意义。,根据情况,采用适当的分组方式,。 是离散型变量,且其表现值只有有限的几个。 例如,对城市家庭按照儿童数量分组,可分成0、1、2、3等组。 是将变量值按照数值大小依次划分为几个区间,每一个区间内的所有变量值归为一个组。 上限和下限统称为组限。 各组区间的距离称为组距。 例如,上述温饱家庭组
17、的恩格尔系数50%和60%分别是该组的下限和上限,组距为10%。 在组距式分组中,相邻组的组限不重叠的分组称为间断组距分组。 例如,儿童按年龄分组分为:不满1岁、12岁、34岁、59岁、1014岁。 对于离散型变量的取值是不连续的分组,也可采用间断组距分组。 例如,对企业数、员工人数、设备台数等用实物单位计量的变量均可用间断组距分组。 在组距式分组中,相邻组的组限重叠,即上一组的上限为下一组的下限,两组共用同一个组限对两相邻组进行连接,这样的分组称为连续组距分组。 例如,家庭按人均居住面积分组分为:4平方米以下、414平方米、14平方米以上。 连续组距分组采用组限重叠方式,对某一单位取值正好等
18、于组限时,可能同时划归两个组。 例如,上述家庭按人均居住面积分组中遇到的恰好人均面积是4或14平方米的家庭,将有两种分组方法,。为了保证在组限确定后分组结果的唯一性,需要遵守所谓“”的原则。 例如,上述人均居住面积恰好为4的家庭应归入414平方米的一组,恰好为14的家庭应归入14平方米以上的一组。 是资料分组中各组的组距都保持相等。其优点很多,它便于进行计算,也便于绘制统计图,进行各组之间的比较和分析。当调查所得到的变量值的变动比较均匀的情况下,均可采用等距分组法进行分组。 例如,对员工的工资、工龄分组;对单位营业面积销售额、单位产品成本分组等。 在等距分组中,分组的数量(n)即组数与组距(d
19、)的乘积等于最大变量值与最小变量值的差额即全距(R)。用公式表示为: R=n.d 在R一定时,等距分组只要确定了n或d,以及最小组的下限或最大组的上限,采用连续组距分组便可把分组中各组的组限确定下来。 组数或组距的确定并无规律可言,须凭经验和研究问题的性质作出正确的判断。美国学者斯特杰斯(HASturges)提出了一个经验公式.,可供我们在进行等距分组时参考: 式中,研究总体( N )的单位数或变量的总个数。该公示要灵活运用,不能生搬硬套。NRdlg3 . 31是资料分组中各组的 变量值分布不均匀。 例如社会成员的收入分配;变量值相等的量具有不同的意义的场合, 又如对婴幼儿按年龄分组;变量值按
20、一定比例增减变化的场合。 异距分组的方法没有固定的模式可循,全凭资料整理人员在实践中不断摸索。关键在于研究人员对所研究现象的本质特征和内在联系十分熟悉,才能运用好异距分组揭示研究对象的本质。 资料分组按照所用的分组标志的多少及组合形式的不同,可以分为简单分组、复合分组和分组体系。 当研究目的,可采用简单分组。 中所使用的分组标志只有一个。 例如,家庭按人均居住面积分组分为:4平方米以下、414平方米、14平方米以上进行分组。 当研究目的就需要采用复合分组。 是将两个或两个以上分组标志相结合进行的资料分组,即首先按照一个标志分组,然后在已划分的各组内按照另一个分组标志或几个分组标志再进行细分组。
21、 例如,对居民家庭首先按照居住地的性质分为城市家庭和农村家庭2组,再把城市家庭和农村家庭分别按照人均居住面积分为4平方米以下、414平方米、14平方米以上3组,形成2个粗分组和6个细分组,共8个组。分组结果见下下表所示: 用复合分组时,分组单位一般不超过两个,否则分组的结果将显得的杂乱不清。 人均居住4平方米以下 人均居住414平方米 人均居住14平方米 人均居住4平方米以下 人均居住414平方米 人均居住14平方米以上 分组的方法,目的在于从不同角度、不同方面对同一研究对象进行分项说明,使人们对研究对象有一个全面的认识。 分组可采用一系列相互联系、相互补充的并列分组标志对研究对象进行分类,如
22、采用罗列式分组,因而各个分组之间不存在交叉层叠,随着分组标志数量增加分组的表现效果会更好。例如,对居民家庭的分组体系可以表示如下: 城市家庭4平方米以下414平方米1人 2人 农村家庭 4平方米以下 14平方米以上 3人 3人以上 是把审核、清洁的有效市场调查资料,按照资料分组的方案进行汇总求得各个有关变量的各组数量总和或各组单位数,以及总体变量总和与总体单位数的资料整理过程。资料汇总的方法有手工汇总法和计算机汇总法两种: 是借助于算盘或计算器进行调查资料的汇总的一种整理方法。手工汇总的主要方法有划记法、过录法、折叠法和卡片法等。 是在汇总表上划上易于计数的符号,如“正”号等进行计数汇总。此法
23、简单易行,主要适用于对定类资料和定序资料的汇总。 是事先将各单位的实际资料过录到预先准备好的表格上,进行加总计算,然后把计算结果填入正式的汇总表。此汇总法主要适用于对和资料的汇总。 当需要整理的调查表格不太多时,可将所有调查表中需要汇总的项目和数值折叠在一边,一张张重叠起来,进行汇总计算。 当总体单位多、复合分组多时,先使用卡片法进行手工汇总。 计算机具有存储量大、运算速度快、准确度高的特点,因此, 使用计算机汇总的方法主要有以下几个部分内容组成: 根据资料汇总的设计方案,编写适用于本汇总方案内容要求的计算机处理程序。包括资料审核与修补程序、资料分组程序、汇总程序和图表制作及打印等程序。 是把
24、市场调查问卷或调查表的信息转化成统一设计的计算机可识别的代码,以便对其进行资料整理和分析。数据编码,一般采用。 是把编码后的市场调查资料和实际数字通过录入设备(键盘、扫描仪、光标阅读器等)记载到计算机的存储设备(硬盘、软磁盘、光盘等),以备计算机随时调用。 是计算机的逻辑检查,是按照程序中事先规定的逻辑检查规则对输入计算机的原始资料进行逻辑计算,将误差超过允许范围的资料退回修正。 所有录入资料经过逻辑检查之后,由计算机按照事先规定的汇总表和汇总层次进行统计制表或制图,并通过输出设备打印出结果。 市场调查资料的分析可分为静态分析和动态分析 。是指分析资料的所属时间均属于同一个时间属性,资料的数值
25、变化是由于时间以外的其他因素,主要是调查单位不同而引起的。是指分析资料是同一调查对象不同时间上的指标数量的分析。两种资料的性质不同,分析方法也有所不同,需要分别加以介绍。 是在对特定时间上的资料进行分组的基础上,对调查总体中的各单位进行归组和计数,从而形成各组之间单位分布状况的数列。分配数列有两部分构成,总体按某一标志所分的组,单位在各组中出现的次数(频数)。 通过分配数列,可以分析研究总体的内部结构,各部分的比例关系以及变量的分布类型等. 需要借助于各组的频数和频率进行分析.频率的计算公式如下:频数频数总体单位数频数频率 为了分析的需要,可计算累计频数和累计频率。(或频率),又分为顺累计 和
26、倒累计 两种不同的累计。 当从变量值低的组向变量值高的组的方向累计,此时每一组的累计频数或累计频率表示该组上限以下的频数或频率之和; 当从变量值高的组向变量值低的组的方向累计,此时每一组的累计频数或累计频率表示该组下限以上的频数或频率之和。 对某市50户居民抽样调查得到的消费品支出资料如下:(单位元) 1660 1760 2460 2200 2360 3160 2420 2920 2340 2160 2100 2200 2140 2740 2400 3260 2500 2720 2540 2840 2360 2060 2740 2300 2820 2340 2460 2530 2760 302
27、0 2020 1720 1620 2260 2280 2380 2520 2700 1860 2840 2160 2020 2100 2500 2320 2640 2760 2620 2540 2500 对以上调查资料采用等距分8组,组距200元,编制组距数列、频数、频率、以上累计和一下累计如下表1: 某市50户居民消费品支出情况分布 表1按户消费支出分组(元) 频数(户) 频率(%)1600-18001800-20002000-22002200-24002400-26002600-28002800-30003000以上4181211833821624221666合计50100按户消费支出分组
28、(元)累计频数(户)累计频率(%)以下累计以上累计以下累计以上累计1600-18001800-20002000-22002200-24002400-26002600-28002800-30003000以上451325364447505045443725146381026507288941001009088745028126某市50户居民消费品支出情况分布表2 表2 数据表明,每户月消费品支出在2000元以下的仅有5户,占总户数的10%;每户月消费品支出在2800元以上的也有6户,占总户数的12%;每户月消费品支出在2600元以下的有36户,占总户数的72%;每户月消费品支出在2600元以上的有
29、14户,占总户数的28%。 对研究总体的各组成部分的比例关系分析,是通过计算各组间比例指标进行的。两组间比例的计算公式如下:乙组的频率甲组的频率乙组的频数甲组的频数甲组与乙组的比例 在表1中的数据表明,月消费品支出16001800元组的户数是月消费品支出18002000元组的户数的4倍;月消费品支出28003000元组的户数是月消费品支出24002600元组的户数的1/4;等等。 在例1中: 若月消费品支出16001800元组的4户居民的当月购买力为10000元; 月消费品支出22002400元组的12户居民的购买力为26000元,50户居民当月的总购买力为130000元; 则月消费品支出16
30、001800元组的5户居民的购买力占全部调查的50户居民总购买力的7.7%,月消费品支出22002400元组的10户居民的购买力占全部调查的50户居民总购买力的20%,月消费品支出16001800元组的4户居民的购买力仅为月消费品支出22002400元组的12户居民的购买力的38.5%。 大致有:钟型、U型和J型有以下三类: “两头大,中间小”,愈靠近中间的变量值分布的频数愈多,愈靠近两边的变量值分布的频数愈少,其形状犹如一口古钟。 愈靠近中间变量值分布的频率愈少,愈靠近两边变量值分布的频率愈多,呈“中间小,两头大”的形状。 随着变量值增加,它所分布的频数渐次增加或渐次减少的分布。 对变量分布
31、类型分析还可转化为直方图、折线图的形式进行分析来判断变量的分布类型。 在例1中,通过编制的分配数列,以各组变量作为横坐标,以各组对应的频数或频率作为纵坐标,在直角坐标上表示出各组变量值与对应的频数或频率的直方图。把直方图上的各个矩形的上边线中点相连,形成表示变量值变化与频数或频率变化的对应关系的折线图。见图1和图2。 图 50户居民消费品支出分布图024681012141618 1820 2022 2224 2426 2628 2830 30以上消费品支出(百元)家庭数(户)051015202530频率( %)图2 50户居民消费品支出分布折线图05101520253012345678消费品支
32、出(百元)家庭数(户) 直观的分析变量分布类型,只是对变量的分布形状有一个基本的认识.如果从数量上对变量的分布特征进行精确的分析,需要计算有关变量分布的统计指标,常用的统计指标如下: 变量分布的集中趋势分析指标是平均指标,它是用于说明变量系列的一般水平指标,也是变量分布的基本特征值之一.(mean).;:211总体或样本的单位总数个被调查单位的观察值第总体样本的均值其中nixxnxxxnxxinnii 在公式中: -总体或样本的均值; xi-第各被调查单位的观察值,为总体或样本的单位总数。这一公式适合于在已知调查总体或样本的各单位观察值的情况下计算总体的均值。当调查总体或样本的各单位的具体观察
33、值未知,但是知道变量的分布数列,这时可以用下列公式计算均值,xkkkiiiikkkkkikiiiffmffffmfmfmffmx11212211112组中的下限值组中的上限值组中值公式中,m-分配数列中各组的组中值; f-各组的频数,k-数列的组数; -各组的频率。 其中,各组频数f的大小对均值的计算结果具有重要影响,称为权数,而各组频率 同样影响均值,故称为权重。加入权数或权重的均值成为加权算术平均数;-分配数列中某一组变量值的中间水平的指标,在既有上限又有下限的组,即闭口组中,组中值由上限值与下限值之和的一半计算,其计算公式为:ff /ff /倍相邻组组距的上限值某开口组的组中值5 . 0
34、倍相邻组组距的下限值或0.5 只有上限或只有下限的中,一般假定开口组的组距与其相邻组的组距相等,因而可用下列公式计算组中值: 利用表1中的分配数列资料,计算50户被调查居民家庭的平均消费品支出额。解:首先计算由低组到高组的组中值,分别是(单位:元):1700、1900、2100、2300、2500、2700、2900、3100。其中,最大组为开口组,计算组中值为: 然后计算50户居民样本的消费品支出额的均值:(元)(组中值31002800-3000213000元)(240450331003290082700112500122300821001190041700 x(元)或2404%63100%
35、62900%82700%222500%242300%162100%21900%81700 x(Mode) 是总体资料中出现频数最多的数据表现。 例如,在零售市场中,销售量最大的品牌、款式或花色即为众数。又如,研究某种商品的销售价格时,销售量最大的那种价位就是众数。 :(1)编制单项式变量数列(对定量资料而言)或品质分配数列(对定性资料而言);(2)找出频数或频率最大的组,该组的变量值或标志表现即为众数。 使用组距数列计算众数的方法是,首先找出频数或频率最大的组(称为众数组),然后按照下列公式计算: 公式中,L、U、d和f分别是众数组的下限值、上限值、极差和频数, 和 分别是与众数组相邻组的频数
36、和与众数组相邻的组的频数。 dffffffLMO)()(1111f1f 试利用表1中的分配数列资料,计算50户被调查居民家庭消费品支出额的众数。从数列中可以得知消费品支出额为22002400元家庭组的频数(率)最大,为众数组。因此,以消费品支出额为22002400元家庭组的相应数据计算众数如下: (元)2240200)812()1112(11122200OM (Median) 是指在数据中处于中等水平的数值。 先在对数据进行大小排列中,中位数处于所有数据的中间位置,比其小者与比其大者的数量各占一半。由于中位数确定,将资料进行排序,所以只有、定距和定比数据能计算或确定中位数,而定类数据不能确定中
37、位数。如果使用未分组的原始数据有n个,则(为奇数)或 (为偶数)。21nexM)(21122nnxxMe 如果使用分组资料,则首先计算累计频数,确定中位数组(即 位次上的变量取值或品质表现所在的组),对单项式变量数列或定序数列的中位数则为中位数组的取值或品质表现;对组距数列,则按照如下公式计算: 2fdfsfUdfsfLMe1122 公式中,L、U、d和分别是众数组的下限值、上限值、组中值和频数, 和 分别是中位数组下限的以下累计频率与中位数组上限的以上累计频数。 1s1s 利用表1中的分配数列资料,计算50户被调查居民家庭消费品支出额的中位数。计算以下累计频率(或以上累计频率,只要其一即可,
38、见表1),并计算中位数的位次为 50/2 = 25。 显然,可以断定中位数应在消费品支出为24002600元的组内,即24002600组为中位数组,中位数计算如下: 元)(83.24012001224252400eM 在研究市场调查资料的分布范围和分布结构等特征,尤其是在分析总体资料的“”和“”的现代探索性数据分析中,计算和分析分位数是一种有效的工具。 一般地,在对总体资料按照大小或优劣顺序进行排列的情况下,能够把全部资料等分为k个部分的资料称为分位数。显然,分位数共有k个。中位数是在分配数列中处于中等水平的代表值,能够把总体等分为两个部分,因此又称为二分位数或1/2分位数。除了二分位数以外,
39、最常用的分位数有、和等。k k对调查资料按照升序排列(变量值由小到大);计算各分位数的位次。对于容量为的数据资料,第p个分位数的位次 计算各分位数的值。如果i不是整数,则向上取整。用比i大的下一个整数代表第个分位数;如果是整数,则第个分位数是第项和第项数值的算术平均值。(quartiles)是能够将总体资料按照大小或优劣顺序等分为4个部分的资料。四分位数共有3个,分别记为Q1、Q2和Q3,它们各代表1/4分位数或下四分位数、中位数和3/4分位数或上四分位数。nkpi 某行业业务经理每月起薪的抽样调查资料的排序如下:(单位:元)2710、2755、2850、2880、2800、2890、2920
40、、2940、2950、3050、3130、3325显然, 中位数=对于Q1 其位次为 因为Q1 的位次是整数,因此它的值不能直接得出,需由第三项和第四项的平均值求得:)(2905229202890元34124ni)(28652288028501元Q表 我国1994-2001年社会商品零售额情况表 单位:元年度19941995199619971998199920002001社会商品零售额(time series) 时间序列又称为动态数列,是研究总体不同时间上的某一指标数量,按照所属时间的先后顺序进行排序所形成的序列。例如,按照我国社会商品零售额编制的时间序列如下表所示 。 时间序列有两个部分组成
41、。,它反映总体指标数值的时间属性;,它反映总体在特定时间上研究指标的发展水平。 时间序列适用于描述研究对象变化的全部过程,研究其发展速度和发展规律的基础,也是进行趋势预测的基本依据。因此,编制科学的时间序列对于市场研究与预测具有重要意义。编制时间序列的基本要求是要保持时间序列的可比性。主要表现在以下方面: 时间序列的时间特征对指标的数值有着决定性的影响。因此,为了保证序列中的各指标能够正确地相互比较,要求时间长短具有一致性。一般地,对时期数列,要求各指标所属的时间短长度应相等;对时点数列,要求相邻两个指标的时间间隔应相等。 由于事物的变化性,研究总体在较长的时间内其总体范围也可能发生变化。例如
42、,地区行政区划的变更、企业合并或分立等。为了使变化了总体范围的指标仍具有可比性,必须对前后两种总体的范围按照某一基准进行调整,如依据现在的总体范围对历史总体范围的指标数值进行调整。 对同一名称的指标,经济内容也可能不同。例如,对价值指标,有的时期采用不变价格计算,有的时期采用市场价格计算;对果品收购量,有的采用干货量计算,有的采用鲜货量计算等等。如果发现经济内容不同的指标,必须进行一致性调整。对时间数列的动态水平分析,是通过计算动态水平指标进行分析的。动态水平指标主要有平均发展水平、增长量和平均增长量等。 平均发展水平是一个较长时期各发展水平时序平均数。由于时间序列不同种类的性质不同,平均发展
43、水平的计算方法也有所不同。如果时间序列由时期指标构成,计算平均发展水平的公式如下: 式中,-平均发展水平,ai表示第i时期的发展水平,为n时间序列中时期的个数。 nanaaaaann 121利用表4.5中的资料,计算我国19942001年间年平均商品零售额。解:如果时间序列由时点指标构成,计算平均发展水平的公式如下: (亿元)8 .2800482 .375956 .341521 .24774206207 .16264 a121211321 naaaaaann年度1994199519961997199819992000200120022003职工总人数 某省1994年2003年各年底的职工总人数
44、的资料如表,试计算这十年内各年平均职工总人数。 当时间数列由相对指标或平均指标构成,计算平均发展水平的公式如下: 式中,C-时间序列中的各相对指标或平均指标,a 和b-派生出相对指标的分子指标和分母指标, 、 由a和b构成的与C序列相对应的序列的平均水平,它们的计算方法依据a和b的性质,可采用的计算公式或采用的计算公式。万人)( 8 .75795 .68201106832169470471874884184281578821abac ba 是时间序列中两个不同时间下的发展水平的差额。其中,研究中作为考察对象的发展水平称为报告期水平,作为报告期的对比基础的发展水平称为基期水平。用公式表示为: 增
45、长量 = 报告期水平- 基期水平 在增长量中:(1),增长量的大小将取决于报告期水平的大小,这样的增长量称为累计增长量;(2),而且基期为报告期的前一期,这样的增长量称为逐期增长量。 是把基期选定为与报告期属于同一季节的年或前几年的时期。 对于明显受季节变动影响的时间序列,计算增长量时,应避免因在不同季节比较引起的歪曲事实的做法。此时,应把基期选定为与报告期属于同一季节的年或前几年的时期。 是时间序列中逐期增长量的序时平均数,它表明研究总体在一定时间内平均每期增长(减少)的数量。用公式表示如下: 平均增长量 = 逐期增长量 / 逐期增长量的个数年度19971998199920002001200
46、22003播种面积12276.7415267.0512695.9013136.9113127.7013359.8013684.4 某省19972003年农产品播种总面积序列,试根据下表计算各年度农产品播种总面积的逐期增长量、累计增长量和年平均增长量。 表 某省19972003年农产品播种面积情况表 计量单位:千公顷各年逐期增长量与累计增长量见下表, 千公顷)(66.234666.140766 .3241 .23221. 901.47785.9231.290年度1997199819992000200120022003播种面积12276.7415267.0512695.9013136.911312
47、7.7013359.8013684.4增长量逐期-290.3192.85477.01-9.21232.1324.6累计-290.31383.16860.17850.961083.061407.6619982003年间平均年播种面积增长量动态速度分析主要是指:等的分析。 是时间序列中两个不同时间下的发展水平的比值,表明研究对象在报告期水平已经发展到基期水平的几分之几或若干倍。用公式表示为: 在发展速度中,当基期水平固定不变,发展速度的大小将取决于报告期水平的大小;当基期水平随着报告期水平的变化而变化,而且基期为报告期的前一期。 把基期选定为与报告期属于同一季节的上年或前几年的时期。对于明显受季节
48、变动影响的时间序列,计算发展速度时,应避免不同季节发展水平的比较。这时,应选用年距发展速度。 增长速度是报告期增长量与基期水平的比值,表明报告期水平比基期增长(或降低)了几分之几或若干倍。用公式表示为: 增长速度 = 报告期增长量 / 基期水平 增长速度,与发展速度相对应,也可以分为和以及等具体增长速度。各种增长速度的计算均可以通过发展速度来计算,公式为: 增长速度使用相对数的形式分析事物的增长情况,因而去掉了增长的绝对数量。所以,对增长速度的分析需要结合分析同期的增长量,进行相互补充。为此,可以通过计算和分析增长1%的绝对值达到这一目的。增长1%的绝对值计算公式为: 100%1上期发展水平逐
49、期增长速度逐期增长量的绝对值增长 我国19952000年煤炭消费总量资料如下表所示。试计算九五期间各年我国能源消费总量的发展速度、增长速度和增长1%的绝对值。年度199519961997199819992000煤炭消费总量(吨) 97857.30 103794.1698525.5792020.9488480.9286126.32年度199519961997199819992000煤炭消费总量(吨) 97857.30 103794.16 98525.5792020.9488480.9286126.32发展速度(%) 环比106.0794.9293.4096.1597.34定基100106.071
50、00.6894.0490.4288.01增长速度(%) 环比6.07-5.08-6.60-3.85-2.66定基6.070.68-5.96-9.38-11.99增长1%的绝对值 978.571037.94985.25920.21884.81861.26 根据的计算公式,得我国能源消费总量的发展速度、增长速度和增长1%的绝对值,如下表: 是一定时期内时间序列的各期环比发展速度的序时平均数,平均发展速度的计算有一下两种方法: 当所关心的重点是时间序列最后一个时间的发展水平,而不在乎其它时间的发展水平的大小,由产量水平构成的时间序列。这样,在计算平均发展速度时采用几何平均法。计算公式为: 公式中,