1、第一章第一章 统计和统计数据的收集统计和统计数据的收集第二章第二章 统计数据的整理和展示统计数据的整理和展示第三章第三章 数据的描述性分析数据的描述性分析 第四章第四章 概率基础概率基础第五章第五章 区间估计和假设检验区间估计和假设检验第六章第六章 相关与回归分析相关与回归分析第七章第七章 非参数统计非参数统计第八章第八章 时间数列分析时间数列分析第九章第九章 指数指数结束结束一、什么是统计一、什么是统计 二、数据二、数据 三、搜集数据的组织方式三、搜集数据的组织方式 四、有关数据调查的几个问题四、有关数据调查的几个问题 主要内容主要内容目录目录(一)统计包含(一)统计包含三种涵义,两重关系三
2、种涵义,两重关系1. 统计工作:统计工作:对统计数据进行搜集、整理和分析的过对统计数据进行搜集、整理和分析的过程程 。2. 统计数据:统计工作所产生的成果,用以描述我们所统计数据:统计工作所产生的成果,用以描述我们所研究现象的属性和特征研究现象的属性和特征 。如统计图表,统计分析报告如统计图表,统计分析报告等。等。3. 统计学:一门研究总体数量特征的方法论科学。统计学:一门研究总体数量特征的方法论科学。 统计工作统计工作统计资料统计资料统统 计计 学学工作与工作成果关系工作与工作成果关系实践与理实践与理论关系论关系(二)(二)四个重要的术语四个重要的术语 所研究的具有某些相同性质的全部单位或所
3、研究的具有某些相同性质的全部单位或事件的整体。事件的整体。总体总体样本样本: 亦可称为抽样总体亦可称为抽样总体, ,是从总体中抽取部分单是从总体中抽取部分单位所组成的整体,用以分析总体。位所组成的整体,用以分析总体。 参数参数: 亦可称为总体指标亦可称为总体指标, ,是综合测量的整个总体是综合测量的整个总体的某个数量特征。的某个数量特征。统计量统计量:亦可称为样本指标亦可称为样本指标, ,是根据样本数据计算是根据样本数据计算的综合测量值,可用以反映或估计、的综合测量值,可用以反映或估计、推断推断总体的某总体的某个数量特征。个数量特征。 (三)统计学的内容(三)统计学的内容1. 描述统计描述统计
4、关于搜集、展示一批数据,并反映这关于搜集、展示一批数据,并反映这批数据特征的各种方法,其目的是为批数据特征的各种方法,其目的是为了正确地反映总体的数量特点。了正确地反映总体的数量特点。 2. 推断统计推断统计根据样本统计量估计和推断总体参根据样本统计量估计和推断总体参数的技术和方法。数的技术和方法。 描述统计是推断统计的前提,描述统计是推断统计的前提,推断统计是描述统计的发展。推断统计是描述统计的发展。(一)(一) 为何需要数据为何需要数据 ?统计学要研究各种随机变量,通过对这些随机变量的统计学要研究各种随机变量,通过对这些随机变量的观察所获取的数据包含了我们所需的信息,这些信息观察所获取的数
5、据包含了我们所需的信息,这些信息能有助于我们在许多场合中做出更为正确的决策。能有助于我们在许多场合中做出更为正确的决策。例如:例如: 市场研究者需要对产品的特性进行评估,以区分不市场研究者需要对产品的特性进行评估,以区分不同的产品。同的产品。 药品制造厂商需要判别一种新药是否比现在正使用药品制造厂商需要判别一种新药是否比现在正使用着的药更有效。着的药更有效。 审计人员想通过查看某家公司的财务报表,以确认审计人员想通过查看某家公司的财务报表,以确认这家公司是否是依据了通行的会计准则做报表。这家公司是否是依据了通行的会计准则做报表。 财务金融分析人员想判断在未来的五年中,哪些行财务金融分析人员想判
6、断在未来的五年中,哪些行业中的哪些公司最具有成长性。业中的哪些公司最具有成长性。 经济学家想估计我国国内生产总值今年的增长速度。经济学家想估计我国国内生产总值今年的增长速度。生产部门的经理按惯例要检查生产过程,以检验其生产部门的经理按惯例要检查生产过程,以检验其生产的产品质量是否符合公司的标准。生产的产品质量是否符合公司的标准。 (二)(二)数据数据分类的原则分类的原则互斥原则:互斥原则:每一个数据只能划归到某一类型中,而每一个数据只能划归到某一类型中,而不能既是这一类,又是那一类不能既是这一类,又是那一类 。穷尽原则:穷尽原则:所有被观察的所有被观察的数据数据都可被归属到适当的都可被归属到适
7、当的类型中,没有一个类型中,没有一个数据数据无从归属。无从归属。(三)(三)数据数据的类型的类型1. 定性数据和定量数据定性数据和定量数据定性数据:定性数据:用文字描述的用文字描述的 。如如在本章的在本章的“统计引例统计引例”中消费者对永美所提供服中消费者对永美所提供服务的总体评价等都属于文字描述的定性数据务的总体评价等都属于文字描述的定性数据。定量数据:定量数据:用数字描述的用数字描述的。如如企业的净资产额、净利润额等企业的净资产额、净利润额等。2. 离散型数据和连续型数据离散型数据和连续型数据变量变量 若我们所研究现象的属性和特征的具体表现若我们所研究现象的属性和特征的具体表现在不同时间、
8、不同空间或不同单位之间可取在不同时间、不同空间或不同单位之间可取不同的数值,则可称这种数据为变量。不同的数值,则可称这种数据为变量。 类型类型离散型变量:数据只能取整数。离散型变量:数据只能取整数。如一家公司的职工人数如一家公司的职工人数。连续型变量的数据连续型变量的数据可以取介于两个可以取介于两个数数值之间的任意值之间的任意数数值值。如销售额、经济增长率等。如销售额、经济增长率等。 3. 数据的数据的四个等级四个等级 定类数据定类数据例如,对人口按性别划分为男性和女性例如,对人口按性别划分为男性和女性两类两类。也称定名数据,这种数据只对事物的某也称定名数据,这种数据只对事物的某 种属性和类别
9、进行具体的定性描述。种属性和类别进行具体的定性描述。 能够进行的唯一运算是计数,即计算每一能够进行的唯一运算是计数,即计算每一个类型的频数或频率(即比重)。个类型的频数或频率(即比重)。定类数据定类数据例如,对企业按经营管理的水平和取得例如,对企业按经营管理的水平和取得的效益划分为一级企业、二级企业等。的效益划分为一级企业、二级企业等。定序定序数据,数据,也称序列也称序列数据,是对数据,是对事物所具事物所具有的属性顺序进行描述。有的属性顺序进行描述。 定距定距数据数据如如1010、2020等。它不仅有明确的高低等。它不仅有明确的高低之分,而且可以计算差距,如之分,而且可以计算差距,如2020比
10、比1010高高1010,比,比55高高1515等。等。 也称间距也称间距数据数据,是比定序,是比定序数据的描述功能数据的描述功能更好更好一些的定量一些的定量数据数据。 定距测定的量可以进行加或减的运算,但定距测定的量可以进行加或减的运算,但却不能进行乘或除的运算。却不能进行乘或除的运算。 定比定比数据数据如产量、产值、固定资产投资额、居民如产量、产值、固定资产投资额、居民货币收入和支出、银行存款余额等。货币收入和支出、银行存款余额等。也称比率也称比率数据数据,是比定距,是比定距数据数据更高一级的更高一级的定量定量数据数据。它不仅可以进行加减运算,而。它不仅可以进行加减运算,而且还可以作乘除运算
11、。且还可以作乘除运算。 测定层次测定层次特征特征运算功能运算功能举例举例1. 定类测定定类测定2. 定序测定定序测定3. 定距测定定距测定4. 定比测定定比测定分类分类分类;排序分类;排序分类;排序;分类;排序;有基本测量单位有基本测量单位分类;排序;分类;排序;有基本测量单位;有基本测量单位;有绝对零点有绝对零点计数计数计数;排序计数;排序计数;排序;计数;排序;加减加减计数;排序;计数;排序;加减加减乘除乘除产业分类产业分类企业等级企业等级温度温度商品销售商品销售额额4. 截面数据和时间序列数据截面数据和时间序列数据 截面数据:截面数据:所搜集的不同单位在同一时间的数据。所搜集的不同单位在
12、同一时间的数据。例例如,所有上市公司公布的如,所有上市公司公布的20042004年年度的净利润。年年度的净利润。时间序列数据:时间序列数据:所搜集的同一总体或单位在不同时间所搜集的同一总体或单位在不同时间的数据。的数据。某公司公布的某公司公布的19931993年到年到20042004年的年度净利润就是时间年的年度净利润就是时间序列数据。序列数据。 5. 原始数据原始数据和和次级数据次级数据 原始数据原始数据:指直接从各个调查单位搜集的、尚未经过指直接从各个调查单位搜集的、尚未经过整理的统计数据资料,也称一手数据。整理的统计数据资料,也称一手数据。次级数据次级数据: :指那些已经加工整理过的,往
13、往是公开发表指那些已经加工整理过的,往往是公开发表的数据的数据,也称二手数据。也称二手数据。 如从报如从报纸纸杂志、统计年鉴、会计报表上取得的数据杂志、统计年鉴、会计报表上取得的数据 。(四)(四)数据数据的来源的来源1. 1. 从政府机构、各种行业组织、公司和企业所公布的从政府机构、各种行业组织、公司和企业所公布的数据中获取。数据中获取。就是把政府机构、各种组织和公司所公布的数据作为就是把政府机构、各种组织和公司所公布的数据作为来源,这种数据往往是来源,这种数据往往是次级数据次级数据。 2. 2. 设计一次试验以获取必要的数据。设计一次试验以获取必要的数据。例如,在检验洗衣机洗净程度的研究中
14、,研究人员通例如,在检验洗衣机洗净程度的研究中,研究人员通过实际洗涤脏衣服,来研究哪种牌子的洗衣机效果最过实际洗涤脏衣服,来研究哪种牌子的洗衣机效果最佳。佳。 3 3. .从观察研究中获取。研究人员通常是在自然状态下从观察研究中获取。研究人员通常是在自然状态下, ,进行直接的观察。进行直接的观察。 例如,观察路口的交通流量、观察顾客在商场的购买例如,观察路口的交通流量、观察顾客在商场的购买行为和观察流水线上的产品质量等。行为和观察流水线上的产品质量等。4. 4. 进行一次调查。进行一次调查。它对所调查人们的行为不进行任它对所调查人们的行为不进行任何控制,仅提出诸如出生年月、爱好、消费习惯、对何
15、控制,仅提出诸如出生年月、爱好、消费习惯、对某一事件的看法和其他特征方面的问题,然后对他们某一事件的看法和其他特征方面的问题,然后对他们回答的结果进行整理、编码、列表和分析。回答的结果进行整理、编码、列表和分析。调查方调查方案的主案的主要内容要内容 确定调查确定调查目的目的确定调查确定调查对象对象和和调查单位调查单位 拟订调查拟订调查提纲提纲确定调查确定调查时间时间 编制调查的编制调查的组织计划组织计划(一)普查、抽样、统计报表制度和重点调查(一)普查、抽样、统计报表制度和重点调查 1.普查普查特点:特点: 工作量大工作量大,时间性强时间性强,需要大量人力和财力。,需要大量人力和财力。任务:任
16、务:搜集重要的搜集重要的国情国力和资源状况国情国力和资源状况的全面资的全面资料,为政府制定规划、方针政策提供依据。料,为政府制定规划、方针政策提供依据。方式:方式:建立专门机构,配备专门人员调查。建立专门机构,配备专门人员调查。利用基层单位原始记录和核算资料进行调查。利用基层单位原始记录和核算资料进行调查。原则:原则:规定统一的标准时点。规定统一的标准时点。规定统一的普查期限。规定统一的普查期限。规定统一的调查的项目和指标。规定统一的调查的项目和指标。2.抽样调查抽样调查特点:特点: 1.按按随机原则随机原则从总体中抽取样本;从总体中抽取样本;2.以样本指标(统计量)为依据以样本指标(统计量)
17、为依据推断总体参数推断总体参数 或或检验总体的某种假设检验总体的某种假设;3.抽样误差可以事先抽样误差可以事先计算计算并加以并加以控制控制。3.3.统计报表制度统计报表制度 是按一定的表式和要求,是按一定的表式和要求,自上而下自上而下统一布置,统一布置,自下而自下而上上提供统计资料的一种统计调查方法。提供统计资料的一种统计调查方法。 这种搜集统计数据方法是伴随着计划经济而产生的,这种搜集统计数据方法是伴随着计划经济而产生的,并曾在我国占主导地位。现在,在社会主义市场经济并曾在我国占主导地位。现在,在社会主义市场经济条件下,仍是我国搜集统计数据的组织方式之一。条件下,仍是我国搜集统计数据的组织方
18、式之一。4.重点调查重点调查特点:特点:在总体中选择在总体中选择个别或部分个别或部分重点单位重点单位进行调查进行调查。任务:任务:及时了解总体基本情况,为主管部门指导工及时了解总体基本情况,为主管部门指导工作服务。作服务。方式:方式:重点单位重点单位指在总体中有举足轻重地位的单位,指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。其标志值在总体标志总量中占有绝大比重。经常性调查;同报表制度结合,用统计报表经常性调查;同报表制度结合,用统计报表调查。调查。 例如,要了解全国钢铁生产的基本情况,只要调例如,要了解全国钢铁生产的基本情况,只要调查鞍钢、宝钢、首钢、武钢、包钢等十几
19、家特大查鞍钢、宝钢、首钢、武钢、包钢等十几家特大型的钢铁企业就可以掌握全国钢铁企业生产的基型的钢铁企业就可以掌握全国钢铁企业生产的基本情况本情况 。(二)抽样的优点(二)抽样的优点 1.适用的范围广。适用的范围广。对于有限总体,从理论上讲,既可以进行普查也可以对于有限总体,从理论上讲,既可以进行普查也可以进行抽样;进行抽样;对于无限总体,就只能进行抽样。若理论上可以而实对于无限总体,就只能进行抽样。若理论上可以而实际上很难采用全面普查的情况,也只能采用抽样。际上很难采用全面普查的情况,也只能采用抽样。如产品质量的破坏性检验、居民住户调查等。如产品质量的破坏性检验、居民住户调查等。2.2.与全面
20、普查相比,抽样最大的优点是节省人、财、与全面普查相比,抽样最大的优点是节省人、财、物力和时间。物力和时间。 3.3.随机抽样可以比普查更为精确。随机抽样可以比普查更为精确。 (三)抽样的类型(三)抽样的类型 非随机抽样非随机抽样 随机抽样随机抽样 判断抽样判断抽样 定额抽样定额抽样 方便抽样方便抽样 简单随机抽样简单随机抽样 抽样类型抽样类型系统抽样系统抽样 分层抽样分层抽样 整群抽样整群抽样 非随机抽样非随机抽样 又称为非概率抽样又称为非概率抽样 ,是是不按照随机原不按照随机原则则来抽取样本中的单位或个体。来抽取样本中的单位或个体。 特点特点具有方便、快速和低成本具有方便、快速和低成本精确性
21、差,结论缺乏普遍性精确性差,结论缺乏普遍性 判断抽样判断抽样 又称为典型调查,是从事有关工作的专家按照一定的又称为典型调查,是从事有关工作的专家按照一定的标准标准有意识地有意识地在总体中选择若干有代表性的单位组成在总体中选择若干有代表性的单位组成样本进行调查,代表单位的选取标准应根据统计研究样本进行调查,代表单位的选取标准应根据统计研究的目的而定。的目的而定。 定额抽样定额抽样 是根据已定的单位数抽取样本,是根据已定的单位数抽取样本,往往是对总体了解甚少往往是对总体了解甚少的时采用。的时采用。如想获取某地区化妆品的销售情况,对该地区的如想获取某地区化妆品的销售情况,对该地区的5 5家商家商厦进
22、行调查厦进行调查。方便抽样方便抽样 是为了取样方便,随意地抽取样本单位。是为了取样方便,随意地抽取样本单位。街头偶遇式调查就是一种最为常见的方便抽样街头偶遇式调查就是一种最为常见的方便抽样。随机抽样随机抽样 是根据是根据随机原则随机原则来抽取样本单位来抽取样本单位 .简单随机抽样简单随机抽样 方法:方法:在抽样框中的每个单位都具有相同的被抽中的机在抽样框中的每个单位都具有相同的被抽中的机会会, ,每个容量相同的样本被抽中的机会也是相同的。每个容量相同的样本被抽中的机会也是相同的。 亦称为纯随机抽样亦称为纯随机抽样抽取样本的方法:抽取样本的方法:有放回抽样和无放回抽样。有放回抽样和无放回抽样。
23、适合:适合:总体内部差异不是很大,规模也不大的情况总体内部差异不是很大,规模也不大的情况 。系统抽样系统抽样方法:方法:抽样框中的抽样框中的N N个单位被分成个单位被分成k k个系统,个系统,k k等于抽样等于抽样框的容量框的容量N N除以所需的样本容量除以所需的样本容量n n,在抽样框中前面的在抽样框中前面的k k个个体或单位中随机抽出第一个样本单位,然后,可在个个体或单位中随机抽出第一个样本单位,然后,可在其后的每隔其后的每隔k k个单位抽取样本中其余的部分。个单位抽取样本中其余的部分。亦可称为等距抽样亦可称为等距抽样 编号有两编号有两种方法:种方法:一种是利用原有的顺序或编号一种是利用原
24、有的顺序或编号 。如学生的注册名单,或者是从生产流水线上如学生的注册名单,或者是从生产流水线上下来的、有编号的产品等。下来的、有编号的产品等。对所研究的总体已有所了解,则可用已知对所研究的总体已有所了解,则可用已知的相关变量对抽样框中的单位进行编号。的相关变量对抽样框中的单位进行编号。分层抽样分层抽样 亦可称为类型抽样亦可称为类型抽样 方法方法:将总体全部单位分类,形成若干个类型组,后:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。从各类型中分别抽取样本单位,合成样本。总体总体N样本样本n等额等额等比例等比例最优最优kiiknnnnn121nNNni12NkN1
25、N1n2nknnNNniiii221整群抽样整群抽样 方法方法:首先把总体中的首先把总体中的N个单位划分成为若干个群,个单位划分成为若干个群,并要求每个群对整个总体都具有代表性,然后对群进并要求每个群对整个总体都具有代表性,然后对群进行简单随机抽样,并对抽中群内的所有单位进行调查行简单随机抽样,并对抽中群内的所有单位进行调查研究。研究。 总体群数总体群数R=16 样本群数样本群数r=4 样本容量样本容量ABCDEFGHIJKLMNOPLHPDhlpdnnnnn适合:适合:比简单随机抽样的方法能节约更多的成本,特别比简单随机抽样的方法能节约更多的成本,特别当总体的分布地域非常辽阔当总体的分布地域
26、非常辽阔 时。时。调查的目的调查的目的 判断调查误差的大小判断调查误差的大小 登记性误差:登记性误差:代表性误差代表性误差系统性的代表性误差系统性的代表性误差 登记、汇总、过录时产生的误差,登记、汇总、过录时产生的误差,以及无回答误差和测量误差等以及无回答误差和测量误差等 偶然性的代表性误差偶然性的代表性误差即为抽样误差即为抽样误差 调查中的道调查中的道德性问题德性问题 1.1.调查者别有用意地、有意识地选择导向性的问题,调查者别有用意地、有意识地选择导向性的问题,使回答者出现有倾向性的回答。使回答者出现有倾向性的回答。 2.2.询问者有意识地通过语气、语调引导被询问者出询问者有意识地通过语气
27、、语调引导被询问者出现有倾向性的回答。现有倾向性的回答。 3.3.回答者不重视或不愿意回答调查的内容,就很可回答者不重视或不愿意回答调查的内容,就很可能提供错误的信息。能提供错误的信息。 统计数据统计数据的整理的整理 目录目录统计数据统计数据的展示的展示排序排序统计分组统计分组频数分布编制频数分布编制统计表统计表统计图统计图排序排序统计搜集到的大量资料是分散的,不系统的,只能说统计搜集到的大量资料是分散的,不系统的,只能说明各个单位的特征和属性,必须按照科学的原则加以明各个单位的特征和属性,必须按照科学的原则加以整理整理,使之条,使之条理化和系统化,理化和系统化,成为便于储存和传递的成为便于储
28、存和传递的、反映总体特征的数据。、反映总体特征的数据。 就是把定量数据按从大到小或从小到大的顺序排列,就是把定量数据按从大到小或从小到大的顺序排列,把定性数据按习惯的文字顺序排列,便于我们研究其把定性数据按习惯的文字顺序排列,便于我们研究其条理。条理。 统计分组统计分组对于定性数据就是依据属性的不同将数据划分成若干对于定性数据就是依据属性的不同将数据划分成若干组,对于定量数据就是依据属性数值的不同将数据划组,对于定量数据就是依据属性数值的不同将数据划分成若干组。分成若干组。 组内同质性,组间差异性。组内同质性,组间差异性。频数分布编制频数分布编制分组的关键分组的关键变量的选择,选择与变量的选择
29、,选择与研究的问题有关研究的问题有关的的 变量变量 。组限的确定。应遵循组限的确定。应遵循穷尽穷尽和和互斥互斥原则原则 。定性数列编制:定性数列编制:组限的确定一般比较简单组限的确定一般比较简单 。如人口按性别分组、企业按所有制分组等如人口按性别分组、企业按所有制分组等 定量变量定量变量编制:编制: 分为单项数列和组距数列两种形式。分为单项数列和组距数列两种形式。 单项数列:单项数列:即变量的一个取值为一组,适用于离散即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。型变量,并且变量的取值较少。 组距数列:组距数列:即每一组有一个上限值和一个下限值所即每一组有一个上限值和一个下限值
30、所形成的区间,适用于连续性变量,或离散型变量且形成的区间,适用于连续性变量,或离散型变量且变量的取值较多的情况。变量的取值较多的情况。 注意以下三个方面的问题注意以下三个方面的问题 1.确定组数确定组数 2.确定组距:确定组距:组距为上限与下限之差。组距为上限与下限之差。等距数列数据分布均匀。等距数列数据分布均匀。异距数列数据分布不均匀。异距数列数据分布不均匀。 3.确定组限确定组限 应能把现象的不同类型划分出来应能把现象的不同类型划分出来 。要考虑到数据是连续性变量还是离散型要考虑到数据是连续性变量还是离散型变量。变量。 无法确定实际数据的取值范围,或者数无法确定实际数据的取值范围,或者数据
31、中存在极端数值,可采用开口据中存在极端数值,可采用开口组组的的形形式式。4.确定确定组中值组中值 :( (上限下限)上限下限)2 2 ,开口组,开口组 当统计数据比较多时,就应该制作表格或者图形进行来当统计数据比较多时,就应该制作表格或者图形进行来展示,使数据的重要特性能从表格或者图形中展示,使数据的重要特性能从表格或者图形中直观地直观地反反映出来,这样可提高分析数据和解释数据的映出来,这样可提高分析数据和解释数据的效率效率。 统计表统计表是把统计数据用表格的形式展示出来。是把统计数据用表格的形式展示出来。 类型:类型: 按作用分按作用分调查表调查表按数据按数据所属所属的时间的时间分分截面数据
32、表截面数据表时间序列表时间序列表 汇总整理表汇总整理表计算分析表计算分析表 按按分组变量分组变量的多少的多少分分单变量分组表单变量分组表多变量分组表多变量分组表 有平行形式有平行形式交叉形式交叉形式 统计图统计图统计图形通常可比统计表格更生动地描述数据。统计图形通常可比统计表格更生动地描述数据。 类型:类型: 饼图饼图是以整个圆的是以整个圆的360360度代表全部数据的总和度代表全部数据的总和,按照各类组所占的百分比(频率),把一,按照各类组所占的百分比(频率),把一个个“饼饼”切割为各个扇形。切割为各个扇形。适用于定性数据适用于定性数据。 40%28%32%ABC 50家门店家门店按区域分按
33、区域分组的饼图组的饼图 条形图条形图中,每一分类组表示成一个条,条的长度代中,每一分类组表示成一个条,条的长度代表了这个组中所含数据的频数或频率。适用于定性表了这个组中所含数据的频数或频率。适用于定性数据数据。 50家门店数按区家门店数按区域分组的条形图域分组的条形图0510152025按区域分组ABC家门店按区域并按人家门店按区域并按人数分组的分段比例条形图数分组的分段比例条形图直方图直方图与条形图相似,是在每个分组区间上绘制一个与条形图相似,是在每个分组区间上绘制一个长条形而产生的图形,它可以用来描述已表示成频数长条形而产生的图形,它可以用来描述已表示成频数或频率的数据。适用于定或频率的数
34、据。适用于定量量数据数据。05101520月销售额(万元)频数根据表根据表2-5的等距数列的等距数列 对于异距数列,以组对于异距数列,以组距为宽距为宽,以频数密度以频数密度为高来为高来绘制绘制直方图。直方图。 该组的组距某组的频数频数密度 折线图折线图可以在直方图基础上,将每个长方形的顶端中可以在直方图基础上,将每个长方形的顶端中点用折线连接而成,或用组中值与频数(或频率)求点用折线连接而成,或用组中值与频数(或频率)求坐标点连接而成坐标点连接而成 。根据图根据图2-6的直方图绘制的折线图的直方图绘制的折线图0510152025-3030-3535-4040-4545-5050-55销售额频数
35、频数 (门店家数)曲线图曲线图当变量的取值非常多,变量数列的组数无限增当变量的取值非常多,变量数列的组数无限增多时,折线便趋于一条平滑的曲线,这是一种概括描多时,折线便趋于一条平滑的曲线,这是一种概括描述变量数列分布特征的理论曲线。述变量数列分布特征的理论曲线。 枝叶图枝叶图是探索性数据分析中的一种方法,也是对一批是探索性数据分析中的一种方法,也是对一批数据进行组织整理的很有价值的一个工具,可用以了数据进行组织整理的很有价值的一个工具,可用以了解一批数据中由所有观测值构成的数据的取值范围是解一批数据中由所有观测值构成的数据的取值范围是如何分布的。如何分布的。 本章将讨论的是数据的本章将讨论的是
36、数据的总量总量和和相对关系相对关系的测度,数据的测度,数据的集中趋势、离散趋势及其形态的测度。的集中趋势、离散趋势及其形态的测度。 一一、绝对数和相对数、绝对数和相对数二、集中趋势的测定二、集中趋势的测定三、离散趋势的测定三、离散趋势的测定四、数据的形态测定四、数据的形态测定主要内容主要内容(一)绝对数(一)绝对数绝对数(亦称总量指标)是统计资料经过汇总整理绝对数(亦称总量指标)是统计资料经过汇总整理后得到的反映总体后得到的反映总体规模规模和和水平水平的总和指标。的总和指标。 (3)是计算相对指标和平均指标的基础。)是计算相对指标和平均指标的基础。作用作用概念概念例如,企业的销售收入、一个地区
37、或国家的社会总例如,企业的销售收入、一个地区或国家的社会总产值、国内生产总值等。产值、国内生产总值等。 (1 1)反映一个国家的国情和国力,一个地区或一)反映一个国家的国情和国力,一个地区或一个企业的人力、物力、财力个企业的人力、物力、财力 (2 2)是进行经济核算和经济活动分析的基础)是进行经济核算和经济活动分析的基础 分类分类 按反映总体的内容分按反映总体的内容分按反映的时间状态分按反映的时间状态分 按计量单位分按计量单位分变量总值变量总值 单位总数单位总数时期数时期数时点数时点数实物量实物量价值量价值量 相对数是用两个有联系的指标进行对比的相对数是用两个有联系的指标进行对比的比值比值,可
38、,可以反映现象的数量特征和数量关系,并可将现象的以反映现象的数量特征和数量关系,并可将现象的绝对差异抽象化,使原来不能直接相比的绝对数可绝对差异抽象化,使原来不能直接相比的绝对数可以进行比较。以进行比较。 种类种类计划完成相对数计划完成相对数结构相对数结构相对数比较相对数比较相对数强度相对数强度相对数动态相对数动态相对数(二)相对数(二)相对数概念概念不同时期不同时期比比 较较动动 态态相对数相对数注:注:又称发又称发展速度展速度 强强 度度相对数相对数注:注:复名数复名数有正逆有正逆指标指标不同现象不同现象比较比较不同总体不同总体比较比较比比 较较相对数相对数同一总体中同一总体中部分与总体部
39、分与总体比比 较较实际与计划实际与计划比比 较较结结 构构相对数相对数计划完成计划完成相对数相对数注:注:有正逆指标有正逆指标同一时期比较同一时期比较同类现象比较同类现象比较(1)正确选择对比的基数;)正确选择对比的基数;(2)必须注意统计的可比性;)必须注意统计的可比性;(3)相对指标要与总量指标相结合。)相对指标要与总量指标相结合。应用原则应用原则概念概念表明同类现象在一定时间、地点、条件下所达到的表明同类现象在一定时间、地点、条件下所达到的一般水平,是总体内某个变量大小各异的观察值的一般水平,是总体内某个变量大小各异的观察值的代表性代表性数值。也是对变量分布数值。也是对变量分布集中趋势集
40、中趋势的测定。的测定。数据集中区数据集中区变量变量xx常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点优点:优点:容易理,容易理, 便于计算便于计算 灵敏度高灵敏度高 稳定性好稳定性好 和和 缺点:缺点:易受极值易受极值影响影响 在偏斜分布和在偏斜分布和U形分布中,形分布中,不具有代表性不具有代表性1. 算术平均数算术平均数( )一个变量一个变量的所有观的所有观察值相加察值相加,再除以,再除以观察值的观察值的个数个数 nxxiiiiiiiffxffxx简单:简单:加权:加权:0 xx最小2xxx权数权数解释解释权数(权数(Weighted),),是分布数列中的频数或
41、频率。是分布数列中的频数或频率。对求平均数具有对求平均数具有权衡轻重权衡轻重的作用,是影响平均数变的作用,是影响平均数变动的两个因素之一(另一因素是变量值)。动的两个因素之一(另一因素是变量值)。(1) (2)(3)X456合计合计频数频数 频率频率(%)10201025.050.025.040100.0X456合计合计频数频数 频率频率(%)20402025.050.025.080100.0X456合计合计频数频数 频率频率(%)20101050.025.025.080100.0 x =5 x =5 x =4.75 频率分布变了,均值也变。因此,严格地说,频率分布变了,均值也变。因此,严格地
42、说,权数应指权数应指频率频率。算术平均数的变形算术平均数的变形xmmfxfx数学上称其为调和平均数学上称其为调和平均数,只是用这种形式时数,只是用这种形式时,变量的取值不能为,变量的取值不能为0。求某种商品三种零售价格的平均价格求某种商品三种零售价格的平均价格调和平均调和平均100 . 21105 . 21103 . 311010101iiiHmxmx494. 203.1230价格(元)价格(元)3.32.52.0合计合计销售额(元)销售额(元)10101030常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点优点:灵敏度高优点:灵敏度高 受极值影响小受极值影响小于于
43、 和和 适宜于各比率适宜于各比率之积为总比率的变之积为总比率的变量求平均量求平均缺点缺点:有有“ 0”或负或负值时不能计算值时不能计算 偶数项数列只偶数项数列只能用正根能用正根2. 几何平均数几何平均数( )几个变量几个变量值连乘积值连乘积的的n次根次根简单:简单:加权:加权:GxniGxxififiGxxxHx概概 念念 计算计算 公公 式式 特特 点点3. 中位数中位数(Me)是一种位是一种位置平均数置平均数, ,数据数据按按大小顺序大小顺序排列,处排列,处于数据序于数据序列中间位列中间位置的数值置的数值就是中位就是中位数数 上限公式:上限公式:下限公式:下限公式:ifSmfUMem1/2
44、ifSmfLMem1/2优点:优点:容易容易理解,理解, 不受极值不受极值影响影响适宜于开口适宜于开口组资料和些不组资料和些不能用数字测定能用数字测定的事物的事物缺点:缺点:灵敏灵敏度和计算功能度和计算功能差差 间断数间断数Me常用的几种平均数常用的几种平均数常用的几种平均数常用的几种平均数概概 念念 计算计算 公公 式式 特特 点点4. 众数众数(Mo)是一种位是一种位置平均数置平均数,是一批,是一批数据中出数据中出现次数最现次数最多的那个多的那个数值数值. .通通常只用于常只用于定性数据定性数据或离散型或离散型的定量数的定量数据。据。上限公式:上限公式:下限公式:下限公式:优点:优点:容易
45、容易理解,理解, 不受极值不受极值影响影响 缺点:缺点:灵敏灵敏度和计算功能度和计算功能差差 稳定性差稳定性差 具 有 不 唯具 有 不 唯一性一性idddUMo212idddLMo21125303540455051015f(人数)(人数)月收入:元月收入:元36.11 d1 d255位置平均数与算术平均数的关系位置平均数与算术平均数的关系1.众数众数适用于所有的定性数据和定量数据适用于所有的定性数据和定量数据 中位数中位数适用于定性数据中的定序数据和定量数据适用于定性数据中的定序数据和定量数据 算术平均数算术平均数只适用于定量数据只适用于定量数据2.定量数据定量数据:若是若是钟形分布,钟形分
46、布,三种集中趋势指标一般三种集中趋势指标一般 都可适用。而对都可适用。而对J形分布,形分布,反反J形分布和形分布和U形分布,中位形分布,中位数和算术平均数没有任何意义。数和算术平均数没有任何意义。3.3.在确定集中趋势指标的过程中,算术平均数比中位在确定集中趋势指标的过程中,算术平均数比中位数和众数使用了更多的数据信息数和众数使用了更多的数据信息 。4.对于钟形分布且数据量很大时,三种集中趋势指标有对于钟形分布且数据量很大时,三种集中趋势指标有如下三种数量关系:如下三种数量关系: XfXfXfMoMex(对称分布对称分布)MoMex正偏态分布(右)正偏态分布(右)MoMex负偏态分布负偏态分布
47、(左)左)1212xxMeMeMoMoxMeMo应用平均指标的原则应用平均指标的原则 1必须是同质的量方可平均;必须是同质的量方可平均; 2总平均数与组平均数结合分析;总平均数与组平均数结合分析; 3集中趋势与离散趋势结合分析集中趋势与离散趋势结合分析概念概念标志变异指标是反映变量分布标志变异指标是反映变量分布离散趋势离散趋势、与平均、与平均指标指标相匹配相匹配的指标。的指标。 (1)反映变量分布的离散趋势;)反映变量分布的离散趋势; (3)是对事物发展均衡性的量度。)是对事物发展均衡性的量度。 (2)是对平均数的代表性程度的量度;)是对平均数的代表性程度的量度;作用作用概概 念念 计计 算方
48、法算方法 特特 点点是非众数组所是非众数组所占比重占比重 1异众异众比率比率 如百得便利超市如百得便利超市公司公司5050家门店按家门店按区域划分的众数区域划分的众数是是A区域,该组的区域,该组的次数是次数是20家,所家,所以异众比率为以异众比率为60%,这说明,这说明5050家门店按区域划家门店按区域划分的离散程度比分的离散程度比较大,众数的代较大,众数的代表性较差。表性较差。 异众比率是反映异众比率是反映定名数据离散趋定名数据离散趋势的唯一指标,势的唯一指标,这个指标越小,这个指标越小,说明数据的离散说明数据的离散程度越小,集中程度越小,集中程度越大程度越大 概概 念念 计计 算算 特特
49、点点数列中最大值数列中最大值与最小值之差与最小值之差2极差极差 (R)R=最大值最大值-最小值最小值R=最大组的上限最大组的上限-最小组的下限最小组的下限 优点:容易理解,优点:容易理解, 计算方便计算方便缺点:不能反映全缺点:不能反映全部数据分布状况部数据分布状况3四分四分位差位差 (M3- M1)/2 在反映数据的离在反映数据的离散程度方面比全散程度方面比全距较为准确,但距较为准确,但仍显粗略仍显粗略 是一批数据中是一批数据中的第三四分位的第三四分位数与第一四分数与第一四分位数之差的二位数之差的二分之一分之一 概概 念念 计计 算算 特特 点点4平均差平均差 (AD)各标志值与各标志值与均
50、值离差绝均值离差绝对值的算术对值的算术平均平均iiffiXXADnXXADi简单:简单:加权:加权:优点:反映全部优点:反映全部数据分布状况数据分布状况 缺点:取绝对值缺点:取绝对值 数字上数字上 不尽合理不尽合理所 有 观 察 值所 有 观 察 值与 平 均 数 离与 平 均 数 离差 平 方 平 均差 平 方 平 均数 的 平 方 根数 的 平 方 根, 亦 称 均 方, 亦 称 均 方差 。 标 准 差差 。 标 准 差的 平 方 即 为的 平 方 即 为方差。方差。 5方差方差(2 s2) 和和 标准差标准差( s)优点:反映全部优点:反映全部数据分布状况,数据分布状况,数字上合理。数