1、7 数据的统计描述与分析在一定条件下,并不总是出现相同结果的现象称为随机现象随机现象.随机变量随机变量表示随机现象各种结果的变量。研究对象全体的集合称为总体总体,总体的一个基本组成单位,即每一个数据称为个体个体,总体可以认为包含无穷多个个体.若干个个体称为样本样本,若样本包含n个个体,称n为样本容量样本容量.总体可看作一个随机变量,记作x,每个个体作为这个随机变量的一个实现,记作xi(i=1,2,n),看作与总体有相同分布的随机变量,样本则是一组相互独立的、同分布的随机变量,记作x=(x1,x2,xn).对于一个容量为n的样本(即一组数据)x=(x1,x2,xn),为了从样本推断总体,常常要构
2、造样本的某种函数,这种函数称为统计量统计量.统计量平均值(期望):中位数:排序后位于中间的数标准差:方差:极差:最大值与最小值之差niixnx112112)(11niixxnsniixxns122)(11表示分布的中心位置表示随机变量与中心的距离统计量偏度:峰度:k阶原点矩:k阶中心矩:niixxsg1331)(1niixxsg1442)(1nikikxnV11nikikxxnU1)(1反映分布的对称性反映分布的集中程度反映随机变量与原点的距离反映随机变量与中心的距离常见概率分布均匀分布 设连续型随机变量x的分布函数为F(x)=(x-a)/(b-a),axb 则称随机变量x服从a,b上的均匀分
3、布,记为xU(a,b).若x1,x2是a,b的任一子区间,则 Px1xx2=(x2-x1)/(b-a)这表明x落在a,b的子区间内的概率只与子区间长度有关,而与子区间位置无关,因此x落在a,b的长度相等的子区间内的可能性是相等的,所谓的均匀指的就是这种等可能性.常见概率分布正态分布 设连续型随机变量x的概率密度函数为 则称随机变量x服从期望值为,标准差为的正态分布,记为xN(,2).当=0,2=1时,称为标准正态分布,记为N(0,1)。222)(e21)(xxf-3-2-1012300.050.10.150.20.250.30.350.4标 准 正 态 分 布 正态分布有极其广泛的实际背景,生
4、产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等.几何分布(Geometric distribution)几何分
5、布是离散型概率分布。其中一种定义为:在第n次伯努利试验,才得到第一次成功的机率。详细的说,是:n次伯努利试验,前n-1次皆失败,第n次才成功的概率。概率密度函数为P(x=k)=(1-p)(k-1)p。1.伯努利试验(或称贝努里试验)概念:是在同样的条件下重复地、各次之间相互独立地进行的一种试验。2.特征:这种试验中,每一次试验只有两种结果,即某事件A要么发生,要么不发生。并且每次发生的概率都是相同的。01234567891000.050.10.150.20.250.30.350.40.450.5几 何 分 布常见概率分布指数分布 设连续型随机变量x的概率密度函数为 则称随机变量x服从参数为的指
6、数分布,其期望为1/,标准差为(1/)。0,00,)(xxexfx00.511.522.5300.20.40.60.811.21.41.61.82指 数 分 布二项分布(Binomial Distribution),重复n次的伯努力试验,用表示随机试验的结果.如果每一次事件发生的概率是p,不发生的概率q=1-p,则发生k次的概率称该随机变量服从二项分布。knkknqpCkP)(01234567891000.050.10.150.20.25二 项 分 布常见概率分布泊松分布 设离散型随机变量x的概率为 则称随机变量x服从参数为的泊松分布,其期望和方差均为。,2,1,0,!)(kkekxPk012
7、34567891000.050.10.150.20.250.30.35泊 松 分 布 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。例 报童的决策报童每天清晨从报社购进报纸零售,晚上将没有卖掉的报纸退回设报纸每份的购进价为0.8,零售价为 1,退回价为0.75.每天报纸的需求量是随机的.假设已经得到159天报纸的需求量情况(如下表).为了获得最大的利润,该报童每天应购进多少份报纸?需要量需要量100119
8、120139 140159 160179 180199 200219 220239 240259 260279 280天数3913223235201582159天报纸需求量的分布情况假设报童天购进量为n,平均每天收入为G(n).设报纸每份的购进价为b,零售价为 a,退回价为c.报纸每天的需求量r是随机的,概率为f(r).模型建立报童每天购进n份报纸时的平均收入为G(n),如果这天的需求量rn,则他售出r份,退回n-r份;如果这天的需求量rn,则n份将全部售出考虑到需求量为r的概率是f(r),所以这就归结为已知a,b,c,f(r),求n使G(n)最大.10)()()()()()(nrnrrnfbarfrncbrbanG将r视为连续量,这时概率f(r)变为概率密度函数,记为p(r).则令 ,得10d)()(d)()()()(nnrrrnpbarrprncbrbanG0ddnGcbbarrprrpnnd)(d)(0cabarrpn0d)(1d)(0rrpp(r)的估计.假设r是服从正态分布的随机变量,即利用表中的数据和最小二乘法可以得到和的估计=200,=37.于是由可以得到n的值.取a=1,b=0.8,c=0.75解得n=231.14231.222e21rrpcabarnr02738200de23712