1、10452 班专用 1 第一章第一章 数据的描述和整理数据的描述和整理 (一)(一) 数据的分类数据的分类 数据类型数据类型 定性数据(品质数据) 定量数据 定类数据 (计数数据) 定序数据 (等级数据) 数值数据 (计量数据) 表现形式表现形式 类别 (无序) 类别 (有序) 数值 () 对应变量对应变量 定类变量 定序变量 数值变量 (离散变量、连续变量) 主要统计方法主要统计方法 计算各组频数, 进行列联表分 析、2检验等非参数方法 计算各种统计量,进行参数估计 和检验、回归分析、方差分析等 参数方法 常用统计图形常用统计图形 条形图,圆形图(饼图) 直方图,折线图,散点图, 茎叶图,箱
2、形图 (二)(二) 常用统计量常用统计量 1、描述集中趋势的统计量、描述集中趋势的统计量 名名 称称 公公 式(原始数据)式(原始数据) 公公 式(分组数据)式(分组数据) 意意 义义 均值 x 1 1 n i i xx n 1 1 k ii i xm f n 反映数据取值的平均水 平, 是描述数据分布集中 趋势的最主要测度值, 中位数 Me 为偶数当 为奇数当, nxx nx M nn n e ),( 2 1 )1 2 () 2 ( ) 2 1 ( 中位数所在组: 累积频数超过 n/2 的那个最低组 是典型的位置平均数, 不 受极端值的影响 众数 Mo 数据中出现次数最多的观察值 众数所在组
3、: 频数最大的组 测度定性数据集中趋势, 对于定量数据意义不大 2、描述离散程度的统计量、描述离散程度的统计量 10452 班专用 2 名名 称称 公公 式(原始数据)式(原始数据) 公公 式(分组数据)式(分组数据) 意意 义义 极差 R R = 最大值-最小值 R最高组上限值 最低组下限值 反映离散程度的最简单测度值, 不能反映中间数据的离散性 总体方差 2 N i i xx N 1 22 )( 1 22 1 1 () k ii i mxf N 反映每个总体数据偏离其总体均 值的平均程度,是离散程度的最 重要测度值, 其中标准差具有与 观察值数据相同的量纲 总体标准差 2 2 1 1 ()
4、 N i i xx N 2 2 1 1 () N ii i mxf N 样本方差 S2 n i i xx n S 1 22 )( 1 1 i k i i fxm n S 1 22 )( 1 1 反映每个样本数据偏离其样本均 值的平均程度,是离散程度的最 重要测度值, 其中标准差具有与 观察值数据相同的量纲 样本标准差 S n i i xx n SS 1 2 2 )( 1 1 i k i i fxm n SS 1 2 2 )( 1 1 变异系数 CV CV= %100 | x S 反映数据偏离其均值的相对偏 差,是无量纲的相对变异性测度 样本标准误 x S n S Sx 反映样本均值偏离总体均值
5、的平 均程度,在用样本均值估计总体 均值时测度偏差 3、描述分布形状的统计量、描述分布形状的统计量 名名 称称 公公 式(原始数据)式(原始数据) 公公 式(分组数据)式(分组数据) 意意 义义 偏度 Sk 3 3 )2)(1( )( Snn xxn S i k 3 1 3 )( nS fxm S k i ii k 反映数据分布的非对称性 Sk=0 时为对称; Sk 0 时为正偏或右偏; Sk 0) 乘法公式 若 P(A)0, P(AB)=P(A)P(B|A) 若 P(B)0, P(AB)=P(B)P(A|B) 当 P(A1A2An-1)0 时,有 P(A1A2An)=P(A1)P(A2|A1
6、)P(A3|A1A2) P(An|A1A2An-1) 独立事件公式 A、B 相互独立:P(AB)=P(A)P(B) A1, A2, , An相互独立:P(A1A2An)= P(A1)P(A2)P(An) 全概率公式 若 A1, A2, , An为完备事件组*,对事件 B n i ii ABPAPBP 1 )|()( 逆概率公式 (贝叶斯公式) 若 A1, A2, , An为完备事件组*,P(B)0 n i ii jj j ABPAP ABPAP BAP 1 )|()( )|()( )|( *完备事件组 A1, A2, , An 1. A1, A2, , An互不相容且 P(Ai)0(i=1,
7、2, , n); 2. A1+A2+An= 第三章第三章 随机变量及其分布随机变量及其分布 (一)随机变量及常用分布(一)随机变量及常用分布 10452 班专用 6 1. 离散型随机变量及常用分布离散型随机变量及常用分布 名名 称称 定定 义义 性质或背景性质或背景 备备 注注 分布律 PX=xk=pk,k=1,2, 或 X x1 x2 xk P p1 p2 pk 1. pk 0,k=1,2, 2. 1 1 k k p 0-1 分布 PX=1=p, PX=0=q,或 X 0 1 P q p 二项分布 n=1 的特例: B(1,p)( 一重贝努里试验) EX=p D(X)=pq 二项分布 B(n
8、,p) PX= k= knkk n qpC , k=0,1, ,n X 为 n 重贝努里试验中 A 事件发生的次数 EX=np D(X)=npq 泊松分布 P() PX=k= e k k ! , k0,1,2, , 0 是常数 二项分布泊松近似公式 e k qpC k knkk n ! ( np) (n 很大,p 较小) EX= D(X)= 超几何 分布 PX=k= n N kn MN k M C CC k=1,2,min(M,n) 无放回产品抽样试验 当 N+时, p N M 时, knkk n n N kn MN k N N qpC C CC lim EX= N nM ) 1( )( )(
9、 2 NN MNnNnM XD 2. 连续型随机变量及常用分布连续型随机变量及常用分布 名名 称称 定定 义义 性质或背景性质或背景 备备 注注 密度函数 f(x) 对任意 a) 3. 随机变量的分布函数随机变量的分布函数 类类 型型 定定 义义 性性 质质 备备 注注 通用定义 F(x)PXx, x+ 1. 0F(x)1; 2. F()=0 , F(+)=1 3. F(x)对 x 单调不减 4. F(x)为右连续 Pa22 F FF 条件条件 检验假设检验假设 统计量统计量 临界值临界值 拒绝域拒绝域 2已知 H0:=0 H1:0 n x u / 0 u/2 |u|u/2 H1: 0 (或
10、H1:0 (或 H1:30) H0:=0 H1:0 nS x u / 0 u/2 |u|u/2 H1: 0 (或 H1:0 (或 H1: d 2 (或 H1:130) H0:1=2 H1:12 2 2 2 1 2 1 n S n S yx u u/2 |u|u/2 H1:12 (或 H1:12 (或 H1:12 (或 H1: 130) H0:P=P0 H1:PP0 n PP Pp u )1 ( 00 0 u/2 |u| u/2 H1:PP0 (或 H1:PP0 (或 H1:P30) H0:P1=P2 H1:P1P2 ) 11 )(1 ( 21 21 nn pp pp u ( 21 21 nn mm p ) u/2 |u| u/2 H1:P1P2 (或 H1:P1P2 (或 H1:P130) H1:0 (或 H1:30) H0:1=2 H1:12 2 2 2 1 2 1 n S n S yx u u/2 |u|u/2 H1:12 (或 H1:12) u uu (或 u-u)