1、 绪绪 论论一一.什么是统计学什么是统计学(Statistics)The discipline concerned with the treatment of numerical data derived from groups of individuals(P.Armitage).关于处理数据的学科。关于处理数据的学科。The science and art of dealing with variation in data through collection,classification and analysis in such a way as to obtain reliable r
2、esults(JM Last).通过收集、分类和分析,处理数据变异性的科通过收集、分类和分析,处理数据变异性的科学与艺术,旨在取得可靠的结果。学与艺术,旨在取得可靠的结果。卫生统计学(卫生统计学(Medical Statistics)数理统计学在医药卫生领域中的应用。数理统计学在医药卫生领域中的应用。为什么学习医学统计学为什么学习医学统计学?(1)医学研究的需要;医学研究的需要;(2)更新医学知识的需要;更新医学知识的需要;(3)处理自身工作和研究的数据。处理自身工作和研究的数据。二二.基本概念基本概念 同质同质:同类个体具有共性。同类个体具有共性。变异变异:同类个体间的差异,如身高、体重同类
3、个体间的差异,如身高、体重1.同质与变异同质与变异 总体(总体(population):打算研究的全部个体打算研究的全部个体 大同小异大同小异 样本(样本(sample):总体中,具有代表性的一部总体中,具有代表性的一部分。分。随机化(随机化(randomization):使样本具有代表性使样本具有代表性的重要方法。的重要方法。2.总体与样本总体与样本随机(随机(Random)随机事件随机事件:在一次试验中可能发生,也可能不在一次试验中可能发生,也可能不发生的事件。发生的事件。在试验之前,无人知道发生还是不发生。在试验之前,无人知道发生还是不发生。经大量试验,这类事件是有一定规律的。经大量试验
4、,这类事件是有一定规律的。3.概率与频率概率与频率 度量随机事件发生的可能性大小。度量随机事件发生的可能性大小。A:随机事件;随机事件;P(A):随机事件:随机事件A发生的概率;发生的概率;P(A)=1,事件事件A一定发生;一定发生;P(A)=0,事件事件A绝对不发生。绝对不发生。如果:如果:观察次数观察次数:n (足够大);(足够大);事件事件A的发生数的发生数:m;那么:事件那么:事件A发生的概率发生的概率P(A)m/n (频率或相对频率)(频率或相对频率)概率的估计概率的估计 频率频率必然事件必然事件 P=1随机事件随机事件 0 P 1不可能事件不可能事件 P=0 P P 0.05 0.
5、05(5 5)或)或P P 0.01 0.01(1 1)称为)称为小概率小概率事件事件(习惯习惯),统计学上认为不大可能发生。,统计学上认为不大可能发生。小概率事件小概率事件频率与概率间的关系频率与概率间的关系 1.样本频率总是围绕概率上下波动样本频率总是围绕概率上下波动 2.样本含量样本含量n越大,波动幅度越小,频率越大,波动幅度越小,频率越接近概率。越接近概率。4.参数与统计量参数与统计量 参数参数:定量反映总体的某个性质;定量反映总体的某个性质;通常用希腊字母表示,如通常用希腊字母表示,如,常常未知常常未知 统计量统计量:定量反映样本的某个性质;定量反映样本的某个性质;通常用拉丁字母表示
6、,如通常用拉丁字母表示,如 s,p5.误差(误差(Error)测量值测量值=真值真值+随机误差随机误差+非随机误差非随机误差 Xi=i +i 1随机误差(随机抽样误差):随机误差(随机抽样误差):影响因素众多,变化无方向性,不可避免,但可用影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。统计方法进行分析。2系统误差系统误差 受确定因素影响,大小变化有方向性。受确定因素影响,大小变化有方向性。3非系统误差(过失误差)非系统误差(过失误差)研究者偶然失误而造成的误差。研究者偶然失误而造成的误差。偏差(bias)6.准确度与可靠度准确度与可靠度 准确度准确度(accuracy)或真实性
7、(或真实性(validity):观察值:观察值与真值的接近程度,受系统误差的影响与真值的接近程度,受系统误差的影响(常用指标:常用指标:如灵敏度、特异度如灵敏度、特异度)。可靠度(可靠度(reliabiliy)也称精密度也称精密度(precision)或或重复性(重复性(repeatability):重复观察时重复观察时观察值与观察值与其均值的接近程度,受随机误差的影响(常用指其均值的接近程度,受随机误差的影响(常用指标:一致百分率、标:一致百分率、Kappa值)。值)。准准确确度度和和可可靠靠度度都都好好 准准确确度度差差、可可靠靠度度好好 准准确确度度?、可可靠靠度度差差 准准确确度度和和
8、可可靠靠度度都都差差 三、统计工作的基本步骤三、统计工作的基本步骤四、学习目的与方法四、学习目的与方法(1)统计思维享用一生)统计思维享用一生 事件的不确定性事件的不确定性概率概率 由样本推断总体,结论的不确定性由样本推断总体,结论的不确定性有有可能犯错误可能犯错误 统计学任务统计学任务限定犯错误概率的大小,限定犯错误概率的大小,在此前提下,作决策在此前提下,作决策(2)理解概念是首位)理解概念是首位 如:研究设计的原则如:研究设计的原则 确定样本量的依据确定样本量的依据 参数估计的精度参数估计的精度 决策的两类错误决策的两类错误(3)重在理解和解释结果)重在理解和解释结果 通过计算,体验统计
9、概念和思想通过计算,体验统计概念和思想 正确理解、解释和表达计算结果正确理解、解释和表达计算结果 5.数据类型数据类型住院号住院号年龄年龄身高身高体重体重住院天数住院天数职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局20256552716571.55无无中学中学顺产顺产足月足月20256532216074.05无无小学小学助产助产足月足月20258302515868.06管理员管理员大学大学顺产顺产足月足月20225432316169.05无无中学中学剖宫产剖宫产足月足月20224662515962.011商业商业中学中学剖宫产剖宫产足月足月20245352715768.02无无小学
10、小学顺产顺产早产早产20258342015866.04无无中学中学助产助产早产早产20194642415870.53无无中学中学助产助产足月足月20257832915457.07干部干部中学中学剖宫产剖宫产足月足月观察单位observations个体individuals变量变量variablesQuantitative data 计量资料计量资料Qualitative data计数资料计数资料Units;elements(1)计量资料)计量资料 用仪器、工具等用仪器、工具等测量测量(measure)方法获得方法获得的数据,即为的数据,即为计量资料计量资料(Measurement data),
11、),也叫定量数据(也叫定量数据(Quantitative data)。)。特点:特点:有计量单位有计量单位,如患者的身高,如患者的身高(cm)、体重()、体重(kg)、血压()、血压(mmHg)、脉)、脉搏(次搏(次/分)、红细胞计数(分)、红细胞计数(10/L)。)。(2)计数资料计数资料 按某种属性分类,然后清点每类的数按某种属性分类,然后清点每类的数据,称据,称计数资料计数资料(Count data)或)或(Enumeration data),也叫定性数据),也叫定性数据(Qualitative data)。)。特点:特点:无固有计量单位无固有计量单位,如肤色(黑、,如肤色(黑、白)、血
12、型(白)、血型(ABO)、职业(工农兵)、性)、职业(工农兵)、性别(男女)。别(男女)。(3)等级资料等级资料 Rank data 半定性或半定量的观察结果。有大小顺半定性或半定量的观察结果。有大小顺序,所以也叫序,所以也叫有序分类资料有序分类资料(Ordinal category data)。)。癌症分期:早、中、晚;癌症分期:早、中、晚;药物疗效:治愈、好转、无效、死药物疗效:治愈、好转、无效、死亡;亡;尿蛋白:尿蛋白:,+,+及以上及以上实例数据实例数据 1实例数据实例数据 24.变量类型的转化变量类型的转化只能由高级向低级转化只能由高级向低级转化,不能作相反方向的转化不能作相反方向的
13、转化 连续型连续型有序有序分类分类二值二值离散型变量常常通过适当的变换或连续性校正离散型变量常常通过适当的变换或连续性校正后借用后借用连续型变量或有序变量连续型变量或有序变量的方法来分析。的方法来分析。例:一组例:一组20 40岁成年人的血压岁成年人的血压以以12kPa12kPa为界分为正常与异常两组,统计每组例数为界分为正常与异常两组,统计每组例数 8 低血压低血压 8 8 正常血压正常血压 1212 轻度高血压轻度高血压 1515 中度高血压中度高血压 1717 重度高血压重度高血压计量资料计量资料等级资料等级资料计数资料计数资料本章重点内容本章重点内容1.统计学常用基本概念统计学常用基本概念2.数据的分类数据的分类谢谢 谢谢