1、2何时用 HLM?有不独立的数据 回归线在各组不同 有多水平的数据3嵌套数据嵌套数据 学生嵌套于学校中学校1SarahBillTedTami学校2JacksonKateMariaJordan同一单位内的观测,具有更大的相似性。同一个班级的学生由于受相同的班级环境等因素的影响有更大的相似性。4嵌套数据嵌套数据 重复测量的每一次观察嵌套于个体中重复测量的每一次观察嵌套于个体中 SarahDay 1Day 2Day 3Day 4JordanDay 1Day 2Day 3Day 45HLM 能做什么 在个体水平拟合回归方程 使各组的回归方程参数不同 用组水平的变量解释个体水平的参数 检验各水平的主效应
2、和水平间的交互作用6HLM的逻辑的逻辑 假定学生(level-1)嵌套在学校(level-2)中 1 level-1 DV(受欢迎程度;Yi)1 level-1 IV(社经地位;Xi)Yi=0+1Xi+ri,ri=每个人的独特效应 var(ri)=2 不同学生怎样在回归线附近变化7嵌套数据的分析嵌套数据的分析 亚单位嵌套(nested)在较大的单位中 亚单位=level-1 variables 较大的单位=level-2 variables 变量在两个水平都有取值 我们的分析在哪个水平?level-1(忽略level-2)(分散;disaggregation)这会将level-1 数据视作彼此
3、独立,违反独立性假设 level-2(忽略level-1)(聚合;aggregation)这会大大减少样本容量 失掉组内信息 我们希望分析在两个水平都考虑!8一所学校的回归线一所学校的回归线Linear Regression-4.000-2.0000.0002.000ses0.00010.00020.000mathachm athach=10.81+2.51*sesR-Square=0.0492所学校所学校 学校 1 Yi=01+11Xi+ri 学校2 Yi=02+12Xi+ri 每个学校有其自己的截距和斜率 这些截距和斜率的分别可以被概括为 均值 围绕均值的方差10两所学校的回归线两所学校的
4、回归线1.002.00schoolLinear Regression-4.000-2.0000.0002.000ses0.00010.00020.000mathachm athach=10.81+2.51*sesR-Square=0.04m athach=13.11+3.26*sesR-Square=0.10112 所学校所学校 上图告诉我们什么?02 01,学校2中学生的平均受欢迎程度更高 12 11,社经地位在学校2中更能预测学生的受欢迎程度 如果是很多所学校呢?Yij=0j+1jXij+rij,i=学生,j=学校 j 所指代的截距和斜率表明每所学校的价值观不同 我们可以将这些价值观参数建
5、立一个分布回归分析模型iiiXY102,0Ni回归分析模型的假设 线性(Linearity)误差正态分布(normally distributed)误差方差齐性(homoskedastic)误差或观测个体之间相互独立(independent)嵌套于背景特征的多层数据举例学生水平特征的观测,嵌套于班级或学校兄弟姊妹特征的观测,嵌套于家庭个体之间的观测嵌套于社区个体不同时间点的重复测量嵌套于个体病人嵌套于医院参数的估计嵌套于不同的研究(元分析,meta-analysis)对多层数据,我们了解什么.随机选取两个观测,同一组内的观测之间的相似性要比不同组观测之间的相似性大;如果回归模型不能解释所有的组
6、间的差异(事实上传统回归不可能做到这一点),那么同一组内的观测之间的误差可能相关;这就违背了传统回归(OLS)中关于残差相互独立的假设;至少,传统回归分析得到的标准误的估计不正确(太小)。独立性不满足带来的问题 传统回归系数估计的标准误依赖于相互独立的假设;如果独立性的假设不满足,得到的标准误的估计往往偏小,因此所犯第一类错误的概率往往偏大。传统回归vs多层线性模型ijjijijruXY10 OLS HLM:ijijijXY10一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit j一个简单的多层线性模型ijjijijruXY10O
7、utcome for observation i in unit jIntercept 一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit jIntercept Coefficient Value of X for observation i in unit j 一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit jIntercept Coefficient Value of X for observation i in unit j Residual term sp
8、ecific to unit j 一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit jIntercept Coefficient Value of X for observation i in unit j Residual term specific to unit j Residual term specific to observation i in unit j一个简单的多层线性模型ijjijijruXY10Outcome for observation i in unit jIntercept Coefficient
9、Value of X for observation i in unit j Residual term specific to unit j Residual term specific to observation i in unit j uj表示什么?残差项 定义第 j 组(第二水平)对于第 j组的所有观测都相同 只有下标 j,没有下标 i 解释:总截距和第 j组的截距之间的差异 rij表示什么?残差项 定义第 j 组第i 个观测 均值为0模型的特征 Yij 的值可能存在第二水平(组间)的差异 对于 uj和 rij没有定义其分布.X 和 Y 之间的关系不依赖于 j(1 不依赖于 j)何谓
10、多层线性模型?多层线性模型又称为:多水平分析(Multilevel Analysis)混合模型(Mixed Models)随机系数模型(Random Coefficient Models)HLM常用模型类型1 随机效应一元方差分析模型(one-way Anova with Random Effect)第一水平:第二水平:合并模型:ijjijeY0jju0000ijojijeuY00HLM常用模型类型 无条件模型:模型中没任何预测变量的多层分析模型 模型表示与随机效应的方差分析模型相同。在无条件模型中:上式的相关系数描述了水平2单位内个体之间的相关(intra level 2-unit corr
11、elation,ICC),它测量了学校之间方差占总方差的比例,或者说在总的变异中由水平二解释的方差的比例。ICC0.059低度内相关,0.059ICC0.138 高度内相关 20000无条件模型无条件模型参数估计结果Final estimation of variance components:-Random Effect Standard Variance df Chi-square P-value Deviation Component-INTRCPT1,2.93501 8.61431 159 1660.23259 0.000 level-1,R 6.25686 39.14831-Fina
12、l estimation of fixed effects(with robust standard errors)-Standard Approx.Fixed Effect Coefficient Error T-ratio d.f.P-value-For INTRCPT1,P0 INTRCPT2,B00 0.490317 0.014783 33.167 240 0.000-HLM常用模型类型2 随机系数回归模型(Random-Coefficients Regression Model)第一水平:第二水平:ijijjjijeXY10jjjjuu11010000含有第一水平预测变量的HLM模型
13、(随机系数模型)随机系数模型参数估计结果Final estimation of fixed effects(with robust standard errors)-Standard Approx.Fixed Effect Coefficient Error T-ratio d.f.P-value-For INTRCPT1,B0 INTRCPT2,G00 12.664935 0.189251 66.921 159 0.000 For SES slope,B1 INTRCPT2,G10 2.393878 0.117697 20.339 159 0.000-Final estimation of
14、variance components:-Random Effect Standard Variance df Chi-square P-value Deviation Component-INTRCPT1,U0 2.19768 4.82978 159 905.26472 0.000 SES slope,U1 0.64675 0.41828 159 216.21178 0.002 level-1,R 6.06864 36.82835-含有第二水平预测变量的模型The outcome variable is MATHACH Final estimation of fixed effects(wi
15、th robust standard errors)-Standard Approx.Fixed Effect Coefficient Error T-ratio d.f.P-value-For INTRCPT1,B0 INTRCPT2,G00 12.658410 0.173263 73.059 158 0.000 DISCLIM,G01 -1.128519 0.160735 -7.021 158 0.000 For SES slope,B1 INTRCPT2,G10 2.409288 0.112194 21.474 158 0.000 DISCLIM,G11 0.570615 0.12390
16、6 4.605 158 0.000-Final estimation of variance components:-Random Effect Standard Variance df Chi-square P-value Deviation Component-INTRCPT1,U0 1.93467 3.74295 158 730.83940 0.000 SES slope,U1 0.45491 0.20694 158 189.39572 0.045 level-1,R 6.06501 36.78432-追踪研究中的两水平模型 水平1的模型,描述个体随时间的发展;水平2模型,对个体间发展的
17、差异进行解释。然后就关心的问题进行分析和解释。HLM常用模型类型3两水平重复测量线性模型 水平1(测量水平)水平2(个体水平)tiiititY10iiiuW001000iiiuW111101第二水平模型:预测变量 第二水平预测变量模型iiu00201000)((退缩行为)性别iiu11211101(退缩行为)(性别)42随机和固定随机和固定 Fixed effects:那些在组与组之间不变化的变量系数 e.g.,平均截距和斜率 Random effects:那些在组与组之间变化的变量系数 e.g.,level-1 和 level-2 方程的误差项43中心化 GPM:对组均值的中心化,这时 B0
18、 代表Yij 上的组均值 GRM:对总均值的中心化,这时 B0代表调整组均值 中心化的选择 从统计上看三种模型都是正确的,所以在模型选择上不存在统计上的正确与否 应选择哪一种要看分析的问题和研究兴趣没有普遍适用的准则,研究者需要根据研究目的审慎的考虑选择如果研究兴趣是层-1自变量对因变量的影响,选择组均值中心化是合适的;如果主要兴趣是背景效应则用总均值中心化;要研究层际交互作用,按组均值中心化较好研究层-2 变量间的交互作用则按总均值中心化。44例6 HLM 根据数据HSV1 和HSV 2 以数学成绩为因变量,建立HLM模型回答以下问题:1.写出无条件模型的公式和计算ICC2.写出以SES为自变量的随机系数模型的公式和随机部分结果的重要参数估计3.如何建立模型检验SES和MEANSES的交互作用?你得到哪些相关的统计量,如何解释这个结果?46HLM程序:多组模型4748495051第二层同理52123455354551、先保存模型命令2、run5657HLM程序:增长模型 58默认的59一个增长模型的例子