1、粒子物理与核物理实验中的粒子物理与核物理实验中的数据分析数据分析2本讲要点本讲要点p 矩的定义、矩的定义、p 矩的应用与参数估计矩的应用与参数估计p 矩方法与最大似然法和最小二乘法的比较矩方法与最大似然法和最小二乘法的比较p 统计误差中的标准误差问题统计误差中的标准误差问题p 经典置信区间问题经典置信区间问题p 利用似然函数或二乘函数确定置信区间利用似然函数或二乘函数确定置信区间p 贝叶斯上限贝叶斯上限3矩的一般表达式矩的一般表达式假设对随机变量假设对随机变量 x 有有n 次测量次测量 x1,xn,服从概率密度函数服从概率密度函数分布分布 f(x;)。其中有其中有 m 个未知参数个未知参数 1
2、,m。如果可以构如果可以构造造 m 个线性独立函数个线性独立函数 ai(x),i=1,m,其均值可写为其均值可写为()()(;)()iiiE a xa x f xdxe 为了确定参数,上述独立函数必须进行适当选择使得含参数为了确定参数,上述独立函数必须进行适当选择使得含参数的函数的函数 ei()可以确定。可以确定。此时,函数此时,函数 ei()可以通过计算无偏的可以通过计算无偏的样本平均值样本平均值来估计来估计11()niiijjeaa xn 因此,参数值可以通过求解因此,参数值可以通过求解 m 个个 ei()方程组来确定。方程组来确定。矩的一般表达式矩的一般表达式4线性独立函数的方差矩阵线性
3、独立函数的方差矩阵参数参数 1,m 估计值的协方差矩阵可以首先进行无偏估计估计值的协方差矩阵可以首先进行无偏估计11cov,()()1nijikijkjka aa xaaxan 它可以与样本平均值的协方差矩阵相联系它可以与样本平均值的协方差矩阵相联系,即即11112,12-11cov,cov(),()1cov(),()1=(c1.ov(),()1covcov(),(),62nnijikjlklnikjlk lnniikkjk lklljjlia aa xaxnna xaxna xaxna aa xaxn 教教材材式式()()()klikjlxxa xax由由于于与与 相相互互独独立立,因因此此
4、与与也也相相互互独独立立,协协方方差差矩矩阵阵非非对对角角元元为为零零。5线性独立函数均值的方差矩阵线性独立函数均值的方差矩阵根据线性独立函数均值和其估计值的定义,可以有根据线性独立函数均值和其估计值的定义,可以有112,1111 cov,cov(),()1cov(),()1cov,1()()(1)nnijikjlklnikjlk lijnikijkjke ea xaxnna xaxna ana xaaxan n 6参数估计值的方差矩阵参数估计值的方差矩阵由于待定参数由于待定参数 是是 e 的函数,由误差传递(教材式的函数,由误差传递(教材式1.54),1cov,cov,mjiijklk lk
5、leeee 11()niiijjeaa xn 因此待定参数因此待定参数 的协方差矩阵估计值也可以确定。而根据线的协方差矩阵估计值也可以确定。而根据线性独立函数的均值估计值表达式性独立函数的均值估计值表达式 可知参数值的估计值可知参数值的估计值 可通过求解可通过求解 m 个个 方程组来确定。方程组来确定。()e cov,ij 与与可可以以从从样样本本中中直直接接计计算算得得到到参数估计任务完成参数估计任务完成 7简单矩、代数矩和中心矩简单矩、代数矩和中心矩0()()kkxxf x dx 如果令如果令 x0=0,则一阶矩就是随机变量则一阶矩就是随机变量 x 的的期待值期待值定义定义(也称也称作一阶
6、作一阶代数矩代数矩)1()E xxf x dx 如果令如果令 x0=Ex,随机变量随机变量 x 围绕围绕期待值期待值的二阶矩就是随机的二阶矩就是随机变量变量 x 的的方差方差定义定义(也称作二阶也称作二阶中心矩中心矩)222()()V xxE xf x dx 代数矩代数矩()kkkex f x dx 0()f xxxk考考虑虑一一个个服服从从概概率率密密度度函函数数的的连连续续随随机机变变量量 。定定义义围围绕绕一一矩矩固固定定值值的的第第阶阶或或简简单单矩矩为为8代数矩与中心矩的关系代数矩与中心矩的关系代数矩代数矩中心矩中心矩012221 012210 222低阶矩之间的低阶矩之间的关系关系
7、一般情况下,它们的关系可以有如下表示一般情况下,它们的关系可以有如下表示1010()()klkk llklkk llklkl q高阶矩对研究概率密度高阶矩对研究概率密度函数在函数在|x-|大值区间的行大值区间的行为很有帮助。为很有帮助。q对称分布的所有奇数中对称分布的所有奇数中心矩为零。心矩为零。9角分布理论的简单验证角分布理论的简单验证在实验在实验 中,理论预言角分布为中,理论预言角分布为将角分布化为将角分布化为 cos 的概率密度函数的概率密度函数,则其则其二阶代数矩期待值二阶代数矩期待值ee2(1cos)cosdnnd n=事例数事例数为了验证理论,我们计算为了验证理论,我们计算 cos
8、 二阶代数样本矩平均值二阶代数样本矩平均值12221121cos(1cos)coscos0.4(1cos)cosndEnd 2211coscosniin 假设的统计检验假设的统计检验可以通过简单可以通过简单比较二阶代数矩的比较二阶代数矩的期待值期待值与与样样本矩平均值本矩平均值来完成。来完成。10简单验证中的误差估计简单验证中的误差估计在前面例子中对于不含参数的简单情形在前面例子中对于不含参数的简单情形 cos 二阶代数矩平二阶代数矩平均值的误差估计可以按下列方法进行均值的误差估计可以按下列方法进行2cos0.4E 已知真值已知真值样本矩的方差为样本矩的方差为222211(coscos)nii
9、SEn 样本矩平均值的方差可以证明为样本矩平均值的方差可以证明为22cos/VSn 0.390.01 观测值在一个标准观测值在一个标准误差范围内与理论预期相符。误差范围内与理论预期相符。210000.390.1,5,S 2 2假假设设实实验验观观测测次次,并并计计算算出出则则实实验验coscos结结果果报报告告为为11含参数情况举例含参数情况举例在上例中,假设已知理论中包含一未知参数在上例中,假设已知理论中包含一未知参数 ,例如,例如和前例一样,计算出和前例一样,计算出 cos 二阶代数矩的理论期待值二阶代数矩的理论期待值 2(1cos)cosdnnd 12221121cos(1cos)cos
10、53cos5(3)(1cos)cosndEnd 225(3 cos 1)35 cosEE 则参数则参数 与二阶代数矩的关系为与二阶代数矩的关系为 225(3cos1)35cos 只要函数是可积的,采用矩方法原则上就可以测定参数。只要函数是可积的,采用矩方法原则上就可以测定参数。12简单矩方法应用的其它问题简单矩方法应用的其它问题非物理解问题:非物理解问题:利用矩方法测定参数,可能会出现非物理结利用矩方法测定参数,可能会出现非物理结果。例如前例的二阶代数矩中,如果果。例如前例的二阶代数矩中,如果2cos0.6 在矩方法中,我们无法加上限制条件使得参数的测定值保持在矩方法中,我们无法加上限制条件使
11、得参数的测定值保持在物理允许的范围内。在物理允许的范围内。假设检验问题:假设检验问题:利用矩方法测定参数,由于只比较利用矩方法测定参数,由于只比较积分值积分值并并解方程得到参数估计值,信息含量不足,因此无法判断所得解方程得到参数估计值,信息含量不足,因此无法判断所得到的参数是否合理。实际应用中需要辅之以其它方法来检验。到的参数是否合理。实际应用中需要辅之以其它方法来检验。适用范围问题:适用范围问题:矩方法虽然简单,但在处理多参数问题中,矩方法虽然简单,但在处理多参数问题中,由于涉及更高阶的积分,使研究变得复杂。在这种情况下,由于涉及更高阶的积分,使研究变得复杂。在这种情况下,可以考虑采用所谓的
12、可以考虑采用所谓的“广义矩方法广义矩方法”。13最大似然法、最小二乘法和矩最大似然法、最小二乘法和矩矩方法矩方法最大似然法最大似然法最小二乘法最小二乘法数据输入数据输入单个事例单个事例单个事例单个事例直方图直方图多维问题多维问题最容易最容易归一化较复杂归一化较复杂 较难较难充分性充分性会有信息丢失会有信息丢失最具充分性最具充分性有时与区间大小有关有时与区间大小有关一致性一致性收敛于真值收敛于真值收敛于真值收敛于真值收敛于真值收敛于真值有效性有效性不是最有效不是最有效通常最有效通常最有效基本上与似然法一样基本上与似然法一样无偏性无偏性渐进无偏渐进无偏渐进无偏渐进无偏渐进无偏渐进无偏拟合优度拟合优
13、度较难评估较难评估较难评估较难评估很容易很容易充分性:充分性:估计量应包含观测值对于未知参数的全部信息;估计量应包含观测值对于未知参数的全部信息;一致性:一致性:样本容量增大时,估计值收敛于真值;样本容量增大时,估计值收敛于真值;有效性:有效性:估计量的分布对其期望值具有最小方差;估计量的分布对其期望值具有最小方差;无偏性:无偏性:无论样本容量多大,估计值与真值无系统偏差。无论样本容量多大,估计值与真值无系统偏差。8/15/202214再论统计分析的目标再论统计分析的目标假设检验假设检验参数拟合参数拟合检验数据是否与某一检验数据是否与某一特定理论相符特定理论相符(注意,注意,该理论可包含一些自
14、该理论可包含一些自由参数)。由参数)。利用数据确定自由参利用数据确定自由参数的大小。数的大小。相符的程度由显著水相符的程度由显著水平来表示。平来表示。参数的准确程度由对应参数的准确程度由对应的误差大小来表示。的误差大小来表示。如何定量计算显著水平与确定误差的大小。如何定量计算显著水平与确定误差的大小。15测量结果的表述与含义测量结果的表述与含义其真正的含义是什么呢?其真正的含义是什么呢?1,.,nxx实实验验数数据据:obs 估估计计实实验验目目的的:5.730.21obs (;)g 如如果果我我们们知知道道 将将服服从从某某一一概概率率密密度度函函数数分分布布,那那么么上上述述结结果果的的正
15、正确确表表述述应应该该是是 5.73 的的估估计计值值为为 0.21 的的估估计计值值为为2 并并且且还还应应给给出出的的方方差差,即即。结结果果应应该该报报告告成成下下述述形形式式(;)g 测测量量了了的的分分布布宽宽度度16参数估计值的分布参数估计值的分布(;)g 通通常常参参数数估估计计值值服服从从的的概概率率密密度度分分布布函函数数是是多多维维 高高斯斯分分布布 cov,(;)ijVg 和和 综综合合了了我我们们对对的的了了解解或或估估计计可以用来作为误差传递的输入参量,可以用来作为误差传递的输入参量,以及用最小二乘法求平均值等等。以及用最小二乘法求平均值等等。(;)g 如如果果是是高
16、高斯斯形形式式的的话话,置置信信区区间间可可以以表表述述为为,obsobs中心置信区间应给出不对称的误差中心置信区间应给出不对称的误差(;)g 如如果果不不是是服服从从高高斯斯分分布布g 我我们们可可以以此此约约定定来来报报告告误误差差,而而不不管管概概率率密密 (;)度度函函数数的的形形式式。只有当要对不同实验求平均值时,它的形式就会发挥作用。只有当要对不同实验求平均值时,它的形式就会发挥作用。给出了给出了 68.3%置信区间范围。置信区间范围。17经典置信区间的定义经典置信区间的定义0.05 首首先先需需要要指指定定“上上下下分分布布尾尾部部的的概概率率”,例例如如:()()()(;)1(
17、);),()(;)();)uPugdG uPgdG ,obs 假假设设我我们们对对参参数数有有估估计计量量,并并且且有有估估计计值值 g 为为了了正正确确表表述述结结果果,对对于于所所有有的的仍仍需需要要知知道道 (;)的的形形式式。(),),(u 然然后后找找出出使使得得18参数置信带的定义参数置信带的定义不等式不等式 无无论论为为何何值值,在在置置信信带带找找到到的的概概率率为为()()1P vu(),()uv假假设设是是单单调调变变化化的的,则则11()(),()()aubv (),()uv 等价于等价于()(),u 在在之之间间的的区区域域称称为为置置信信带带。(),()ab19参数的
18、置信区间确定参数的置信区间确定或者合并成或者合并成(),()ab(),().P aP b ()()1P ab ,a b 在在不不知知道道真真值值的的情情况况下下,通通过过估估计计值值 与与函函数数给给出出的的置置信信区区间间。根据置信带的定义,有不等式根据置信带的定义,有不等式20参数置信区间含义参数置信区间含义它的深刻含义是它的深刻含义是注意注意,该区间是,该区间是随机随机的,真值的,真值 是一个未知常数。是一个未知常数。(),()1 ab 区区间间称称为为具具有有置置信信水水平平或或覆覆盖盖概概率率的的置置信信区区间间。包含真实参数的概率为包含真实参数的概率为1-,dca bca db 通
19、通常常情情况况下下,将将区区间间告告为为 报报即即。0.310.25 80.25 那那么么 意意味味着着什什么么呢呢?它它并并不不意意味味着着任任意意一一次次实实验验:(80.0080.56)1P 而是意味着:而是意味着:重复同样样本大小的实验重复同样样本大小的实验多次多次,每次按,每次按同样的描述构造置信区间,有同样的描述构造置信区间,有1-部分部分的实验的实验,置信区间将覆盖置信区间将覆盖。21单边与中心置信区间单边与中心置信区间通常,取通常,取 =/2有时,单独指定有时,单独指定 或或 单边区间单边区间(极限,上限或下限极限,上限或下限)粒子与核物理的误差惯例是:粒子与核物理的误差惯例是
20、:68.3%的中心置信区间。的中心置信区间。覆盖概率为覆盖概率为1-中心置信区间中心置信区间 注注意意:中中心心置置信信区区间间并并不不意意味味着着区区间间对对于于是是对对称称的的,它它仅仅仅仅是是因因为为=。22经典置信区间经典置信区间通常,我们并不构造置信带,而是解下列方程通常,我们并不构造置信带,而是解下列方程得到得到 a 与与 b 的区间极限。的区间极限。(;)1(;)(;)(;)obsobsobsobsga dGagb dGb ()obsaP 是是的的假假设设值值使使得得:()obsbP 是是的的假假设设值值使使得得:23高斯分布估计量的置信区间高斯分布估计量的置信区间如果存在如果存
21、在为了找到为了找到 置信区间,解下列方程置信区间,解下列方程2221()(;)exp22g 1(;,)1,(;,),obsobsobsobsaGabGb 得到得到 a 与与 b 的解的解24高斯分布的累积函数与分位点高斯分布的累积函数与分位点2/21()2xxxedx 11(1),(1)obsobsab 11(1),(1)是标准高斯的累积函数,可以证明是标准高斯的累积函数,可以证明 G 前前面面的的函函数数是是对对于于 的的累累积积分分布布,且且 ab 给给出出与与离离有有多多少少标标准准偏偏差差。计计算算)中中的的函函数数(可可以以调调用用给给出出标标准准高高斯斯的的分分位位数数这这里里p)
22、t le(Double_NormQuanti:TMathDouble_t ROOT1 25标准高斯的分位点标准高斯的分位点为了找到服从高斯分布的参数估计量的置信区间,需要为了找到服从高斯分布的参数估计量的置信区间,需要确定下列分位点确定下列分位点通常对分位点取整通常对分位点取整 有时对概率覆盖率取整有时对概率覆盖率取整 1)2/1(110.682710.841320.954420.977230.997330.99871)1(10.901.6450.901.2820.951.9600.951.6450.992.5760.992.326)2/1(11)1(11中心中心 单边单边中心中心 单边单边2
23、6泊松分布均值的置信带确定泊松分布均值的置信带确定对于固定的对于固定的 ,由于,由于 只能取分立值,置信带对任意的只能取分立值,置信带对任意的 并不一定存在。这种情况下,可考虑把方程变为并不一定存在。这种情况下,可考虑把方程变为 ,obsobsnnn假假设设是是泊泊松松量量,估估计计值值 (;),0,1,.!nP nenn 100(;)1,!(;),!obsobsnnaobsnnnbobsnaPaenbPben 得出得出 a 与与 b()()P aP b27泊松分布均值的置信区间确定泊松分布均值的置信区间确定利用利用201(2;2(1)!nmdneFnmn 22111(;2),21(1;2(1
24、),2dobsdobsaFnnbFnn 2dFn 这这里里是是自自由由度度下下最最小小二二乘乘分分布布的的累累 积积形形式式。1001,!,!obsobsnnannnbnaenben 计计算算)。中中的的函函数数可可以以调调用用是是卡卡方方分分布布的的分分位位点点(这这里里 ndf)Double_t p,uble_t uantile(DoChisquareQDouble_t ROOT12 F28泊松分布均值的置信水平上限值泊松分布均值的置信水平上限值重要特例重要特例:对于置信水平对于置信水平 1-=95%的上限,的上限,0obsn 00!nbbnb een log(0.05)2.9963b l
25、ogb 29例子例子:无本底稀有衰变分支比无本底稀有衰变分支比已知实验对稀有衰变已知实验对稀有衰变 的单个事例灵敏度为的单个事例灵敏度为9113.93 10N 观观测测总总数数效效率率灵灵敏敏度度如果实验上没有观察到一个事例,要给出如果实验上没有观察到一个事例,要给出90%的置信水平,需计算的置信水平,需计算(0;)10%!neP nn 2.3025990.59 10 9 9分分支支比比上上限限2.302592.302593.93 103.93 10如果实验上观察到一个事例,要给出如果实验上观察到一个事例,要给出68%的置信区间的分支比,需要给的置信区间的分支比,需要给出重复实验在出重复实验在
26、(1-0.68)/2=0.16 范围内观察到至少一个事例的下限范围内观察到至少一个事例的下限1(;)1(0;)0.16nP nP 0.17435以及不多于一个事例的均值上限以及不多于一个事例的均值上限10(;)0.16nP n 3.288522.288520.8256595.82102.1013.93 10(2.54)10BR K 30从从log L或或 2 近似给出置信区间近似给出置信区间若若 log L()呈抛物线状,通过将呈抛物线状,通过将log L()展开展开,则可得到则可得到即使即使 log L()并不呈抛物线状,也可给出置信区间的近似值并不呈抛物线状,也可给出置信区间的近似值2ma
27、xlog()log.2LLNN 2222maxminlog()log,(),2ddccNLLN 1(1/2)N 这这里里是是标标准准高高斯斯对对应应于于置置信信水水平平 的的分分位位点点1 1-,例例如如:110.683N 例如在指数函数例子中,只有例如在指数函数例子中,只有 n=5个观测值时个观测值时52.030.085.02max2()log()log2LL 31多维置信区间多维置信区间研究中常遇到需要给出多参数拟合情况下的多维置信区间研究中常遇到需要给出多参数拟合情况下的多维置信区间1=n (,,)参数的联合概率密度函数为参数的联合概率密度函数为/21/211(|)exp(,)(2)|2
28、ngQV 其中其中1(,)()()TQV 这里这里 V-1 为协方差矩阵。当联合概率密度函数值不变时,其为协方差矩阵。当联合概率密度函数值不变时,其等高线对应于常数的等高线对应于常数的 Q。它们是在参数空间以真值为中央的它们是在参数空间以真值为中央的椭圆椭圆(或对于两维以上的(或对于两维以上的超椭圆超椭圆)。)。32二维参数的置信区间二维参数的置信区间例如在中微子振荡实验中的双参数拟合问题例如在中微子振荡实验中的双参数拟合问题22221.27(eV)()()sin(s n 2GeV)imL kmPE Phys.Rev.D74:072003,200633含本底泊松分布的经典置信区间含本底泊松分布
29、的经典置信区间在观察到在观察到 nobs 个事例条件下的个事例条件下的置信区间的确定置信区间的确定loup()lolo()upup0=()=(;)!()=(;)!sbobssbobsssbnobssbsssn nnnobssbsssnnePnePn 对对信信号号均均值值的的最最大大似似然然无无偏偏估估计计量量为为:下下限限:上上限限:可能会出现的问题:可能会出现的问题:如果本底研究给出的预言值如果本底研究给出的预言值 b与实验观测值与实验观测值 nobs可比较,可比较,那么可能会出现信号事例上限那么可能会出现信号事例上限 只可能取只可能取零值零值的情况。的情况。(参见教材(参见教材P141图图
30、9.9(a)ups 如果出现这种情况,需要采用贝叶斯方法。如果出现这种情况,需要采用贝叶斯方法。34贝叶斯方法确定置信区间贝叶斯方法确定置信区间在期待值为在期待值为 s 的条件下观察到的条件下观察到 nobs 个事例的似然函数个事例的似然函数()()(|)!obssbnsbobssobsL nen 根据贝叶斯定理,期待值为根据贝叶斯定理,期待值为 s 的后验概率密度函数为的后验概率密度函数为(|)()(|)(|)()obssssobsobssssL npnL nd 如果取先验概率密度函数如果取先验概率密度函数()0 sss 常常数数(当当0 0)(当当0 0)35贝叶斯上限贝叶斯上限upupupup00()0()0()()00(|)1(|)()1()!ssobssbobsobsbnobssbsbbbsobsssobsssnsbsnsbsnnnnnL ndL ndedeeedenen 因此,上限可表示为因此,上限可表示为1)贝叶斯上限贝叶斯上限 s 02)s=0 回到经典上限回到经典上限