1、Markov-Modulated泊松过程模型泊松过程模型在用户行为识别中的应用在用户行为识别中的应用杨杨 峰峰 贾春福贾春福南开大学信息技术科学学院南开大学信息技术科学学院2005年年8月月23日日关于关于MMPPpMarkov modulated泊松过程(泊松过程(MMPP)n非齐次非齐次Poisson过程,其强度变量服从马氏过过程,其强度变量服从马氏过程程n一个双重随机过程:一个双重随机过程:表现观测值特征的非齐次泊松过程表现观测值特征的非齐次泊松过程 表现该泊松过程密度变化转移特征的时间连续的马氏表现该泊松过程密度变化转移特征的时间连续的马氏过程过程pMarkov-Modulated泊松
2、过程模型描述泊松过程模型描述 令令Xt是一个连续时间的马氏过程,状态空间为是一个连续时间的马氏过程,状态空间为 S=(1,k),且且Xt有无穷小转移概率矩阵有无穷小转移概率矩阵Q=qij。令令=(1,k),N(t)为非齐次泊松过程,强为非齐次泊松过程,强度函数为度函数为(X(t),即给定,即给定(X(t),N(t)为泊松分布。为泊松分布。这样的过程称为这样的过程称为Markov-Modulated泊松过程泊松过程pMMPP模型算法(转化为隐马氏模型)模型算法(转化为隐马氏模型)令令0=0,k为为N(t)中第中第k个事件发生的时间,个事件发生的时间,令令Xk=X(k),Yk=k-(k-1),则可
3、以认为,则可以认为(Xk,Yk)为隐马氏模型。为隐马氏模型。所以,可以利用转化的离散隐马氏模型通过估计所以,可以利用转化的离散隐马氏模型通过估计X(t)的跳点处的状态来估计过程的跳点处的状态来估计过程X(t)。令令 为过程为过程X(t)的第的第k次跳跃时间,则次跳跃时间,则 是离散时间的时齐的马氏链,其转移概率矩是离散时间的时齐的马氏链,其转移概率矩阵为阵为 其中其中 是是Xt的的Q-矩阵,并有矩阵,并有 Xt在在状态状态i的逗留时间服从指数分布的逗留时间服从指数分布.所以,所以,MMPP模模型可简化为型可简化为 由此,我们把由此,我们把MMPP模型转化为离散时间的模型转化为离散时间的隐马氏模
4、型,即可利用隐马氏模型中常用的算法隐马氏模型,即可利用隐马氏模型中常用的算法求解相关参数。求解相关参数。k()kX()(1)ijijijiPpq q()ijQq1111()(,)kkkkQqqqq p隐马氏模型(隐马氏模型(HMM)双重随机过程:双重随机过程:n马氏链,描述模型中本质的状态的转移马氏链,描述模型中本质的状态的转移n描述状态和观察值之间对应关系的过程描述状态和观察值之间对应关系的过程 特点:特点:相关算法(前向算法相关算法(前向算法、后向算法)、后向算法)p隐马氏模型(隐马氏模型(HMM)中)中p利用前向算法和后向算法,可以得到利用前向算法和后向算法,可以得到 P(Y=y|)p应
5、用:通过计算观测序列应用:通过计算观测序列P(Y=y|)的值判断的值判断序列的正常程度。序列的正常程度。pMMPP模型参数估计模型参数估计p重估计算法MMPP模型应用模型应用p用户鼠标行为识别 用户鼠标行为服从MMPP过程,通过计算用户鼠标行为序列的P(Y=y|),来区分非法用户。p数据来源:测试过程中正常数据与异常数据各取前五个的P(Y=y|)值(给定参数下序列出现的概率),以便直观感受正常数据与异常数据的差别程度.N为每组数据的观测值数,K是状态数。p结果:正常序列的概率值集中在E的负210次方左右,异常序列的概率值集中在E的负240次方左右,具有较好的区分度.pROC曲线分析:识别率在0
6、.87的情况下,误报率为0.04.识别率在0.92的情况下,误报率为0.18.模型具有比较好的ROC曲线.结论及进一步的工作结论及进一步的工作 MMPP模型对于基于鼠标点击的点过程的行模型对于基于鼠标点击的点过程的行为识别具有很好的准确度。由于本文讨论的算法为识别具有很好的准确度。由于本文讨论的算法是基于前向后向算法的,因此意味着它的较低的是基于前向后向算法的,因此意味着它的较低的复杂度能够应用到实际系统中来。复杂度能够应用到实际系统中来。本文是尝试性的工作,进一步我们将继续研本文是尝试性的工作,进一步我们将继续研究用户的特定行为模式和鼠标行为的关系,进而究用户的特定行为模式和鼠标行为的关系,进而研究用户的网络鼠标行为的特征,即用户在访问研究用户的网络鼠标行为的特征,即用户在访问网络时的鼠标行为特征,并应用到实际的入侵检网络时的鼠标行为特征,并应用到实际的入侵检测系统中来。测系统中来。谢谢 谢!谢!