1、-商业商业数据的分析、挖掘和应用数据的分析、挖掘和应用华东师范大学出版社华东师范大学出版社回归分析Logistic回归时间序列分析交叉影响分析回归分析回归分析介绍回归分析是处理变量之间关系的一种统计方法和技术,其基本思想、方法以及“回归(Regression)”名称的由来都要归功于英国统计学家FGalton(18221911)。回归分析模型是否线性线性回归模型非线性回归模型自变量个数一元回归多元回归回归分析主要解决以下几方面的问题:通过分析大量的样本数据,确定变量之间的数学关系式。对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。利用所
2、确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。一元线性回归分析一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。一元线性回归模型的确定散点图以便进行简单的观测建立线性方程y=0+1x+散点图以便进行简单的观测建立其他方程模式并比较R2R2越大,方程的拟合优度越高利用t检验和F检验分别检验回归系数和一元线性回归方程是否显著。如两者均显著,说明该数据
3、可以用一元线性回归模型来拟合,否则要考虑其他模型回归模型的显著性检验问题通过样本数据建立一个回归方程后,不能立即用于对某个实际问题的预测。因为,将应用最小二乘法求得的样本回归直线作为对总体回归直线的近似,这种近似是否合理必须通过各种统计检验。一般经常使用以下的统计检验。回归系数的显著性检验(t检验)所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验,也就是检验斜率。回归系数显著性检验的基本步骤作出判断根据给定的显著水平确定临界值,或者计算t值所对应的p值计算回归系数的t统计量值提出假设Eg.一元线性回归回归模型:y=0+1x+(x为自变量,y为因变量,0为截距,1
4、为斜率(回归系数),为误差变量。)指定 H0:1=0;备择假设为H1:10检验统计量为:其中,Sb1是b1的标准偏差(标准误差),21sb1xsns2nSSEs(为标准误差)如果误差变量服从正态分布,那么检验统计量服从自由度为n-2的t分布。拒绝域为 。当原假设为真,就说明两个变量间没有线性关系;当备选假设为真,则两个变量存在某种线性关系。SPSS的实际操作中,我们只要关注t检验的显著性(Significance)值(sig值)。我们一般将这个sig值与0.05比较,当sig值小于0.05,我们认为差别显著;当sig值大于0.05,我们认为差别不显著;sig值越小,说明差别越显著,回归系数越显
5、著。2,2/ntt拟合优度检验回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的拟合程度。回归方程的拟合优度检验一般用判定系数(Coefficient of Determination)实现,用R2表示。该指标建立在对总离差平方和进行分解的基础之上。测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用调整后的判定系数。拟合优度检验yi和 的离差可以进一步分解为两部分yyyyyyiiii如果对等式两边各项求平方,并把所有样本点加起来,进行一些代数运算可得22yyyyyyiiii方程的左边衡量了因变量y的差异。方程右边的第一项用SSE
6、表示,第二项用SSR表示,为回归平方和(Sum of Squares for Regression,SSR)Y的差异=SSE+SSR 因此将差异分解为两个部分:SSE度量y中不可解释的差异部分;SSR度量y中可以被自变量x的差异解释的差异部分。把这个分析过程整合到R2的定义中去:因此,R2衡量了y的差异中能够被x的差异解释的部分在总差异中所占的比例。一般来说,R2的值越大,模型拟合数据的效果就越好。回归方程的显著性检验(F检验)回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。检验统计量为:拒绝域为:12
7、knSSEkyyFi1,FknkF因变量的总差异可以分解为可解释的差异和不可解释的差异两个部分:而F=MSR/MSE,因此,若F值较大,表明因变量的总差异中可被回归方程解释的部分所占的比例较大,回归模型有效在SPSS软件的实际操作中,我们也主要观察它的sig值,只要sig小于0.05,我们就认为回归模型是显著的SSESSRyyi2多元线性回归分析一元线性回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。在线性相关条件下,研究两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归
8、模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。多元线性回归模型的确定时常用逐步回归方法(Stepwise)。逐步回归法是对全部的自变量(X1,X2,Xp)对Y贡献的大小进行比较,并通过F检验法选择偏回归平方和显著的变量进入回归方程,每一步只引入一个变量,同时建立一个偏回归方程。当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方和如果由于引入一个新变量而使得已进入方程的变量变为不显著时,则及时从偏回归方程中剔除从未选入方程的自变量中,挑选对Y有显著影响的新的变量进入方程在引入了两个自变量以后,便开始考虑是否有需要剔除的变量当回归方
9、程中的所有自变量对Y都有显著影响而不需要剔除时不论引入还是剔除一个变量都被称为一步。不断重复这一过程,直至无法不论引入还是剔除一个变量都被称为一步。不断重复这一过程,直至无法剔除已引入的变量,也无法再引入新的自变量,逐步回归过程结束剔除已引入的变量,也无法再引入新的自变量,逐步回归过程结束多元线性回归中还需要注意多元共线性问题。多重共线性指自变量间存在线性相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。多元共线性会有两个不利影响:1.估计回归系数时会产生较大的抽样误差2.会影响系数的t检验,使依据t检验做出的是否线性相关的推断发生错误。为了避免或者修正多元共线性,我们采用
10、两种方法:1.在建立模型时要尽可能确保自变量之间的相互独立性2.另一个是逐步回归只有当某个自变量能够改变模型的拟合效果时,才把它放在模型中。如果两个自变量强烈相关,那么要对自变量进行合并或将重复的自变量删除,才可以最小化多元共线性的影响。实际运用中多重共线性主要有以下几种类型表现:1.整个模型的方差分析检验结果为(为显著性水平),但各自变量的偏回归系数的统计学检验结果却是;2.专业上认为应该有统计学意义的自变量检验结果,却无统计学意义;3.自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释;4.增加或删除一个自变量或一条记录,自变量偏回归系数发生较大变化。对于多重共线性的识别,可
11、以通过SPSS中Statistics(统计量)子对话框中的Collinearity Diagnostics(共线性诊断)复选框予以实现。复选框Collinearity Diagnostics提供以下统计量:1.容忍度(Tolerance)2.方差膨胀因子(Variance Inflation Factor,VIF)3.特征根(Eigenvalue)4.条件指数(Condition Index)含虚拟自变量的回归分析数量变量、定量变量或数量因素:可以直接用数字计量的因变量和自变量,即可以获得实际观测值(如收入、支出、产量、国内生产总值等)非数量型的变量:性别、民族、职业、文化程度、地区、正常年份
12、与干旱年份、改革前与改革后等定性变量定性变量作数量化处理:引进只取“0”和“1”两个值的虚拟自变量。当某一属性出现时,虚拟变量取值为“1”,否则取值为“0”。对于包含一个具有k种特征或状态的质因素的回归模型,如果回归模型没有常数项,则需引入k个01型虚拟变量D;如果有常数项,则只需引入k1个01型虚拟变量D。当k=2时,只需要引入一个01型虚拟变量D。含调节变量的回归分析如果变量Y与变量X有关系,并且这个关系受到第三个变量M的影响,那么变量M就是调节变量。调节变量影响自变量和因变量之间的关系,既可以是定性的(比如性别、受教育程度等),也可以是定量的(比如年龄、工资收入),它影响自变量和因变量之
13、间关系的方向(正负)和程度(强弱)。简要模型:Y=aX+bM+cXM+e Y与X的关系由回归系数a+bM来刻画,它是M的线性函数,c衡量了调节效应(Moderating Effect)的大小。如果c显著,说明M的调节效应显著。讨论调节变量的调节效应,可分为以下情况:1.当自变量是类别变量,调节变量也是类别变量时,用两因素交互效应的方差分析,交互效应即调节效应;2.当调节变量是连续变量时,自变量使用伪变量,将自变量和调节变量中心化,使用上述公式做层次回归分析:做Y对X和M的回归,得测定系数R21;做Y对X、M和XM的回归得R22,若R22显著高于R21,则调节效应显著。或者,作XM的回归系数检验
14、,若显著,则调节效应显著;3.当自变量是连续变量,调节变量是类别变量时,分组回归应按M的取值分组,做Y对X的回归。若回归系数的差异显著,则调节效应显著,调节变量是连续变量时,同上述公式的层次回归分析。多元线性回归分析在的商业应用案例商业数据的采集变量的确定回归方程模型构建和假设形成自变量:评论深度(字数)、评论极性(正面或负面)、产品类型因变量:评论有用性H1:商品类型会为评论极性对评论有用性的影响起到显著的调节作用。对于体验型商品,中立评价的作用比极端评价更显著。H2a:负面评论的在线评论有用性大于正面评论。H2b:较体验型商品,正面评论对搜索型商品的有用性更高。H2c:较体验型商品,负面评
15、论对搜索型商品的有用性更高。H2d:较搜索型商品,体验型商品的正面评论与负面评论的有用性差异更大。H3:评论深度对评论有用性具有显著的正向影响作用。H4:商品类型会为评论深度对评论有用性的影响起到显著的调节作用,与体验型商品相比,评论深度对有用性的正向影响在搜索型商品中更为明显。数据来源:卓越亚马逊()研究样本:体验型和搜索型两种商品类型中的6个大类下的12种商品。搜索型商品选择U盘、手机和路由器,体验型商品选择了音乐CD、书籍和化妆品。对商品的基本信息和在线评论进行抓取,主要通过火车头采集器进行每条评论包括以下数据:评论星级;评论总投票数;评论有用票数;评论者;评论时间;评论文本内容根据研究
16、需求对采集到的在线评论进行筛选共得到2157条较高质量的在线评论商业数据的采集变量的确定回归方程模型构建和假设形成自变量:评论星级Start_Rating;评论深度Review_Depth调节变量:商品类型Product_Type;评论极性Review_Extremity因变量:评论有用性Helpfulness%控制变量:投票总数Total_Votes商业数据的采集变量的确定回归方程模型构建和假设形成检验H1、H3、H4采用的回归方程:Helpfulness%=0+1Star_Rating+2Review_Depth+3Product_Type+4Total_Votes+5Star_Ratin
17、g Product_Type+6Review _Depth Product_Type+检验H2a、H2b、H2c、H2d采用的回归方程:Helpfulness%=0+1Product_Type+2Review_Extremity+3Review_Extremity Product_Type+商业数据的采集变量的确定回归方程模型构建和假设形成商业数据的采集变量的确定回归方程模型构建和假设形成调整后的R2=0.384,达到同类研究水平,方程拟合度较高,p值=0.000表明各指标对评论有用性存在显著的影响商业数据的采集变量的确定回归方程模型构建和假设形成为进一步探究搜索型商品与体验型商品的具体调节作
18、用,分别对其进行多元线性回归分析对于体验型商品,评论星级Star_Rating(p=0.000)和Star_Rating2(p=0.018)对评论有用性有显著影响。对于搜索型商品,评论星级Star_Rating(p=0.069)对评论有用性没有显著影响,而Star_Rating2(p=0.035)对评论有用性有显著影响。假设H1成立,即商品类型会使评论极性对评论有用性的影响起到调节作用,且对于体验型商品,中立评价的作用比极端评价更显著。商业数据的采集变量的确定回归方程模型构建和假设形成0商业数据的采集变量的确定回归方程模型构建和假设形成0商业数据的采集变量的确定回归方程模型构建和假设形成体验型
19、商品和搜索型商品,p值 0,表示Xj与事件发生概率正相关,ChiSqErrorChi-SquareIntercept1-1.65410.0572834.9838.0001年龄1-0.009740.000835135.9102.0001拥有账户数1-0.09540.00342778.0362.0001当月交叉销售率1-0.05660.013717.0375.0001资产类产品当月借方交易金额相对于最近六个月借方交易金额平均值比率10.04620.0073539.5741.0001非活存类资产最近一次贷方交易距今时长10.03190.00199258.3282.0001沃德客户签约标识1-0.54
20、150.0225580.3795.0001保有期限(月)1-0.003160.000232186.33.0001基金最近一年借方交易次数占交易次数占比10.69030.055157.757.0001三存最近一年借方交易金额占交易金额占比1-1.48150.0601607.4079.0001最近一个月活存取款金额大于次数10.14910.0051855.159.0001国债持有标识1-0.98250.0892121.2301.0001最近三个月产品销户数10.49320.0288292.7311.0001贵金属持有标识1-1.35720.0913221.1287.0001最近三个月转帐,取现金额
21、占90天日均资产比率10.11930.017347.6116.0001投资理财产品持有标识1-0.44770.0296229.5235.0001月日均资产大于90天日均资产2倍标识10.63630.0383276.4884.0001月日均资产大于过去12个月月均资产2倍标识11.04650.02322035.714575,则事件E1不发生;如果i75,则事件E1将发生;如果随机抽取的事件E1不发生,将不影响其它事件,其它事件的初始概率均不改变。如果随机抽取的事件E1发生,将影响其它事件,受其影响的各事件的概率将按照相互影响关系矩阵,利用公式计算过程Pj。过程概率Pj将在该次试验中取代相互影响关
22、系矩阵中的初始概率Pj。在没有被抽到的事件中重复上述三个步骤,直至全部事件都被随机抽取到,方完成一次试验。6.4.2 交叉影响分析法实施步骤第五步:将过程概率Pj全部恢复为初始概率Pj,进行下一次试验。通过多次反复试验,最后由各事件发生的次数与试验总次数相比,得到该事件的校正概率P*j,用P*j代替Pj,结合结论分析进行策略性决策。6.4.3 交叉影响分析法应用实例1.工程项目风险事件等级的评定假设某个工程项目在开发建设阶段有以下五个风险事件:成本超支、工期延误、设计不当、劳资纠纷、施工效率低下。风险等级确定。根据行业经验确定风险事件登记的划分范围(见表6-15)。表表6-15风险事件的等级划
23、分风险事件的等级划分序号序号风险事件等级的概率范围风险事件等级的概率范围风险等级含义风险等级含义1 10 0.8-1.8-1严重风险严重风险2 20.5-0.80.5-0.8重要风险重要风险3 30 0.3-0.5.3-0.5一般风险一般风险4 40 0.1-0.3.1-0.3轻度风险轻度风险5 50 0-0.1-0.1可忽略风险可忽略风险6.4.3 交叉影响分析法应用实例最后将每种风险事件发生的概率乘以该风险事件对于工程项目的影响程度,得到每种风险事件的风险等级(风险等级=风险发生概率*风险影响程度)。并对应表6-15、表6-16可以给出每个风险事件的登记含义以及风险事件发生的概率。表表6-
24、16 用德尔菲法确定每种风险的发生概率用德尔菲法确定每种风险的发生概率可能的风险事件可能的风险事件发生的概率发生的概率成本超支成本超支P P1 1=0.8=0.8工期延误工期延误P P2 2=0.5=0.5设计不当设计不当P P3 3=0.1=0.1劳资纠纷劳资纠纷P P4 4=0.4=0.4施工效率低下施工效率低下P P5 5=0.2=0.26.4.3 交叉影响分析法应用实例由表6-17可以看出,该工程项目有三个一般风险事件和两个轻度风险事件,假设项目决策方或风险管理人员看到了这个结果,则会认为该工程项目中没有特别重要的风险,而有可能忽略对于风险事件的防范和控制。表表6-17各事件的风险等级
25、各事件的风险等级可能的风险事件可能的风险事件发生的概率发生的概率风险影响程度风险影响程度风险等级风险等级等级含义等级含义成本超支成本超支P P1 1=0.8=0.80 0.60 0.48一般风险一般风险工期延误工期延误P2 2=0.50 0.60 0.30一般风险一般风险设计不当设计不当P P3 3=0.1=0.11 10 0.10轻度风险轻度风险劳资纠纷劳资纠纷P P4 4=0.4=0.40 0.80 0.32一般风险一般风险施工效率低下施工效率低下P P5 5=0.2=0.20 0.50 0.10轻度风险轻度风险6.4.3 交叉影响分析法应用实例2.引入交叉影响法以工程项目风险事件为例,交
26、叉影响法的运用流程如下:确定五种风险的初始概率分别为P1=0.8,P2=0.5,P3=0.1,P4=0.4,P5=0.2。假定用KS表示其中一种风险对其它风险的影响,其中K=+1表示正影响,K=-1表示负影响,S表示影响的程度大小,建立影响列表(见表6-18)。表表6-18 交叉影响的方向和程度交叉影响的方向和程度交叉影响的程度交叉影响的程度KSKS1 10 02 2+0.53 3-0.54 4+0.85 5-0.86 6+17 7-16.4.3 交叉影响分析法应用实例表表6-19 不同风险的相互影响矩阵不同风险的相互影响矩阵可能的风险可能的风险初始概率初始概率对其它风险的影响对其它风险的影响
27、P P1 1P P2 2P P3 3P P4 4P P5 5P P1 10.80.80 0-0.8-0.8-0.5-0.5-0.5-0.5-0.5-0.5P P2 20.50.51 10 00 00.80.80.50.5P P3 30.10.11 11 10 00.50.50.80.8P P4 40.40.40.80.81 10 00 01 1P P5 50.20.20.80.81 10 01 10 0表6-18、表6-19中的数值,可以通过德尔菲法由专家做出,即由专家测定交叉影响的程度。例如P1与P2交叉的-0.8代表的含义是:当成本超支的风险发生后,即当P1=1,对工期延长的风险有80%的
28、负影响。6.4.3 交叉影响分析法应用实例然后可以根据交叉影响法的经验公式,算出相互影响后的概率。(6.20)例如,当成本超支的风险已经发生时候,即P1=1,工期延误的风险概率变为:(6.21)即成本超支反而降低了工期延误的风险,因为工期很有可能因为加大投资而缩短6.4.3 交叉影响分析法应用实例同理:(6.22)(6.23)(6.24)可以看出,当成本增加后,其它建设期的风险都有所下降6.4.3 交叉影响分析法应用实例依照这种方式,可以计算出当P2=1,P3=1,P4=1,P5=1时其它风险的交叉概率,最后可以得到交叉影响概率的汇总表(见表6-20)。表6-20 相互影响发生后的概率矩阵如果
29、这个如果这个风险发生风险发生P P*1 1P P*2 2P P*3 3P P*4 4P P*5 5P P1 10.80.80.30.30.0550.0550.270.270.120.12P P2 20.960.960.50.50.10.10.520.520.280.28P P3 30.960.960.750.750.10.10.520.520.3280.328P P4 40.9280.9280.750.750.10.10.40.40.360.36P P5 50.9280.9280.750.750.10.10.640.640.20.2这就是交叉影响后的概率,举例来说,当发生劳资纠纷时,即P4=1
30、相应的成本超支的风险会增大到0.928,工期延误的风险会增大到0.75等等。6.4.3 交叉影响分析法应用实例3.通过蒙特卡罗模拟随机实验得到校正概率在实际运用蒙特卡洛模拟随机事件发生时,总是随机抽取可能发生的事件,然后算出一组交叉影响概率值(已不同于初始概率),然后再随机抽取发生的事件,然后以上一次已经影响的概率作为新的初始概率来测算第二次相互影响的概率。其顺序是这样的,依然以上面的五种风险为例:在五种风险事件中随机抽取一种,假设抽中P2。在099的随机数表中抽取随机数,按照蒙特卡罗模拟法则,用该数与第一步中选定的风险的初始概率比较,来确定事件是否发生。若抽取的数为38,而初始概率P2=0.
31、5,因为3850,所以可以认为工期延长的风险发生了。若抽中5099,则认为风险没有发生。若模拟事件未发生,则初始概率不予调整,若发生,则按照经验公式来计算交叉影响后的概率。在本例中,表6-19就是按照经验公式计算出的第一次模拟后的交叉影响概率。6.4.3 交叉影响分析法应用实例再从未被模拟的风险事件中,随机抽取一个事件,重复步骤2和步骤3,如果第一次模拟已经调整过初始概率,则将步骤3中被调整后的交叉影响概率作为新的初始概率应用。重复步骤1到4,直到5种风险事件都被模拟一遍为止,也就是说,必须让这五种风险事件,或者“发生了”或者“没发生”,这称之为一轮模拟。在本例中,相当于一轮模拟需要进行5次随
32、机模拟。将风险事件的概率调回最初的初始概率,再进行一轮一轮的模拟。经历多轮重复的模拟,统计每一风险事件发生的概率,即在模拟过程中某风险事件发生的次数与模拟总次数的比值,这个值就可以认为是交叉作用影响下每个风险事件将要发生的概率值,即校正概率,模拟的次数越多,校正概率就越逼近于真实值。即假设经过了1000轮模拟,而P2事件一共被模拟发生了560次(每一轮模拟中,工期延长的风险P2都可能“发生”,或者“不发生”),则校正概率为560/1000=0.56。6.4.3 交叉影响分析法应用实例4.用交叉影响法计算风险事件的概率本文根据昌杰引入了马尔可夫链的预测概念来帮助手工计算交叉影响法的校正概率,对交
33、叉影响法的改进,来计算文中五种风险事件相互影响后的校正概率。最终我们得到运用交叉影响后的风险的事件为校正概率为:(6.25)由此可以看出,最终的校正概率比一开始用德尔菲法测定的风险事件概率要更精确,它考虑到了风险事件作为一个系统之后相互作用的结果,现在我们用这个校正后的风险事件概率来进行风险登记的计算,并对应表6-13来确定各个风险事件的登记和程度。通过对比可以发现,运用交叉影响法校正后的风险概率计算出的风险登记与表6-15中的风险登记有所不同。6.4.3 交叉影响分析法应用实例表表6-21 运用交叉影响法后的风险等级的评定运用交叉影响法后的风险等级的评定风险事件风险事件风险发生概率风险发生概
34、率风险影响程度风险影响程度风险等级风险等级等级含义等级含义成本超支成本超支P1=0.894P1=0.8940.60.60.5360.536重要风险重要风险工期延误工期延误P2=0.464P2=0.4640.60.60.2780.278轻度风险轻度风险设计不当设计不当P3=P3=0.0761 10.0760.076可忽略风险可忽略风险劳资纠纷劳资纠纷P4P4=0.3880.80.80.3100.310一般风险一般风险施工效率低施工效率低P5=0.174P5=0.1740.50.50.0870.087可忽略风险可忽略风险从表6-21中可以看出,相对于原来的风险等级,运用交叉影响法后的风险等级都有了变化,其中成本超支这一风险事件已经由一般风险升高变为了重要风险,这意味着项目主体和风险管理人员在项目施工过程中要特别注重对于成本的控制,采取有针对性的应对措施,比如建立更完善的采购制度来避免浪费,提高施工质量来杜绝返工行为等,从而尽量避免成本超支的发生。1.使用SPSS进行回归分析的过程有哪些?2.时间序列分析的主要用途是什么?3.交叉影响分析法的实施步骤是什么?Click to edit company