1、2012年8月小 组:网络啄木鸟QC小组课题类型:创新型发 表 人:北京移动网运中心 小组名称网络啄木鸟QC小组成立时间2008年12月课题类型创新型课题名称智能巡检平台研发活动时间2011年1月-2012年1月活动次数25小组人数9出席率96%序号姓名性别小组分工职称职责1臧志勇男顾问工程师活动指导2何嫚女顾问工程师活动指导3郭旗男顾问工程师活动指导4宗建菲男顾问工程师活动指导5刘春燕女组长,QC小组活动国家级诊断师,国优获得者工程师方案制定,组织实施6刘磊男组员工程师方案制定,组织实施7刘彦挺男组员工程师方案制定,具体实施8陈恕男组员工程师方案制定,具体实施9何媛女组员工程师方案制定,具体
2、实施23计划时间实际时间时间:2011年1月第1-2次小组会议制定活动计划表,制表人:刘春燕4电子运行维护系统(EOMS):实现公司相关管理流程的信息化落地,是管理、维护人员日常工单处理的支撑平台。集中运行维护平台:通过指令接口完成网管系统对网络配置信息、主动监控指标、实时信息的查询等操作,实现各类网元指令统一下发、采集、分析、处理。综合告警平台:通过接入各类网元告警信息,实现通信网络告警的统一采集、统一关联、统一呈现,统一派单。5 随着通信市场竞争的日趋激烈,网络质量已成为保障客户感知的生命线,其战略地位尤为重要。同时,网络管理也正向集中化、一体化逐渐演进。宏 观 环 境网 络 质 量竞争对
3、手“携号转网”这项惠民政策的开展,使北京移动面临比之前更大的市场竞争压力,同时也对网络安全也提出了更高的要求。客户感知 2011年中国移动将提升客户感知作为改善网络质量的指导方向,继续发挥“网络质量大会战”的重要作用。李跃总裁在网络工作会上指出:“实现全网质量全面领先竞争对手,建立起集中监控、集中网管、集中维护、集中优化的现代化维护体系。北京公司领导在网络工作会上指出:要“创新网络管理,推进“一体化”维护。战略规划6网运中心预防性维护故障处理网络优化投诉处理网络建设27个局点2000余万用户10000余台设备皂君庙区域西客站区域望京区域幸福区域 网运中心作为北京移动通信网核心网络的维护部门,保
4、障着移动通信网的安全、稳定、高效的运行,同时也是公司的日常运营收入重要保证。而核心交换设备承载着数十万的交换任务,因此关系客户感知的核心设备的预防性维护就成为我们工作中的重中之重。7序号问题未发现原因发生频数(12个月累计)频率%维护项目手工查询工作量大、易出错维护项目执行不及时维护项目不能确保每项核查维护项目不能确保有专人处理合计97100 小组对2010年下半年预防性维护问题发现情况进行了统计分析,得出目前的网络预防性维护方式不能完全及时准确地发现网络安全隐患。1、每天耗时150余人时,出错数由年初月均3件上升为年底月均5件。3、近1%的维护项目不能确保每项核查。2、不能及时处理呈上升趋势
5、。4、有3%的维护项目无专人负责。时间:2011年3月第34次小组维护作业计划现状进行分析并归纳原因,制表人:刘春燕故障隐患发现率在98%左右主要原因:手工查询工作量大、易出错、不及时 840004000余项日例行维护作业计划余项日例行维护作业计划500500台核心网设备台核心网设备1212名维护人员名维护人员4 4个维护组个维护组时间:2011年2月第34次小组维护作业计划现状进行分析并归纳原因,制表人:刘春燕新 从左图我们可以看出一年的日例行维护作业计划多达146万项,但我们的实际维护手段还主要停留在手动执行命令及通过小程序半自动执行的混合状态,手动执行效率低下,存在人为疏忽和遗忘,通过半
6、自动工具手段也无法保证预防性工作的准确及时运行。9预防性维护HLRSGSNMGWMSSCDS全新智能化维护模式时间:2011年3月第5次小组设定课题目标,制表人:刘春燕 小组决定开发一种全新智能化维护模式,达到及时发现故障、提高维护效率、确保审计效力的目的。经过小组讨论决定本次QC活动针对最重要的五类网元(HLR、SGSN、MGW、MSS、CDS)进行试点。10故障隐患发现率工作量v针对提升预防性维护工作的迫切需求,小组成员运用“头脑风暴法”提出了11个想法。并通过亲和图进行绘制整理:11使用现有半自动化工具对现有工具进行优化开发周期短业务有变更后快速修改根据现有情况定制开发灵活度高基于区域的
7、分散式开发解决方案集中操作维护平台已经实现到各网元的通道可通过EOMS故障工单的方式督促专人处理可以利用现有网管系统无需新购硬件设备综合告警平台与EOMS已开发完成相应接口提供整体的解决方案基于网管的集中式开发解决方案可利用多套网管系统进行联动开发将预防性维护内容纳入统一的故障管理开发完成后的平台有专人维护时间:2011年4月第6次小组会议成员头脑风暴利用亲和图归纳总体方案,制图人:刘彦挺12我们通过使用亲和图法,提出了两种解决方案:时间:2011年4月第6次小组会议成员头脑风暴利用亲和图归纳总体方案,制图人:刘彦挺基于网管的集中式解决方案总体方案二基于区域的分布式解决方案总体方案一13指标较
8、好指标适中指标较差需求满足开发实现维护保障时间:2011年4月第7-8次小组会议对两个总体方案进行对比讨论,制图人:刘彦挺100%满足现有维护作业计划100%满足现有维护作业计划平均变更实现时间为1天平均变更实现时间为3天预计开发2个月预计开发1个月需自主开发,实现较困难需自主开发,实现较困难目前网管系统已经实现目前网管已有派单接口,需进行少量修改即可满足由于缺少专业测试,可用性较差,年平均系统可用性为:98%由开发人员进行监控维护,故障监控率为58.33%由于拥有专业测试,可用性较高,年平均系统可用性为:99.9%由专业的维护人员进行7*24监控,故障监控率为100%对比项基于区域的分布式解
9、决方案基于网管的集中式解决方案对现有巡检任务的契合度智能巡检变更的灵活度开发周期是否方便与综合告警对接是否能够进行故障派单系统可用性系统维护性14 小组在确定总体方案后,根据目前网管系统对各业务系统的运行状态提供多种支撑方式,可根据具体运维流程需要进行灵活的组合分配,满足预防性维护工作的各种要求。具体细化方案如下:基于智能巡检告警的自动派单式维护基于综合告警平台的人工派单式维护时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊15 集中运行维护平台维护人员网元 1.集中运行维护平台通过网管系统向网元发送指令并采集返回的报文结果。2.维护人员直接登录集中运行维护平台对全
10、部日例行维护作业计划项目进行查看和审核,并根据异常结果来处理故障。01010100101010时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊16测试方案测试过程 测试网元BJGS04 执行项目数量10 返回报文时间2min 报文呈现时间10s 维护人员检查时间 8min添加网元 添加任务 任务执行执行结果弹出报告 日例行维护作业计划的执行实现了自动化。返回结果和呈现报告的时间都很短。X 极大的缩短了之前人工执行指令的操作时间,但是人工审核报告还需要一定的时间。一个网元10项维护作业计划审核=8分钟,全网500余台设备进行遍历=500*8min=67小时结果分析人工
11、审核时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊17 1.集中运行维护平台自动完成报文结果的审核,对异常项目生成智能巡检告警送至综合告警平台。2.由专门的监控人员分析综合告警平台上生成的维护作业计划告警信息。3.监控人员派发EOMS故障工单给相应区域的维护人员,维护人员根据故障工单来处理故障。网元 集中运行维护平台 综合告警平台01010100101010维护人员监控人员故障工单告警信息智能巡检告警时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊18智能巡检告警测试方案测试过程 测试网元 BJGS04 执行项目数量 10 返回报文时间
12、 2min 报文呈现时间 10s 派发智能巡检告警 30s 综合告警平台分析告警 生成告警信息 10s 监控人员分析告警 1min 监控人员派发故障工单 2min 维护人员分析故障工单 1min 对日例行维护作业计划的执行和审核都实现了自动化,不需要维护人员遍历全部项目。由综合告警平台分析智能巡检告警只需要10s的时间,极大的压缩了维护人员审核时间。X 但是监控人员对告警的分析、派单等还是人工执行,需要一定的时间。假定全网500台设备每天有500个告警(合理假设),监控人员需要用时(1+2+1)min*500=33小时结果分析派发故障工单综合告警平台监控人员人工派单时间:2011年5月第9-1
13、1次小组会议讨论细化方案并进行试验,制图人:刘磊19 1.集中运行维护平台自动完成报文结果的审核,对异常项目生成智能巡检告警送至综合告警平台,综合告警平台自动完成对告警信息的分析并送至EOMS平台。2.EOMS平台根据告警信息自动生成维护作业计划告警工单,维护人员根据故障工单来处理故障。网元 集中运行维护平台 综合告警平台01010100101010告警信息智能巡检告警EOMS平台维护人员自动派发故障工单时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊20测试方案测试过程 对日例行维护作业计划的执行和审核都实现了自动化。实现了告警信息分析和派发工单的自动化,真正实现
14、了智能巡检平台由执行指令、分析结果到生成告警信息、派发工单的全程自动化。省去了监控人员分析告警、派单等人工操作的步骤,由原来的3min压缩到了20s,现在维护人员对告警的处理只需要(1min+20s)*500=11小时结果分析 测试网元 BJGS04 执行项目数量 10 返回报文时间 2min 报文呈现时间 10s 派发智能巡检告警 30s 综合告警平台分析告警 生成告警信息 10s 派发告警信息至EOMS平台 10s EOMS平台生成维护作业 计划告警工单 10s 维护人员分析告警工单 1min结论:最佳方案!智能巡检告警派发故障工单综合告警平台自动派单EOMS平台时间:2011年5月第9-
15、11次小组会议讨论细化方案并进行试验,制图人:刘磊21A0A1A2A3ZB1B2C1C2D1D2时间:2011年6月第12次小组会议讨论确定处理流程,制图人:刘磊监控人员登陆综合告警平台派发故障工单维护人员 处理故障网元集中运行维护平台巡检网元派发智能巡检告警综合告警平台呈现告警信息EOMS平台分析告警信息,派发告警工单EOMS平台发生故障维护人员登陆集中运行维护平台查看巡检报告维护人员登陆网元执行维护作业计划综合告警平台发生故障集中运行维护平台发生故障22时间:2011年6月第12次小组会议讨论确定开发模块,制图人:刘磊集中运行维护平台网元管理模块1:数据采集接口开发与调整指令管理任务管理调
16、度管理告警管理工单管理资源管理综合告警平台EOMS平台模块2:移植操作指令,开发命令脚本 模板模块3:添加巡检方案,完成任务调度模块4:分析智能巡检告警,自动生成 告警信息模块5:根据告警信息,自动派发EOMS告警工单基于智能巡检告警的自动派单式维护方式涉及3套网管系统 涉及7个功能涉及开发调整5个模块23时间:2011年7月第13次小组会议讨论确定对策表,制图人:刘彦挺项目对策目标措施负责人地点完成日期模块1开发集中运行维护平台的数据采集接口及参数优化数据采集的成功率达到99.9%以上开发数据采集接口用正交法选择最优的接口参数组合。刘彦挺菜市口13层会议室2011-07-31模块2使用Jav
17、a Script编写脚本,移植人机命令并开发命令脚本的模板完成所有日例行维护作业计划的操作指令的移植,实现100%覆盖率编写符合智能巡检平台要求的巡检任务脚本,涵盖所有网元类型的所有日例行维护作业计划项目刘磊菜市口13层会议室2011-08-31模块3添加巡检方案,按照集团公司要求完成任务调度完成所有维护项目的模板制作和方案下发,完成全部日例行任务的调度。创建维护项目的模板,选择要下发的模板和网元建立方案。系统将自动生成元任务,根据集团规范要求完成巡检任务调度刘春燕菜市口13层会议室2011-08-31模块4集中运行维护平台与综合告警平台进行联调,实现巡检任务触发告警信息综合告警平台能够自动完
18、成告警分析、生成相应的告警信息制作智能巡检平台与综合告警平台的接口,以使综合告警平台能够分析集中运行维护平台根据巡检任务脚本制定的规则产生的告警刘彦挺菜市口13层会议室2011-08-31模块5 针对智能巡检告警,实现EOMS平台的自动派单EOMS接受综合告警发来的告警信息,产生告警工单并派发到指定账号综合告警平台与EOMS平台间的接口已存在可直接使用,需要针对巡检任务指定专门的派单账号及告警工单流转、处理流程规则建立智能巡检工单的短信提醒 陈恕菜市口15层综合网管中心2011-08-3124添加巡检方案,完成任务调度模块模块1 1模块模块2 2模块模块3 3模块模块4 4模块模块5 5分析智
19、能巡检告警,自动生成告警信息根据告警信息,自动派发EOMS告警工单移植操作指令,开发命令脚本模板数据采集接口开发与调整对策 开发集中运行维护平台的数据采集接口及参数优化实施 2011年7月31日完成集中运行维护平台上数据采集接口的开发,为了保证集中运行维护平台数据采集的成功率,我们使用正交实验法进行测试,找出最优的参数组合。实验情况1.制定因素位级表因素连接网元并发数A(个)指令下发间隔时间B(秒)失败后重复连接次数C(个)位级110201位级220403位级3306052.因素说明表因素说明连接网元并发数A(个)同时连接网元的数量。连接数量过少会导致数据采集的效率低;连接数量过多会导致集中运
20、行维护平台负荷过高。指令下发间隔时间B(秒)采集数据时下发指令的时间间隔。间隔时间过短会导致采集数据的遗漏;时间过长会导致数据采集的时延过大。失败后重新连接次数C(个)数据采集失败后重复连接网元的次数。重复连接数过少会导致采集数据的遗漏,重复连接数过多,会导致数据采集的时延过大。时间:2011年7-9月第14-20次小组会议进行实施阶段分析及总结,制图人:刘磊25添加巡检方案,完成任务调度分析智能巡检告警,自动生成告警信息根据告警信息,自动派发EOMS告警工单移植操作指令,开发命令脚本模板数据采集接口开发与调整实验情况 因素 实验号连接网元并发数A(个)指令下发间隔时间B(秒)失败后重复连接次
21、数C(个)数据采集成功率(%)11(10)1(20)398.322(20)1199.133(30)1299.8412(40)299.9522399.6632199.3713(60)1(3)98.78232(5)98.99333(8)99.1I=位级1之和296.9297.2297.1I+II+III=892.7II=位级2之和297.6298.8298.6III=位级3之和298.2296.7297.0极差R=I、II、III中,大数-小数1.32.11.63.设计实验方案模块模块1 1模块模块2 2模块模块3 3模块模块4 4模块模块5 5时间:2011年7-9月第14-20次小组会议进行实
22、施阶段分析及总结,制图人:刘磊26添加巡检方案,完成任务调度分析智能巡检告警,自动生成告警信息移植操作指令,开发命令脚本模板数据采集接口开发与调整实验情况4.实验结果分析“直接看,可靠又方便”:直接比较9个实验的成功率,容易看出,第4号的数据采集成功率最高 为99.9%,“直接看”的好条件为A1B2C2。“算一算,有效又简单”:按照位级之和越大条件越好,我们得出“算一算”的好条件为A3B2C2。小组成员在7月18日-7月22日对“直接看”和“算一算”的好条件分别进行了批量实验。7月18日7月19日7月20日7月21日7月22日平均值直接看100%99.9%99.8%100%99.8%99.9%
23、算一算99.8%99.8%99.9%99.9%99.6%99.8%根据批量时间结果,我们可以看出,”直接看”好条件的平均成功率为99.9%,”算一算”好条件的平均成功率为99.8%,在集中运行维护平台数据采集接口开发中,我们根据实验结果和实际情况选择“A1B2C2”的好条件,即连接网元并发数为10个,指令下发间隔时间为40秒,失败后重复连接次数为3次。效果确认在集中运行维护平台成功完成了数据采集接口的开发,通过正交实验,选择出了最优的参数组合,可将数据采集的平均成功率保持在99.9%。效果确认时间:7月23日-7月25日模块模块1 1模块模块2 2模块模块3 3模块模块4 4模块模块5 5根据
24、告警信息,自动派发EOMS告警工单时间:2011年7-9月第14-20次小组会议进行实施阶段分析及总结,制图人:刘磊27添加巡检方案,完成任务调度分析智能巡检告警,自动生成告警信息移植操作指令,开发命令脚本模板数据采集接口开发与调整对策 使用Java Script编写脚本,移植人机命令并开发命令脚本的模板实施 截至2011年8月31日,完成HLR、SGSN、MGW、MSS和CDS的脚本编写工作,并完成全部网元所有日例行维护作业计划的命令脚本共计49个模板。脚本编程实现。应用情况效果确认日例行维护作业计划中100%的项目完成脚本的测试。制作完成全部5类网元所有日例行维护作业计划的命令脚本的模板。
25、效果确认时间:9月1日-9月3日模块模块1 1模块模块2 2模块模块3 3模块模块4 4模块模块5 5根据告警信息,自动派发EOMS告警工单时间:2011年7-9月第14-20次小组会议进行实施阶段分析及总结,制图人:刘磊28添加巡检方案,完成任务调度分析智能巡检告警,自动生成告警信息移植操作指令,开发命令脚本模板数据采集接口开发与调整对策 添加巡检方案,按照集团公司要求完成任务调度实施 根据需要下发的模板和巡检网元建立巡检方案,集中运行维护平台自动生成相应的元任务,根据集团下发的设备维护细则完成所有元任务的调度工作。截至2011年8月31日,完成了全部5类网元所有日例行维护作业计划共计155
26、项元任务的调度工作。脚本编程实现。应用情况效果确认 完成了集中运行维护平台上所有元任务的建立和调度工作,实现了日例行维护作业计划项目100%的覆盖率。效果确认时间:9月1日-9月3日模块模块1 1模块模块2 2模块模块3 3模块模块4 4模块模块5 5根据告警信息,自动派发EOMS告警工单时间:2011年7-9月第14-20次小组会议进行实施阶段分析及总结,制图人:刘磊29添加巡检方案,完成任务调度分析智能巡检告警,自动生成告警信息移植操作指令,开发命令脚本模板数据采集接口开发与调整对策 集中运行维护平台与综合告警平台进行联调,实现巡检任务触发告警信息实施 截至2011年8月31日,完成集中运
27、行维护平台与综合告警平台的联调,利用告警解析脚本的规则产生的智能巡检告警(包含告警号)送至综合告警平台分析,触发综合告警平台自动生成标准告警信息。脚本编程实现。应用情况效果确认完成集中运行维护平台上告警解析脚本开发,并实现了与综合告警平台的连接,成功将智能巡检告警送至综合告警平台进行分析,正确生成告警信息。效果确认时间:9月1日-9月3日 综合告警平台综合告警平台生成告警号送往 综合告警平台模块模块1 1模块模块2 2模块模块3 3模块模块4 4模块模块5 5根据告警信息,自动派发EOMS告警工单 分析告警号 生成标准告警信息时间:2011年7-9月第14-20次小组会议进行实施阶段分析及总结
28、,制图人:刘磊30添加巡检方案,完成任务调度分析智能巡检告警,自动生成告警信息移植操作指令,开发命令脚本模板数据采集接口开发与调整对策 针对智能巡检告警,实现EOMS平台的自动派单实施 截至2011年8月31日,实现了HLR、SGSN、MGW、MSS和CDS全部网元的智能巡检上线工作,完成了100%覆盖集团要求的日例行维护作业计划,对于异常项目集中运行维护平台将智能巡检告警送至综合告警平台分析,并生成告警信息,EOMS平台根据告警信息自动派发EOMS告警工单。脚本编程实现。应用情况效果确认 EOMS平台根据综合告警平台送来的告警信息,及时将维护作业计划告警工单派发至相应的EOMS账号下,并可以
29、短信提醒相关的维护人员。效果确认时间:9月1日-9月3日模块模块1 1模块模块2 2模块模块3 3模块模块4 4模块模块5 5根据告警信息,自动派发EOMS告警工单收到维护作业计划告警工单,工单号:ID-3161-111226-00167,主题:SCCP子系统状态异常时间:2011年7-9月第14-20次小组会议进行实施阶段分析及总结,制图人:刘磊31 9月20日-12月19日期间智能巡检方式和手工执行方式并行执行,通过上述分析,我们可以得出:采用手工执行方式完成预防性维护工作,无法保证所有设备的故障隐患发现率都达到100%。采用智能巡检平台完成预防性维护工作,HLR、SGSN、MSS、MGW
30、和CDS均能实现100%预防性维护故障隐患发现率。01010100101010网元 从上表可以看出9月20日-12月19日期间,采用智能巡检平台完成预防性维护工作,平均日工时从之前三个月的12.2小时降低到了6.24小时,维护效率提高了(12.2-6.24)/12.2*100%=47.5%。而在9月20日-12月19日期间平均日工时也从手工执行方式的12.4小时降低智能巡检方式的6.24小时,维护效率提高了(12.4-6.24)/12.4*100%=49.6%。32时间段人工 执行 日工时人工执行 平均日工时智能 巡检 日工时智能 巡检 平均日工时6.20-7.191212.2-7.20-8.
31、1912.4-8.20-9.1912.2-9.20-10.1912.512.46.096.2410.20-11.1912.26.2211.20-12.1912.56.4233 效果确认时间:2011年09月20日-2011年12月19日,共计3个月 时间:2011年9-12月第21-22次小组会议对实施效果进行分析,制图人:刘春燕故障隐患发现率工作量34提升故障隐患发现率的同时降低维护人员的工作负荷。网管提供开放的环境,由业务人员参与网管系统开发,更快地满足业务需求,形成全新的网管建设模式。维护作业计划的执行由人工定期填写工单,转变为智能巡检告警工单的主动通知,由于技术的支撑改变了现有的维护模
32、式。35时间:2011年9-12月第21-22次小组会议对实施效果进行分析,制图人:刘春燕 节省研发费用 6*22*3*0.18=71.28万元 节约系统维护成本2*22*0.18=7.92万元 随着效率的提高节约的6人已经重新分配至核心网络工程及优化相关的工作中(目前该部分人员缺口为10人)节约人力成本投入 6*30万=180万/年。该成果实现了100%的预防性维护发现率,为日常通信故障隐患的及时处理奠定了基础,在提升核心网安全的同时也降低了员工的工作负荷,有助于提高职工与客户的双重满意度。通过技术的创新推动了核心网络维护模式及网管系统开发模式的创新。3637 形成网运中心智能巡检管理办法
33、形成网运中心智能巡检告警工单处理办法 形成网运中心智能巡检系统任务标准库时间:2011年12月第22-23次小组会议对制定规范及专利进行讨论,制图人:何媛38专利名称技术要点专利所属采集机控制网元连接的方法、采集机和系统大数据量下的数据采集中国移动北京公司通信网络中的工单派发方法及告警信息过滤装置告警过滤及工单派发中国移动北京公司时间:2011年12月第22-23次小组会议对制定规范及专利进行讨论,制图人:何媛39创新能力分析能力学习能力逻辑思维团队精神QC工具QC活动前544455QC活动后1099998 本次QC活动中,小组成员共同运用QC的理论和方法对选择的课题进行了分析和研究,在创新能力、分析能力、QC工具应用、逻辑思维和团队协作等多方面均有较大收获及提高。同时智能巡检平台的研发成功不仅有效的提高了劳动生产率和网络质量,也加强了部门之间的合作。时间:2012年1月第24-25次小组会议进行总结和确定下一步计划,制图人:刘春燕