1、保险行业运维自动化实践大宗能力交付从开始到未来议程01从开始到现在2.从现在到未来3.更远的未来写在前面 1“真正的技术壁垒不是别人无法模仿的东西,而是别人压根就错误地低估甚至鄙视了的东西。”微博 白硕SH写在前面 215%年增长率年增长率2.5亿亿客户客户总量总量数据信息中心简介:致力于保险产品互联网化和互联网保险产品,以移动优先、算 法驱动、云计算为主体建设思路。泰康保险集团20,000+设备/组件30,000+日均保单数量日均保单数量400+人/内勤500+套系统群写在前面 3泰康保险集团属于中小规模的IT组织而自动化团队的定位是行业内的追赶者追赶者、业务(第一驱动力)的服务服务者者 进
2、行业务互联网化转型进行业务互联网化转型业务发展迅速业务发展迅速IT规模相近规模相近大大IT组织中想独立做运维自动化建设的分、子组织组织中想独立做运维自动化建设的分、子组织议程01从开始到现在2.从现在到未来3.更远的未来运维自动化平台结构模型 从昨天开始建设思路:一个中心 以监控为核心(以事件为监控的核心);两个维度 时间维度(最大可能节约时间)、安全维度(最大可能确保安全)从下至上 从基础资源层到业务层;从右至左 运维视角出发进行自动化落地;实际产出:以资源交付为目标;工具(脚本)为主要运维手段;让IT资源的管理可控;缺点:离业务较远,无法快速响应业务要求;效率低;IT问题往往不是运维侧的问
3、题;运维自动化平台结构模型 现在“ 当业务需求过来时,业务部门真正想要的是什么? ”运维自动化平台结构模型 现在“ IT组织中的运维部门 是 大宗能力的交付的部门 ”运维自动化平台结构模型 概览 现在IaaSPaaS监控CMDB交 付 流程 ITSM分析运营 能力API Caller/Server交付需 求 入 口能 力 出 口运维自动化平台结构模型 二级 现在 所有能力服务化CMDBInfrastructure API Adapters动力系统网络设备VMWAREPowerVMDocker中间件大数据组件腾讯云环境系统专业设备KVM物理机数据库缓存存储设备公有云系统监控数据库监控中间件监控日
4、志分析流量分析配置管理API Caller调度管理网络监控链路监控存储监控APM/Server业务分析场景封装API Server作业管理域监控硬件监控业绩监控事件管理性能管理组件服务化交付云制品仓库云平台监控安全监控巡检管理历史数据代码托管API Services仪表盘运营报表容量管理可用性管理高管视图自助运维智慧地图工单视图流量视图性能优化巡检结果业务服务管.自定义报表资源发布展示大屏流程设计API调用站点管理资产管理业务分析运营分析配置管理活动统计工具管理动环视图告警分析日志检索数据库优化KPI视图计费管理移动端安全互动接口服务目录变更管理事件管理问题管理问题管理服务标准体系任务管理导航
5、管理服务状态管理消息管理服务报表知识库管理应用架构管理API Services服务管理门户组织流程管理API Services/Callers运维自动化平台 现在 产品对应IaaSPaaS监控CMDBITSM分析运营 能力API交付自研自研自研自研开源开源自研开源开源开源商用自研开源商用自研开源商用商用商用商用商用运维自动化平台 现在 一些指标898.5台7秒0%35%系统管理员团队 人均管理设备数量发布128个应用实例 最快时间运维人员离职率(近一年)自助服务/工具 占比运维自动化平台 现在 建设成果 关系自动发现泰康内部IT某网段设备、组件关联关系自动发现智慧地图(Shell+Saltst
6、ack+ELK)运维自动化平台 现在 建设成果 基线检查案例泰康内部IT某网段操作系统基线检查智慧地图(Shell+Saltstack+ELK)系统系统数量数量Red Hat Enterprise Linux Server release 6.7 (Santiago)535Red Hat Enterprise Linux Server release 5.9 (Tikanga)146Red Hat Enterprise Linux Server release 6.4 (Santiago)10CentOS release 6.4 (Final)4CentOS Linux release 7.2
7、.1511 (Core)3CentOS release 6.7 (Final)2CentOS release 6.6 (Final)1运维自动化平台 现在 建设成果 应用性能分析案例泰康内部IT某应用的性能分析案例,至代码级APM产品运维自动化平台 现在 建设成果泰康内部用户、业务、业绩、接口、基础资源若干工具和可视化交付样例D3 js + Echarts + Jquery + WeUI业务业绩接口调用用户分布微信端运维工具运维自动化平台结构模型 现在 说说开源评估体系用商业产品达到精通的程度,是快速构建服务能力的最快的方法; 开源不代表自主可控,来自互联网公司的陷阱;对开源产品进行社区成熟度
8、、产品成熟度、企业成熟度等多角度的基本面进行评估; 别人用什么我就用什么?上海拜服上海拜服 余军余军运维自动化平台结构模型 现在 说说人、程序、环境的关系误操作是运维动作中,引发事故和故障较多、且毁灭性较大的一点。 在这一点上,我们认为 人应该面对程序,程序去面对环境。涉及内容:1.工具封装(脚本/工具管理、脚本/工具规范等);2.完备的开发、测试、生产环境的工具发布流程;开发验证测试验证部署验证运维自动化平台结构模型 现在 说交付业务及应用所有角色IT人员运管运管运维人员IaaS PaaS基础资源的交付基础资源的交付和应用的交付应用的交付是IT组织需要打通的任督二脉。最终都会落地在 “运维管
9、理平台”中,运管是IT组织中所有角色的门户。应用交付基础资源交付运维自动化平台结构模型 现在说说自动化三要素标准化自动化数据化基础,和秦始皇统一度量衡的意义是一样的;同类组件的标准规范在不同的业务系列可以不同;资源、日志、报文、流程等等;规范和标准的技术校验和落地;平台建设:监控平台、分析平台、自动化平台、作业调 度、持续集成、持续交付;API化、场景化、多纬度视角;用数据说话才有意义;数据指标的可度量是优化依据;运维自动化平台结构模型 现在 说说CMDB说说CMDB:CMDB对象关系要简化(父子、依赖、连接);CMDB管理大于技术,需要自动化但不能依赖自动化如果不知道如何开始建设,就从消费C
10、MDB的场景入手;优维优维 王津银王津银运维自动化平台结构模型 现在 其他一些经验人最宝贵的是时间,节约时间是重要的事情;(提供了若干和IT其实无关的工具交付 活动报名、签到、统计、 值班、报表呈批等)安全和效率在很多场景下是相悖的;(适当的取舍,效率、服务、成本等)业务和应用的治理,需要先从架构角度入手;改变工作协作方式,其实可能是最立竿见影的提升效率的手段;(凤凰项目 一起寻找瓶颈)鼓励大众创新,运维自动化平台的平台化可以无缝的接入创新成果;影响效率最大的是审批环节,当前ITIL流程的形成很多是亡羊补牢的结果,需要针对性的优化、简化;议程01从开始到现在02从现在到未来03更远的未来运维自
11、动化平台现在进行的若干研究希望在泰康业务发展的同时能达到现在亚马逊、Google、BAT等技术驱动型公司在Devops上目前达到的成绩;Spring Cloud 微服务;机器人运维;(巡检、知识库问答、服务台)测试阶段;同步同步录入录入交互交互管理平台管理平台引擎引擎运维自动化平台现在进行的若干研究机器人值守 问答问答场景帮我建一个能支撑 千万PV的高可用环 境对话意图分析对话管理推理与选择对话生成已建立在prod2区, 详情请访问XXX华来智慧华来智慧 朱小燕博士朱小燕博士运维自动化平台现在进行的若干研究机器人值守 对话对话场景(未实现)帮我建一个能支撑 千万PV的高可用环 境对话意图分析对话管理推理与选择对话生成已建立在prod2区, 请问系统名是什么? 负责人是谁?对话 上下文华来智慧华来智慧 朱小燕博士朱小燕博士议程01从开始到现在02从现在到未来03更远的未来泰康自主人工智能平台建设应用层算法层数据层存储层数据治理泰康泰康 人工智能团队人工智能团队运维自动化平台 面向智能运维的一些想法客观地讲,我们目前离互联网公司还有一定的差距,短时间内还是以一线互联网公司为追赶对象:自动;自发;自愈;有用;智能运维是数据分析的结果,由智能运维是数据分析的结果,由AI 自动去落地到自动去落地到IT环境中;环境中;DevOps 带我不死 带运维不死带 我 不死 带 运维 不死