1、国情监测项目数据库运行环境建设及运维3.数据库备份容灾1.1.数据库运行环境建设数据库运行环境建设2.数据库运行环境运维大纲1.数据库运行环境建设1.3 数据库运行环境装备配置1.1 1.1 项目背景及技术需求项目背景及技术需求1.2 数据库运行环境建设内容项目背景及技术项目背景及技术需求?需求?1.1 项目背景及技术需求地理国情普查数据具有如下特性:(1)数据种类多、总量大,原始数据、中间成果数据、成果数据总量达PB级;(2)数据汇交、处理、统计分析的时延低、规模大、手段复杂;(3)数据成果发布的实效性、灵活度要求高;(4)数据安全保密等级要求高。结构化数据非结构化数据现有现有空间信息空间信
2、息基础基础设施设施技术瓶颈技术瓶颈 传统需求新需求数据处理规模数据处理规模处理的数据量一般为GB或是TB级。处理的数据量一般为TB、PB级或更大。从分散到集成从分散到集成单一业务规模较小,比较分散,彼此之间弱联系。多业务之间的联系越来越紧密,多业务之间的数据通过整合并采用大数据分析手段,可获取更多的价值。从共享到协同从共享到协同各业务之间共享和协同度低。各业务部门之间的联系越来越多,需要共同处理海量空间数据,需要应用级别的协同。从封闭到开放从封闭到开放单一业务系统,较封闭。多业务融合,平台越来越开放。从离线孤立到持久从离线孤立到持久在线云服务在线云服务硬件、软件的维护升级等过程需要停机检修,在
3、线服务时间缩短。服务在线迁移或升级。从专享到普适从专享到普适一般针对用户需求提供专享的服务,主要面对政府和企事业单位。随着应用深入,空间信息也渗透到各类平台,逐步要面对公众。1.1 项目背景及技术需求客户端客户端传统数据库运行环境架构传统数据库运行环境架构数据库数据库服服务器务器应用应用服服务器务器SANSAN存储存储交换机交换机存储存储阵列阵列数据库数据库平台平台应用应用平台平台CPU网络网络IO1.1 项目背景及技术需求Top 5 Timed EventTop 5 Timed Event影响数据库的最关键影响数据库的最关键指标指标是是IOIO,而不是,而不是CPUCPU-来自生产环境的数据
4、测绘地理信息数据库应用的主要特征为IO密集型1.1 项目背景及技术需求大量数据被传送到数据库服务器,其中只有0.1%是必需的。大量的带宽被用于无意义的数据传输,消耗大量的运行时间。SELECT cust_last_name,channel_id,SUM(amount_sold)FROM sales s,customers cWHERE s.cust_id=c.cust_id AND c.location in(CA,NY)AND s.gender=MGROUP BY c.cust_last_name,s.channel_idORDER BY SUM(amount_sold);1.1 项目背景及
5、技术需求现有的空间信息基础设施和技术手段已经不能满足国情监测大数据的汇交、存储、处理、统计分析和成果发布需求,需要采用新的IT技术来改造和升级中心现有的计算机网络运行环境,保障国情监测业务的顺利开展。1.1 项目背景及技术需求采用云计算和大数据技术改造和升级国情监测项目数据库运行环境,构建具备弹性、动态共享的新一代空间信息基础设施。关键技术:(1)云云存储技术存储技术:解决地理国情监测系统中海量空间数据高效存储的问题。(2)并行计算技术并行计算技术:解决海量遥感影像快速处理的问题。(3)大数据统计分析大数据统计分析技术技术:采用软硬件高度整合的一体机技术,解决地理国情数据大数据快速统计分析的问
6、题。(4)大内存技术大内存技术:主要作用是通过配置高内存实现大数据计算、统计和分析加速。(5)云计算和虚拟化云计算和虚拟化:通过将底层的硬件资源虚拟化,实现计算、网络、存储等资源的动态管理和应用系统的在线调整,能够灵活、高效支撑上层地理国情监测系统的应用。1.1 项目背景及技术需求1.2数据库运行环境建设内容1.2.1 总体架构总体架构1.2.2 空间大数据汇交系统建设1.2.3 空间大数据处理系统建设1.2.4 空间大数据统计分析系统建设1.2.5 空间大数据云存储系统建设1.2.6 空间大数据成果发布系统建设1.2.7 设备集成拓扑1.2.1 总体架构1.2.2 空间大数据汇交系统建设通过
7、将数据磁盘直接插入数据汇交设备,再经由数据汇交服务器将数据复制到云存储系统的数据存储区,可实现多个磁盘同时导入数据。采用服务器集群和流量负载分担技术,解决目前分散汇交效率低下的问题。配置两台数据汇交服务器和一台数据汇交设备,前者支持虚拟化技术,后者支持磁盘热插拔和自动识别。1.2.2 空间大数据汇交系统建设1.2.3 空间大数据处理系统建设 汇交的源数据经过一系列处理,包括单机和并行处理,数据才能最终入库到国情监测数据库中。数据处理系统由单机串行处理系统和并行处理系统构成。1.2.3 空间大数据处理系统建设1.2.3 空间大数据处理系统建设客户端根据统计分析的业务需求发送计算指令,由高性能的软
8、硬件一体化关系型数据库系统执行运算。最终运算结果返回客户端。同时,为中国测绘科学研究院预留访问接口。1.2.4 空间大数据统计分析系统建设1.2.4 空间大数据统计分析系统建设 采用关系型数据库一体化设备,由集成一体的核心处理层、智能存储层和超高速网络层三部分组成。核心处理层采用集群技术,智能存储层采用分布式并行系统,并部署智能存储软件。所有服务器通过40Gb/s的超高速网络互联。InfiniBand 请求DB ServersStorage Server一体机高性能特征“综合列压缩(EHCC)”:技术获得10 x50 x 超高压缩比,并提高磁盘I/O效率高性能特征“Smart Flash Ca
9、che”:随机I/O性能高达1M IOPS;ASM分布式存储高性能特征“Smart Scan”:计算负载部分卸载至并行智能存储层,并只传输经筛选的有用数据高性能特征“InfiniBand”:提供40Gb/s 端口带宽,聚合带宽高达880Gb/s,端口延时(0.1um)小于以太网的 1/1000软件创新架构创新根据工作和预算实际,选择传统的关系型数据库、文件数据库、NoSQL数据库或一体机软硬件集成系统。1.2.5 空间大数据云存储系统建设 采用分布式云存储系统,主要分为三个部分:第一部分,源数据存放区;第二部分,中间数据成果区;第三部分,最终成果区。采用分布式云存储架构,由多节点组成,构建横向
10、扩展的分布式存储系统。(1)前端网络:采用万兆以太网,接入中心核心交换机。(2)存储节点:采用集群存储架构,提供经济高效、可扩展的在线存储。(3)后端网络:构建带宽为40Gbps的标准InfiniBand 网络。1.2.5 空间大数据云存储系统建设 通过扩展现有的天地图云平台实现成果数据的对外发布,扩充存储型服务器、应用型服务器和搜索型服务器三类资源。1.2.6 空间大数据成果发布系统建设1.2.7 设备集成拓扑1.3 数据库运行环境装备配置服务器设备配置表编号 名称数量配置方式S01数据汇交服务器2台新增S02关系型数据库一体机(含数据库软件)1套新增S03文件数据库服务器1台新增S04统计
11、分析应用服务器2台新增S05WEB/GIS服务器4台新增S06云管理服务器2台新增S07存储备份服务器1台利旧S08外网服务发布服务器(存储型服务器)16台新增S09外网服务发布服务器(应用型服务器)16台新增S10外网服务发布服务器(搜索型服务器)8台新增S11安全管理服务器1台利旧W01工作站20台新增1.3 数据库运行环境装备配置存储设备配置表编号 名称数量配置方式T01云存储设备1套新增T02遥感专用阵列1套新增T03数据汇交设备1套新增T04光纤交换机2台1台新增/1台利旧T05磁带库(含备份软件)1台主设备利旧/新增驱动器和磁带设备1.3 数据库运行环境装备配置网络及安全设备配置表
12、编号 名称数量配置方式N01核心交换机1套1台新增/1台利旧N02天地图服务器接入交换机2套新增N03接入路由器2台新增N04数据库审计系统1套利旧N05网络安全审计系统1套利旧N06网络入侵检测系统1套利旧N07漏洞扫描系统1套利旧N08内网审计系统1套利旧N09杀毒软件1套利旧N10网页防篡改系统1套利旧1.3 数据库运行环境装备配置平台软件配置表编号 名称数量配置方式P01操作系统(Windows/Linux/Unix)82套新增P02地理信息系统软件(服务器版/桌面版/分析工具)1套利旧P03云平台管理软件1套新增P04办公套件(Office)1套新增3.数据库备份容灾1.数据库运行环
13、境建设2.2.数据库运行环境运维数据库运行环境运维大纲32数据库运行环境运维数据库运行环境运维2.数据库运行环境运维2 2.1.1 运维概述运维概述2.2 Exadata环境运维2.3 非Exadata环境运维2.1 运运维概述维概述日常巡检定期对数据库系统进行健康巡检:每日、每周、每月/季度分别对应不同的巡检内容,检查数据库系统运行状态,备份数据库系统的配置文件和参数文件,查看运行日志,及时完成补丁升级;通过日常巡检,及时发现故障隐患,并做相应处理。每次巡检完毕需形成巡检报告。故障排除(1)故障诊断与报修通过分析数据库系统的运行日志,判断故障类型,并根据故障原因做相应维护。如需获取软件技术支
14、持或更换故障部件,应通过电话或电子邮件报修,并积极协调维修工程师及时予以支持或进行部件更换。(2)故障处理与记录对故障处理过程进行记录,详细描述故障发生时间、设备编号、故障现象、对故障问题的基本判断、所使用的处理方法以及最终处理结果。在故障排除后应形成维修记录,并更新相应的维护档案。(3)故障统计分析定期整理已完成的设备维修报告,形成故障问题统计,并对统计结果进行趋势分析。2.1 运运维概述维概述建立知识库建立数据库系统运维知识库,实现运维知识的创建、储存、共享和应用,避免知识流失,降低运维成本,提高运维响应速度和服务质量。运维知识库主要包括:1)数据库系统运行维护流程;2)主要事件和问题的解
15、决方案;3)运维管理过程中产生的测试方案;4)技术参考资料等。2.1 运运维概述维概述2.数据库运行环境运维2.1 运维概述2.2 Exadata2.2 Exadata环境运维环境运维2.3 非Exadata环境运维2.2 Exadata环境运维实时监控与报警实时监控与报警故障防范:故障检测与主动修复相结合1.自动服务请求自动服务请求 硬件故障报警 自动生成服务请求2.Oracle 配置管理器配置管理器提取配置信息变化定制报警信息与更新提醒3.EM12c实时监控报警与故障处理相结合4.Oracle 服务服务监控补丁升级系统服务恢复的保证2.2 Exadata环境运维集成的硬件和软件视图硬件视图
16、 存储节点、计算节点和交换机的整体概要视图 硬件部件的报警情况软件和系统视图 性能、可用性、数据库、服务以及集群的资源使用情况 数据库、集群、ASM的软件报警 数据库系统/集群的拓扑图Exadata 作为 EM12c 的管理对象2.2 Exadata环境运维各部分最需要关注的问题各部分最需要关注的问题报警信息与系统问题的提醒2.2 Exadata环境运维推荐设置与调整方向推荐设置+风险分析+调整方向/步骤2.2 Exadata环境运维Exadata 计划的维护周期为了系统稳定性而计划软件更新:MOS 1461240.1更新频率更新频率行行 动动应用停机时间应用停机时间3-6 个月Update
17、Exadata Software(e.g.11.2.2.4.2 to 11.2.3.1)Zero downtimeUpdate database quarterly database patch (QDPE)Zero downtime1-2 年Update major database patch(e.g.11.2.0.2 to 11.2.0.3)Seconds to Minutes with Data Guard or GoldenGateUpdate infiniband switch softwareZero downtimeUpdate additional components(if
18、 necessary)Zero downtime2 年Replace battery in disk controllers of storage and database serversZero downtime2-4 年Update database major or maintenance release(e.g.11.2 to 11.3 or 11 to 12)Seconds to Minutes with Data Guard or GoldenGate2.2 Exadata环境运维测试方法要点测试方法要点变更验证变更验证1.Real App Testing/克隆测试DB2.在回退方
19、案支持下升级或者修复系统3.功能验证,性能验证,高可用服务级别验证4.在备用节点实施5.在生产环境实施2.2 Exadata环境运维ExadataExadata 支持服务介绍服务向导图(原厂或第三方)2.2 Exadata环境运维2.数据库运行环境运维2.1 运维概述2.2 Exadata环境运维2.3 2.3 非非ExadataExadata环境运维环境运维2.3 非Exadata环境运维运维要点运维要点配置自动的系统硬件及软件运行监控(通过Oracle EM12c配置)例行的健康巡检(每日、每周、每月/季度分别对应不同的巡检内容)系统故障类问题的处理流程文档系统性能问题的处理流程文档系统正
20、确的关闭和启动流程手册724可用的第三方技术服务联络人及联络方式定期的运维工作总结ITILITIL(Information Technology Infrastructure Library)ITSM(IT Service Management)2.3 非Exadata环境运维主机配置主机配置操作系统性能操作系统性能评估评估数据库数据库参数参数配置配置数据库数据库sqlsql*netnet配置配置数据库性能数据库性能评估评估数据库备份与恢复数据库备份与恢复机制机制检查方面检查方面具体检查内容具体检查内容硬件配置主机配置共享内存参数网络参数(For RAC)信号量操作系统中与数据库相关主要参数系
21、统配置操作系统数据库相关要求补丁硬盘可用空间CPU利用率数据库配置数据库版本数据库产品选项数据库参数运行日志和跟踪文件控制文件Redo log文件归档Redo log文件数据文件表空间回滚段管理数据库简单风险评估安全性管理数据库sql*net配置监听器的设置SQL*Net设置TNSNAMES设置数据库性能数据库各项命中率等待事件AWR统计信息分析数据库I/O性能索引/行迁移/行链接Sort信息统计Enqueue等待分析Latch分析Resource Limit分析Top SQL 语句备份数据库备份策略评估恢复根据客户要求只能检查一项数据库特别关注点检查巡检内容示例2.3 非Exadata环境运
22、维ORACLE工具RDA(REMOTE DIAGNOSTIC AGENT)进行系统信息收集。操作系统工具和命令检查操作系统。SQL命令检查数据库配置。ORACLE工具AWR进行数据库性能资料的收集。性能检测工具示例2.3 非Exadata环境运维故障类问题的处理流程示例3.3.数据库备份数据库备份容容灾灾1.数据库运行环境建设2.数据库运行环境运维大纲52数据库备份容灾数据库备份容灾自然灾害不是导致业务中断的主因3.数据库备份容灾不同的备份容灾策略可提供不同等级的保护 当出现灾难性故障时,可实现快速容灾切换 恢复速度:分钟级容灾系统 针对某些业务场景的特殊保障,适用于少部分关键核心业务场景。恢
23、复速度:秒级或分钟级应急系统 运用各类软硬件集群技术避免单点故障,全面覆盖、杜绝单点 恢复速度:分钟级高可用系统 运营防护的底线,恢复业务系统数据 恢复速度:小时级备份系统3.数据库备份容灾不同的备份容灾策略可提供不同等级的保护备份系统建设及实施要点 当出现灾难性故障时,可实现快速容灾切换 恢复速度:分钟级容灾系统 针对某些业务场景的特殊保障,适用于少部分关键核心业务场景。恢复速度:秒级或分钟级应急系统 运用各类软硬件集群技术避免单点故障,全面覆盖、杜绝单点 恢复速度:分钟级高可用系统 运营防护的底线,恢复业务系统数据 恢复速度:小时级备份系统备份应与生产数据库分别存储不同的设备上;数据库备份
24、采用全量备份+增量备份相结合的方式;如果需要节约备份存储空间,可考虑压缩备份;定期执行软件环境备份;根据业务对数据的恢复要求,制定对应的备份保留策略,确保数据库的恢复时间窗口满足业务需要。例如,保留2周内的有效备份;定期对备份策略执行情况做健康巡检;在没有配置容灾系统情况下,强烈建议定期做备份的有效性验证,降低备份失效的风险;通过测试,确认数据库恢复的完整流程以及RTO(恢复时间),形成数据库恢复的操作文档。3.数据库备份容灾不同的备份容灾策略可提供不同等级的保护高可用系统建设及实施要点 当出现灾难性故障时,可实现快速容灾切换 恢复速度:分钟级容灾系统 针对某些业务场景的特殊保障,适用于少部分
25、关键核心业务场景。恢复速度:秒级或分钟级应急系统 运用各类软硬件集群技术避免单点故障,全面覆盖、杜绝单点 恢复速度:分钟级高可用系统备份系统数据库服务器高可用方案:多节点集群,例如Oracle RAC数据库集群;存储层高可用方案:必要的存储冗余机制,例如Oracle ASM,或Raid 1+0;网络层高可用方案:两台交换机配置为active-standy或active-active模式;人为数据丢失的快速恢复方案:Oracle Database Flashback技术。3.数据库备份容灾 当出现灾难性故障时,可实现快速容灾切换 恢复速度:分钟级容灾系统 针对某些业务场景的特殊保障,适用于少部分
26、关键核心业务场景。恢复速度:秒级或分钟级应急系统高可用系统备份系统应急系统为部分或全部系统功能失效时的业务快速接管而建设;应急系统强调可靠的接管能力,以及接管后的数据零丢失或接近零丢失效果;应急系统通常部署在本地机房,或同城机房;可以考虑为数据库部署应急系统,或为整体(数据库+应用层)部署应急系统;可以考虑将应急系统与生产系统之间配置为双活架构;两套系统之间互为对方的应急系统和生产系统;Oracle Active Data Guard是Oracle数据库应急系统的最佳接管方案。不同的备份容灾策略可提供不同等级的保护应急系统建设及实施要点3.数据库备份容灾3.数据库备份容灾 当出现灾难性故障时,可实现快速容灾切换 恢复速度:分钟级容灾系统应急系统高可用系统备份系统不同的备份容灾策略可提供不同等级的保护容灾系统建设及实施要点容灾系统用于应对大型灾难导致的系统整体宕机事件,例如火灾或地震;容灾系统通常部署于同城或异地;容灾系统在接管生产时,可出现少量的数据丢失;容灾系统需要重视接管能力的可靠性,以及接管时的数据一致性保证;Oracle Active DataGuard和Oracle GoldenGate是Oracle数据库容灾系统的可选接管方案。谢谢!