1、数据生命周期管理目录目录一、工行数据管理的总体情况一、工行数据管理的总体情况二、数据生命周期管理理论与方法二、数据生命周期管理理论与方法三、工行数据生命周期管理实践三、工行数据生命周期管理实践l工行数据管理的指导思想工行数据管理的指导思想指导思想指导思想l 构建合理的数据管理组织架构和数据架构体系,做好数据治理,促进各应用系统信息高度共享,充分发挥数据价值,为经营决策提供科学依据l 做好信息标准化管理,提高数据有效性、一致性和规范性l 做好数据质量管理,确保数据的准确性l 做好数据生命周期管理,实现数据从产生到销毁的全过程规范化管理l 做好信息安全管理,确保信息不被泄露一、工行数据管理的总体情
2、况一、工行数据管理的总体情况l构建了分层的数据架构体系构建了分层的数据架构体系数据采集层数据采集层数据集成层数据集成层指标模型层指标模型层管理操作层管理操作层交易信息客户信息管理信息外部信息数据仓库风险集市数据指标绩效等经营管理系统营销等业务管理系统信息获取信息整合信息加工信息展现信息反馈及应用绩效考核客户关系管理客户经理各级管理人员高级分析用户(灵活查询)(数据挖掘)模型用户统一操作界面资本管理、操作风险管理等风险管理系统灵活查询一、工行数据管理的总体情况一、工行数据管理的总体情况l数据采集层数据采集层p采集的数据主要包括客户信息、交易信息、管理信息和外部信息,这些信息有些是客户和行内人员手
3、工录入,有些是从外部批量导入。n 客户信息、交易信息客户信息、交易信息主要从对客和自营业务系统收集,对客和自营业务系统收集,包括存贷结算基本业务、银行卡业务、代理与投资业务、金融市场业务、信贷管理与单证业务、托管业务、投行业务等系统。n 管理信息主要从内部管理系统收集,管理信息主要从内部管理系统收集,包括资讯平台、制度园地、人力资源管理、分支机构管理、办公管理等系统。n 外部信息外部信息主要包括监管机构提供的信息(如征信信息、风险提示信息等)、行业信息、外部报价信息等。一、工行数据管理的总体情况一、工行数据管理的总体情况l数据基础层(建立数据仓库和数据集市)数据基础层(建立数据仓库和数据集市)
4、p为了对客户行为和业务管理进行科学分析和预测,需要建立集合各类业务数据为一体的数据仓库,进行面向各类主题的数据统计和挖掘分析,为市场营销和管理决策提供科学依据。p工商银行在2002年完成数据大集中之后,就已经意识到数据对于银行经营管理的重要作用,在姜建清董事长等行领导的关心指导下,开始着手数据仓库建设工作。10来年,工商银行数据仓库建设稳扎稳打,已成为各类业务数据集中存储的重要载体和关键基础平台。一、工行数据管理的总体情况一、工行数据管理的总体情况l指标模型层指标模型层p指标模型层主要包括指标和模型两部分p指标部分目前主要建立了面向绩效的全行指标库,包含总行、分行的指标需求,支持分行自行定制分
5、行特色指标。全行指标全行指标分行特色指标分行特色指标全行指标库全行指标库分行定性指标、同业指标分行定性指标、同业指标基于总行基础指标进行衍生基于总行基础指标进行衍生基于科目定制分行指标基于科目定制分行指标分行客户归属规则、网银业绩归属规则分行客户归属规则、网银业绩归属规则一、工行数据管理的总体情况一、工行数据管理的总体情况l指标模型层(模型部分)指标模型层(模型部分)p模型是实现各类共用指标成熟的计算方法,主要用来规范和统一各类指标的计算,达到方法共享和提高数据一致性的目的。p目前已经实现的模型包括如下内容:n 客户评价模型n 产品定价模型n 绩效评估模型n 风险计量模型n 财务预算模型n。一
6、、工行数据管理的总体情况一、工行数据管理的总体情况l管理操作层管理操作层p主要面向客户服务和内部经营管理,包括客户营销、资本管理、资产与负债管理、信用风险管理、操作风险管理、市场风险管理、绩效考核管理、内部审计与合规管理等。管理操作层的基础数据主要来自各个业务系统,有些统计指标类数据是经数据仓库加工提供。p为满足日常经营管理,提供了以固定报表为主的综合报表统计平台。p为便于突发性和临时查询需要,提供了基于数据仓库的灵活查询功能。p为规范对外数据报送,建立了统一的对外数据报送平台。一、工行数据管理的总体情况一、工行数据管理的总体情况二、数据生命周期管理理论与方法数据质量管理平台业务管理办法永久保
7、存:数据从产生开始一直在生产系统中保存,此类数据不需要进行清理。离线归档后不提供信息联机访问接口,如有相应的查询要求,需特定的查询工具或将归档数据导入相应系统离线归档:查询频度相对较低的数据,通过光盘或磁带等介质保存数据,用户无法在线访问,需通过恢复光盘或磁带介质。工行数据管理的指导思想清理后数据的查询、展现和导出。综合档案服务于有非结构化数据的业务处理系统和相应业务部门,实现业务处理的非结构化数据的统一管理并提供了查询服务。为便于突发性和临时查询需要,提供了基于数据仓库的灵活查询功能。每月在进行新的数据表的清理工作时,会对涉及的表的生命周期管理策略进行确认,以确保数据清理的正确、合理。借鉴国
8、际先进数据模型,对工行的各应用系统数据进行提炼和分类,在数据生命周期的各个阶段制定了有效的管理策略。各信息项应该采用统一规范的命名客户信息、交易信息主要从对客和自营业务系统收集,包括存贷结算基本业务、银行卡业务、代理与投资业务、金融市场业务、信贷管理与单证业务、托管业务、投行业务等系统。离线归档:查询频度相对较低的数据,通过光盘或磁带等介质保存数据,用户无法在线访问,需通过恢复光盘或磁带介质。(数据备份与保存阶段)做好历史数据管理,为客户服务和经营分析提供数据支撑。分行定性指标、同业指标三、工行数据生命周期管理实践从数据录入、内部处理入手,把好数据质量“入口关”。一、工行数据管理的总体情况一、
9、工行数据管理的总体情况l信息标准化管理信息标准化管理p工行信息标准化工程n 工行从2010年开始启动工行信息标准化工程,目标是建立“定义统一、口径统一、名称统一、来源统一、参照统一”的工行信息标准,使各个应用系统内部、及系统间的数据交互能够遵循相同的数据标准,从而显著降低信息使用成本,增强信息的一致性、标准性、权威性和共享性。n 目前已建立700多项基础信息标准,900多项指标标准。一、工行数据管理的总体情况一、工行数据管理的总体情况l信息标准化建设总体目标信息标准化建设总体目标2.2.有效性:有效性:信息准确度高、理解上不存在歧义。1.1.完整性:完整性:涵盖客户、机构、产品、帐户等银行全部
10、重要信息3.3.一致性:一致性:做到“五统一”。5.5.开放性:开放性:行内标准与国家标准、国际标准可翻译、可对照。4.4.规范性:规范性:制度规范、流程控制、系统管理等。6.6.共享性:共享性:标准化信息在工行内共享使用。总体目标:通过统一信息标准制定、发布使用、制度约束、总体目标:通过统一信息标准制定、发布使用、制度约束、系统控制等手段,系统控制等手段,实现工行信息的完整性、有效性、一致性、规实现工行信息的完整性、有效性、一致性、规范性、开放性和共享性管理,范性、开放性和共享性管理,提高工行信息化水平。提高工行信息化水平。4 来源统一对于已经标准化的数据,其来源应该有且只有一个2 口径统一
11、对于有数量表达的信息标准,计算口径必须要统一3 名称统一各信息项应该采用统一规范的命名 定义统一同一信息项的业务含义和所适用的业务场景保持一致15 参照统一工行标准和行外各类标准的衔接应建立明确的对应关系一、工行数据管理的总体情况一、工行数据管理的总体情况l信息标准化建设原则信息标准化建设原则p信息标准化是“统一语言、统一计量”的过程,遵循“五统一”原则数据质量管理体系数据质量管理制度n数据质量考核办法及实施细则n数据质量管理平台业务管理办法n数据质量技术规范数据质量考核监督n纳入分行内控评价体系和行长绩效考核n建立数据质量定期通报机制n操作风险管理委员会定期审议一、工行数据管理的总体情况一、
12、工行数据管理的总体情况l数据质量管理数据质量管理3、做好规范管理、做好规范管理完善制度、规范流程、系统硬控制,把好数据质量“流转关”。2、督促问题治理、督促问题治理部署检查规则,实现问题数据发现、分发、治理、监督、考核闭环管理,把好数据质量“治理关”。1、从源头治理、从源头治理从数据录入、内部处理入手,把好数据质量“入口关”。一、工行数据管理的总体情况一、工行数据管理的总体情况l数据质量管理流程数据质量管理流程l数据安全管理数据安全管理p为了加强数据安全管理,工行制定了数据管理办法和数据管理办法实施细则,明确了各环节的数据安全管理要求,并采取了一些技术手段进行硬控制。p数据安全的主要管理要求:
13、n 使用生产数据必须经过申请和审批,开发测试环境使用生产数据必须进行数据变形。n 涉及敏感信息的生产数据的传输必须采用加密处理或使用专用邮箱、专用FTP服务器传输等。n 对生产用户进行严格授权管理,防范非授权访问生产数据。n 对生产数据建立和实施严格的备份机制。对数据保存介质进行分类登记,及时进行清理和转存。一、工行数据管理的总体情况一、工行数据管理的总体情况目录目录一、工行数据管理的总体情况一、工行数据管理的总体情况二、数据生命周期管理理论与方法二、数据生命周期管理理论与方法三、工行数据生命周期管理实践三、工行数据生命周期管理实践二、数据生命周期管理理论与方法二、数据生命周期管理理论与方法l
14、背景情况背景情况p早期银行的金融产品相对较少,主要是以存贷汇为主,且数据是以省(市)为单位分布存放,数据量相对较少;此外由于还还没有数据集中分析挖掘的需求,日常处理对象主要是短期之内的数据,时间跨度小,处理的数据规模相对可控。p随着各家银行实施了数据大集中,集中存放和处理的数据量急剧增加,例如工行目前核心银行数据已达150T,数据仓库存放的数据已达185T;同时随着各类业务的快速发展,银行每天都在产生大量的数据,并需要对这些数据进行分析挖掘,系统资源开销和运行效率都面临着越来越大的压力。p为控制在线数据规模、保证应用系统健康高效运行,对数据从创建到最终销毁的生命周期进行全程管理显得越来越迫切。
15、l数据生命周期管理的目标数据生命周期管理的目标p通过规范数据的生命周期管理,提高数据的整体管理水平。p优化数据存储结构,有效控制在线数据规模,提高生产数据访问效率。p提高系统资源使用效率,确保系统安全、稳定、高效运行。p做好历史数据管理,为客户服务和经营分析提供数据支撑。二、数据生命周期管理理论与方法二、数据生命周期管理理论与方法二、数据生命周期管理理论与方法二、数据生命周期管理理论与方法l数据生命周期的基本原理数据生命周期的基本原理p数据访问频度与数据量的变化会随着时间的迁移而呈反比例变化l 利用随时间积累,数据访问频次变化和数据量累积变化成反比这一客观规律,对数据根据访问频次进行数据价值评
16、估,对大量低价值信息采取低成本的数据保存手段,使数据的价值和存储的技术和管理相匹配,进而大幅降低整体数据存储成本;l数据生命周期管理的总体原则数据生命周期管理的总体原则p在数据的整个生命周期中,不同阶段的数据其性能、可用性、保存等要求也不一样。n 通常情况下,在其生命周期初期,数据的使用频率较高,需要使用高速存储,确保数据的高可用性。n 随着时间的推移,数据重要性会逐渐降低,使用频率会随之下降,应将数据进行不同级别的存储,为其提供适当的可用性、存储空间,以降低管理成本和资源开销。n 最终大部分数据将不再会被使用,可以将数据清理后归档保存,以备临时需要时使用。二、数据生命周期管理理论与方法二、数
17、据生命周期管理理论与方法对于进行批量清理的数据,按固定周期进行清理;保存一段时间后清理:数据被标记为失效或过期后在系统中保存一段时间后进行清理。建立数据质量定期通报机制三、工行数据生命周期管理实践借鉴国际先进数据模型,对工行的各应用系统数据进行提炼和分类,在数据生命周期的各个阶段制定了有效的管理策略。数据访问频度与数据量的变化会随着时间的迁移而呈反比例变化一、工行数据管理的总体情况(数据备份与保存阶段)操作风险管理委员会定期审议二、数据生命周期管理理论与方法离线归档后不提供信息联机访问接口,如有相应的查询要求,需特定的查询工具或将归档数据导入相应系统一致性:做到“五统一”。归档阶段永久保存:数
18、据从产生开始一直在生产系统中保存,此类数据不需要进行清理。模型是实现各类共用指标成熟的计算方法,主要用来规范和统一各类指标的计算,达到方法共享和提高数据一致性的目的。从数据录入、内部处理入手,把好数据质量“入口关”。工行在各个环节注重数据生命周期管理,并对工具和系统不断进行优化,提升数据清理工作成效;建立了数据生命周期管理体系制定了全行统一的数据生命周期管理技术规范,并配套发布了一系列数据清理工具,根据规范制定的策略定期进行清理,并将清理的数据归档到历史数据管理应用中。l数据生命周期管理流程数据生命周期管理流程二、数据生命周期管理理论与方法二、数据生命周期管理理论与方法说明:说明:在线归档阶段
19、(也被称为近线阶段):将访问频度较低且应用需求不高的数据从应用中分离出来,保存在另外的磁盘并提供相应的查询;离线归档阶段:将访问频度较低且应用需求不高的数据从应用中分离出来,保存在磁带、光盘及低端磁盘上。离线归档后不提供信息联机访问接口,如有相应的查询要求,需特定的查询工具或将归档数据导入相应系统l数据生命周期管理流程数据生命周期管理流程p数据各生命阶段的管理策略数据各生命阶段的管理策略数据生命阶段数据生命阶段管理策略管理策略 在线阶段在线阶段(数据产生与使用阶段)(数据产生与使用阶段)永久保存:永久保存:数据从产生开始一直在生产系统中保存,此类数据不需要进行清理。保存一段时间后清理保存一段时
20、间后清理:数据被标记为失效或过期后在系统中保存一段时间后进行清理。归档阶段归档阶段(数据备份与保存阶段)(数据备份与保存阶段)在线归档在线归档:查询频度仍相对较高的数据,通过数据库形式保存数据,用户仍可以通过系统在线查询;部分数据通过在线归档一段时间后进入离线归档阶段。离线归档离线归档:查询频度相对较低的数据,通过光盘或磁带等介质保存数据,用户无法在线访问,需通过恢复光盘或磁带介质。销毁阶段销毁阶段(数据被销毁至消失)(数据被销毁至消失)物理删除磁盘和磁带上的数据,销毁光盘介质。二、数据生命周期管理理论与方法二、数据生命周期管理理论与方法目录目录一、工行数据管理的总体情况一、工行数据管理的总体
21、情况二、数据生命周期管理理论与方法二、数据生命周期管理理论与方法三、工行数据生命周期管理实践三、工行数据生命周期管理实践l建立了数据生命周期管理体系建立了数据生命周期管理体系p工行数据生命周期管理从组织建设、制度规范、系统工具、日常管理各方面开展相关工作。p制定了全行统一的数据生命周期管理技术规范,并配套发布了一系列数据清理工具,根据规范制定的策略定期进行清理,并将清理的数据归档到历史数据管理应用中。三、工行数据生命周期管理实践三、工行数据生命周期管理实践三、工行数据生命周期管理实践三、工行数据生命周期管理实践l数据生命周期管理技术规范数据生命周期管理技术规范总体情况总体情况p规范建立了统一的
22、对所有数据的有效期管理的具体标准、方案、指引和制度,是数据管理的指导方针,提高了数据管理工作的统一性、系统性、全面性和科学性p规范改变了以往根据磁盘容量和依赖于技术人员经验的状况,使全行有了科学统一的数据管理标准,减少了因数据保留时间不当而出现应用风险,使中国工行的各类业务系统可以更好、更稳定地为广大客户提供优质地服务。三、工行数据生命周期管理实践三、工行数据生命周期管理实践l规范主要内容规范主要内容p借鉴国际先进数据模型,对工行的各应用系统数据进行提炼和分类,在数据生命周期的各个阶段制定了有效的管理策略。p将工行的应用系统按产品线(共20类)进行划分,并在此基础上对各产品线的数据类别进行了确
23、认;规定了各产品线各类数据的数据有效期,建立了完整的数据有效期管理工作规范体系,确立指导工行各类数据的基本管理原则和具体应遵循执行的各种办法三、工行数据生命周期管理实践三、工行数据生命周期管理实践l 规范主要内容规范主要内容p 数据清理原则数据清理原则 n 业务处理层联机交易数据不应直接进行物理删除操作,要通过相关标志位、最后更新时间等字段实现逻辑删除,对于无法实现逻辑删除的联机交易数据,应重新设计以满足逻辑删除要求;物理删除要通过本规范制定的数据生命周期按统一策略进行清理。n 数据进行清理时,各应用应记录清理的相关信息(包括清理的表名、清理时间、清理数据量)。n 数据清理时,应考虑清理数据对
24、系统的影响,比如考虑重建索引、重组等相关事项。三、工行数据生命周期管理实践三、工行数据生命周期管理实践l 规范主要内容规范主要内容p 数据清理周期数据清理周期 n 对于进行批量清理的数据,按固定周期进行清理;n 对保留时间在1月以内的数据,清理周期不宜超过1月;n 对于保留时间在2年以内的数据,清理周期不应超过保留时间的1/2;n 对于保留时间在2年以上的数据,清理周期不应超过1年。三、工行数据生命周期管理实践三、工行数据生命周期管理实践l数据生命周期规范的执行数据生命周期规范的执行p工行应用系统的建设从需求编制开始就关注数据生命周期的管理,在系统设计、开发、测试、运维各个始终按照规范要求,有
25、效贯彻数据清理工作的精神。主 要 数 据 表的 生 命 周 期管 理 策 略 制定所有新建和修改表的数据生命周期管理策略的等级和修改清 理 工 具 和程 序 的 编 制、策 略 的 导入以及测试数 据 清 理 工作 的 执 行、清 理 信 息 的收 集、分 析和展现清理工作的确认和检查设计人员设计、开发人员开发、测试人员运维人员清 理 后 数 据的 查 询、展现和导出。技术管理人员三、工行数据生命周期管理实践三、工行数据生命周期管理实践l数据生命周期规范的执行(续)数据生命周期规范的执行(续)p 清理工作的确认和检查n 工行会定期对数据生命周期管理相关工作进行检查、确认。n 对于数据生命周期管
26、理策略,每季度会对设计情况、数据生命周期管理策略填写情况进行抽查,确保策略的正确性;n 每月在进行新的数据表的清理工作时,会对涉及的表的生命周期管理策略进行确认,以确保数据清理的正确、合理。三、工行数据生命周期管理实践三、工行数据生命周期管理实践l系统工具系统工具p工行开发了相关系统和工具,确保可以根据规范制定的数据生命周期管理策略进行统一执行;p工行在各个环节注重数据生命周期管理,并对工具和系统不断进行优化,提升数据清理工作成效;p对清理后的数据陆续纳入系统,实现清理数据的在线归档,并提供有效查询。p工行拟建立清理集中管理平台,实现清理信息的有效收集,提供分析和统计。l元数据及软件资源管理系
27、统(元数据及软件资源管理系统(SEAS)pSEAS实现了填写的数据生命周期管理在提交前会自动进行策略校验,对于不符合逻辑的策略会进行提醒要求修改;pSEAS实现了数据表新增时各项信息的审批功能,在系统控制的基础上再增加人工确认,进一步确保信息的准确性。三、工行数据生命周期管理实践三、工行数据生命周期管理实践在线归档:查询频度仍相对较高的数据,通过数据库形式保存数据,用户仍可以通过系统在线查询;一、工行数据管理的总体情况数据清理时,应考虑清理数据对系统的影响,比如考虑重建索引、重组等相关事项。分行客户归属规则、网银业绩归属规则一、工行数据管理的总体情况10来年,工商银行数据仓库建设稳扎稳打,已成
28、为各类业务数据集中存储的重要载体和关键基础平台。建立了数据生命周期管理体系离线归档后不提供信息联机访问接口,如有相应的查询要求,需特定的查询工具或将归档数据导入相应系统开放性:行内标准与国家标准、国际标准可翻译、可对照。永久保存:数据从产生开始一直在生产系统中保存,此类数据不需要进行清理。对数据保存介质进行分类登记,及时进行清理和转存。为了对客户行为和业务管理进行科学分析和预测,需要建立集合各类业务数据为一体的数据仓库,进行面向各类主题的数据统计和挖掘分析,为市场营销和管理决策提供科学依据。共享性:标准化信息在工行内共享使用。主要数据表的生命周期管理策略制定做好历史数据管理,为客户服务和经营分
29、析提供数据支撑。二、数据生命周期管理理论与方法物理删除要通过本规范制定的数据生命周期按统一策略进行清理。归档阶段对于进行批量清理的数据,按固定周期进行清理;对于保留时间在2年以内的数据,清理周期不应超过保留时间的1/2;各信息项应该采用统一规范的命名l电子影像及文档服务平台及综合档案管理电子影像及文档服务平台及综合档案管理p电子影像及文档服务平台是工行各类事中、事后类业务系统电子影像档案的统一存储平台,并为各类业务产生的各种非结构化数据(主要是影像资料、word、excel)进行集中保管,并提供了查询服务。p综合档案管理系统存储的结构化数据主要为非结构化数据的查询索引服务,与电子影像及文档服务平台进行配合,完成非结构化数据的归档、存储、查询、调阅等功能;p综合档案服务于有非结构化数据的业务处理系统和相应业务部门,实现业务处理的非结构化数据的统一管理并提供了查询服务。三、工行数据生命周期管理实践三、工行数据生命周期管理实践