1、金税三期工程金税三期工程1金税三期工程金税三期工程数据架构蓝图设计方案数据架构蓝图设计方案V1.0V1.0汇报人:总体规划设计项目组汇报人:总体规划设计项目组金税三期工程金税三期工程2目目 录录1 1、概述、概述2 2、数据分布、数据分布3 3、数据交换与共享、数据交换与共享4 4、元数据、元数据5 5、数据治理、数据治理6 6、通用数据标准、通用数据标准金税三期工程金税三期工程3数据架构的目标数据架构的目标p以科学的信息资源观和规划理念,基于合理设计的应用系统的体系结构,并以信息利用能力为目标,构建全局化、规范、统一的数据架构,提高应用系统运行性能,提升税收数据的分析利用价值信息资源(信息资
2、源(Information ResourcesInformation Resources)与人、财、物资源一样,都是企业的重要资源,)与人、财、物资源一样,都是企业的重要资源,金税三期工程金税三期工程41.功能性:满足当前应用的需要。2.灵活性:适应应用功能在一定范围内的调整和扩展。3.长期性:业务数据一旦形成,保证在后续任意时段的可利用。4.前瞻性:为后续新业务提供支持。5.增值性:服务社会,服务国民经济。数据架构规划原则数据架构规划原则增值性前瞻性功能性灵活性长期性数据架构规划数据架构规划金税三期工程金税三期工程5数据架构定位数据架构定位1、数据架构位于应用架构和基础技术架构之间,承上启下
3、。2、应用架构的输出,是数据架构重要、核心的输入;数据架构规划是应用架构落地过程中的重要支撑。3、数据架构中数据逻辑分布尽量遵从于业务架构和应用分布。4、数据架构中的数据物理分布是从技术视角看逻辑分布,结合数据库技术、灾备等,给出相应的规划方案。5、数据物理分布中的技术发展可能带来数据逻辑分布的优化,从而促进应用架构的完善和改进。金税三期工程金税三期工程6架构规划内容架构规划内容数据架构规划的关键内容包括数据分类、数据逻辑分布、数据物理分布、数据共享交换、数据治理、数据标准数据架构规划内容数据架构规划内容n数据分类数据分类 从多个角度包括业务、数据生命周期和数据本身特点对税收产生的数据进行分类
4、,从而分数据的分布夯实基础;n数据逻辑分布数据逻辑分布 从逻辑的角度对业务环节产生的数据进行合理的规划;n数据物理分布数据物理分布 基于逻辑分布和应用架构的划分,从技术的角度对数据的落地进行详细的规划、分析和合理布局,支撑应用落地和解决全国大集中性能问题;数据交换共享数据交换共享 从总局与外部,总局与省局,总局内部各部门间出发,规划数据交换共享的机制和内容 数据治理数据治理 从数据的生命周期管理、数据质量管理和数据安全三面进行规划;数据标准数据标准 简单规划数据标准内容体系;金税三期工程金税三期工程7工作思路工作思路金税三期工程金税三期工程8现状分析现状分析p缺乏统一的规划,多以迅速实现功能为
5、主要目的,缺乏从全局的考虑,造成了缺乏统一的规划,多以迅速实现功能为主要目的,缺乏从全局的考虑,造成了数据孤岛、多头采集、业务数据分散、标准不一等问题。数据孤岛、多头采集、业务数据分散、标准不一等问题。p数据达不到全面性、规范性、一致性的要求,降低了内部管理的效率,不能为数据达不到全面性、规范性、一致性的要求,降低了内部管理的效率,不能为决策分析提供严谨、全面、细致的数据基础;决策分析提供严谨、全面、细致的数据基础;p数据的实时监控能力不强,缺乏掌握全面、及时信息的渠道,无法满足数据的实时监控能力不强,缺乏掌握全面、及时信息的渠道,无法满足“信息信息管税管税”的业务发展趋势,缺少对全国数据的高
6、效利用、业务集成度要求不断提的业务发展趋势,缺少对全国数据的高效利用、业务集成度要求不断提高的支持。高的支持。金税三期工程金税三期工程9数据架构的需求数据架构的需求1.全国国地税税收生产数据在总局集中存储和处理,生产数据的第一次落地点在总局。2.满足应用系统间的松耦合性,实现应用系统间的故障隔离。3.建立数据共享、交换的机制,明确数据内容,保障数据的时效性。4.建立数据全生命周期管理机制,保证系统持续稳定高效地运行。5.建立完备的数据仓库体系,为面向管理决策的应用奠定基础。金税三期工程金税三期工程10目目 录录1 1、概述、概述2 2、数据分布、数据分布3 3、数据交换与共享、数据交换与共享4
7、 4、元数据、元数据5 5、数据治理、数据治理6 6、通用数据标准、通用数据标准金税三期工程金税三期工程11目目 录录p数据分布数据分布数据分类数据分类数据分布内容数据分布内容典型场景典型场景金税三期工程金税三期工程12p 按业务环节进行分类按业务环节进行分类 数据分类方式数据分类方式数据分类数据分类税务数据分类就是满足各种数据对数据组织的要求,并独立于具体的数据模型和数据分布p 按生命周期进行分类按生命周期进行分类 p 按数据结构进行分类按数据结构进行分类 金税三期工程金税三期工程13举例:按业务环节进行分类举例:按业务环节进行分类业务环节业务环节数据子类数据子类数据内容描述数据内容描述税务
8、登记法人基本信息法人的基本信息、状态和关系税务认定税(费)核定信息纳税人应纳税(费)的税(费)种、税(费)目、税(费)率、征期类型、申报期限、纳税(费)期限、征收方式、预算科目、预算级次、金库名称等信息税收优惠优惠信息纳税人享受的各类优惠信息,包括减(抵)免税、税前扣除、增值税即征即退等信息发票税务机关进销存信息税务机关的库存信息,包括发票计划、入库、调拨、核销等信息凭证信息发票计划表、发票出入库单等申报申报信息各种申报记录,包括自行申报、委托代征申报、代扣代缴申报、个人所得税申报等征收应征信息应该征收的税费信息计会统税收计划信息各类税收收入、规费收入计划明细税务稽查稽查案件信息税务稽查案源、
9、案件的基本信息法制违章类文书责令限期改正通知书等评估审计过程信息纳税评估流程数据、国际情报交换流程数据、特别纳税调整流程数据、纳税人纳税信誉等级认定流程数据纳税服务拓展业务信息通过纳税服务渠道向纳税人采集的民意调查、服务评价、投诉举报等信息外部门交换外部门信息从银监会、组织机构代码中心、工商、公安、统计、海关、国库、银行等外部门交换到税务系统的业务数据,包括税款上解入库信息、企业财务报表、企业银行账号、组织机构代码、工商登记、海关报关单等信息CA认证身份认证信息内外部业务工作平台对税务人员和纳税人进行身份认证所需的各类信息决策支持分析主题数据按照各个分析主题进行组织的业务数据金税三期工程金税三
10、期工程14举例:按生命周期进行分类举例:按生命周期进行分类生命周期生命周期数据子类数据子类数据内容描述数据内容描述渠道数据身份认证信息内外部业务工作平台对税务人员和纳税人进行身份认证所需的各类信息比对差异信息税务系统与外部门数据进行比对后产生的差异信息生产数据法人基本信息法人的基本信息、状态和关系自然人基本信息自然人的基本信息、状态和关系扣缴义务人信息扣缴义务人的基本登记信息税务机关进销存信息税务机关的库存信息,包括发票计划、入库、调拨、核销等信息统一视图基于税务整体企业级数据模型组织后的细粒度业务数据,并按照(法人、自然人、发票、风险、税务机构、法规、第三方信息等领域)梳理并整合成统一的数据
11、视图管理决策分析数据 分析主题数据按照各个分析主题进行组织的业务数据指标维度数据用于数据分析的各类指标和维度数据,包括税源分析指标、征管质量与数据质量分析指标、成本分析指标、社会满意度分析指标等税源分析汇总数据包括收入分析、宏观税源分析、微观税收分析、重点税源分析、税收收入趋势分析、税源管理能力平均分析等。报表数据税务系统产生的各类涉税报表数据,包括税收征管、流转税、所得税、计会统、国际税收、税收法制、税务稽查、出口退税等9类报表的明细数据历史数据 在线历史数据征管操作数据的在线历史库离线归档数据按归档年限进行归档的各类业务明细数据和统计数据金税三期工程金税三期工程15举例:按数据结构进行分类
12、举例:按数据结构进行分类生命周期生命周期数据子类数据子类数据内容描述数据内容描述结构化数据业务数据存储在关系数据库中的各类生产数据和分析数据非结构化数据XML凭证按XML结构保存的各类文书凭证信息影像资料通过影像设备采集的各类文书凭证的影像信息内外网站多媒体资料包括PDF文件、图片、语音、视频,地理信息等金税三期工程金税三期工程16目目 录录p数据分布数据分布数据分类数据分类数据分布内容数据分布内容典型场景典型场景金税三期工程金税三期工程17p分析应用系统划分、各个应用系统的特性p分析应用系统之间的数据关系p结合数据分类,将数据划为不同的数据存储集合,形成数据的合理分布架构数据分布数据分布数据
13、分布数据的物理分布数据的逻辑分布金税三期工程金税三期工程18数据逻辑分布原则数据逻辑分布原则p当期数据与历史数据分离当期数据与历史数据分离p操作数据与查询数据分离,减少生产系统压力操作数据与查询数据分离,减少生产系统压力p生产数据与分析数据按不同的数据组织方式分离生产数据与分析数据按不同的数据组织方式分离p体现数据的生命周期管理需求:数据的产生、数据的采集、体现数据的生命周期管理需求:数据的产生、数据的采集、数据的加工,数据的利用和数据的归档几个阶段数据的加工,数据的利用和数据的归档几个阶段金税三期工程金税三期工程19数据逻辑分布框架图数据逻辑分布框架图金税三期工程金税三期工程20数据逻辑分布
14、框架图数据逻辑分布框架图记录当期业务活动发生过程和结果的数据包括与当期操作数据的同构但保留更长时间的数据、实时查询统计和报表所需辅助数据、税源管理数据、按各省清分后的数据通过影像设备采集的各类文书凭证的影像信息和在业务环节中采集或生成的原始业务凭证资料电子明细信息具有高业务价值、跨各业务域被共享使用的核心数据面向业务主题、集成的、历史的细粒度数据面向管理决策分析主题、集成的、历史的、按多个维度深度加工的数据包括在线操作历史数据、脱机存放的历史数据描述流程、信息和对象的数据,涉及数据的技术属性、业务定义以及操作特征金税三期工程金税三期工程21术语说明术语说明p 生产数据:生产数据:n 当期操作数
15、据:记录当期业务活动发生过程和结果的数据;n 近期操作数据:包括与当期操作数据同构但保留更长时间的数据、实时查询统计和报表所需辅助数据、税源管理数据、按各省清分后的数据;n 主数据:具有高业务价值、跨各业务域被共享使用的核心数据;n 凭证数据:在业务环节中采集或生成的原始业务凭证资料电子明细信息;n 影像数据:通过影像设备采集的各类文书凭证的影像信息;p 分析型数据:n 统一视图:面向业务主题、集成的、历史的细粒度数据;n 管理决策分析数据:面向管理决策分析主题、集成的、历史的、按多个维度深度加工的数据;p 历史数据:包括在线操作历史数据、脱机存放的历史数据;p 元数据:描述数据的数据,即描述
16、流程、信息和对象的数据。涉及数据的技术属性、业务定义以及操作特征金税三期工程金税三期工程22数据逻辑分布图数据逻辑分布图金税三期工程金税三期工程23逻辑分布数据内容描述逻辑分布数据内容描述组成子类具体内容渠道数据外部交换数据税库银数据、出口退税报关数据、组织机构代码数据纳税服务数据网上税局、12366、企业端、自助终端、纳税人关系管理内部系统管理数据涉税数据、税务人员身份以及权限数据征管生产数据当期征管操作数据登记、申报、征收、发票、票证、稽查法制凭证影像数据登记表、申报表、出口退税申请表、影像资料等主数据纳税人基本信息、纳税人公共状态、代码数据近期征管操作数据包括与当期操作数据同构但保留更长
17、时间的数据、实时查询统计和报表所需辅助数据、风险处理数据、按各省清分后的数据管理决策数据统一视图法人、自然人、税务机关、大企业、发票、财产、外部信息、知识库管理决策分析数据数据仓库数据、数据集市数据历史数据在线历史数据征管生产数据在一定规则下迁移成历史业务明细数据离线归档数据历史业务明细数据在一定规则下迁移成归档数据金税三期工程金税三期工程24数据物理分布原则数据物理分布原则p 生产数据和分析数据分离p 结构化数据和非结构化数据分离p 不同生命周期的数据分别存放p 数据大集中的性能分担 降低当期交易数据库的数据量 根据业务内聚性,同一业务域的数据尽量放在同一库中 满足业务操作的同时,平衡数据查
18、询的代价 在分的同时,平衡数据交换和共享的代价 在合的同时,平衡应用分包管理的复杂度金税三期工程金税三期工程25物理分布设计的关注点物理分布设计的关注点1.数据的生命周期,与各层的对应2.如何保障申报征收/发票业务的效率,满足高并发性3.查询效率如何解决4.在数据共享和交换时,如何保证业务的连续性,解决应用系统间的故障隔离问题5.如何解决省局决策分析和其他增值业务的数据获取、使用的问题。6.与数据模型、数据标准的关系,支持度如何7.关键点的技术考虑,产品选型的风险金税三期工程金税三期工程26数据物理分布总图数据物理分布总图ETLETL金税三期工程金税三期工程27数据物理分布总图数据物理分布总图
19、金税三期工程金税三期工程28数据物理分布总图数据物理分布总图金税三期工程金税三期工程29数据物理分布总图数据物理分布总图金税三期工程金税三期工程30数据物理分布总图数据物理分布总图主数据主数据管理管理金税三期工程金税三期工程31主数据管理内容主数据管理内容税务主数据是指纳税人基本信息、纳税人公共状态信息等税务核心业务实体的数据,这些信息一般被多个应用系统共享使用。借鉴应用划分的U/C矩阵方法,以征管业务操作平台为例,如下表所示:通过上面的分析我们得出,金税三期主数据为:纳税人基本信息:纳税人识别号、纳税人名称、登记注册类型等;纳税人基础状态信息:纳税人登记状态、增值税一般纳税人资格、纳税人信用
20、等级、防伪税控纳税人资格、出口退税纳税人资格、是否具有其它资格、定期定额征收、减免优惠标志、稽查案件未结、违法违章未处理等;代码金税三期工程金税三期工程32主数据管理方案主数据管理方案如图所示,各系统间已与主数据库建立发布和订阅的实时数据同步。1.某个业务系统触发对主数据的改动;2.主数据管理系统将整合之后完整、准确的主数据分发给所有有关的应用系统;3.任何系统在主数据库改动纳税人信息等主数据后,主数据库向其它系统传递新的纳税人信息等主数据。所有数据更新在实时的情况下进行。4.新的应用系统可以直接使用主数据库,获取完整全面的纳税人基本信息等主数据。并可以在主数据库中直接添加、修改数据,通过发布
21、和订阅把修改数据传递给其它系统5.各系统间的纳税人基本信息等主数据实时地同步,保证了数据的完整和一致金税三期工程金税三期工程33数据物理分布数据物理分布-核心生产库说明核心生产库说明金税三期工程金税三期工程34数据物理分布数据物理分布-核心生产库说明核心生产库说明金税三期工程金税三期工程35数据物理分布数据物理分布-核心生产库说明核心生产库说明金税三期工程金税三期工程36数据物理分布数据物理分布-核心生产库说明核心生产库说明金税三期工程金税三期工程37数据物理分布数据物理分布-核心生产库说明核心生产库说明金税三期工程金税三期工程38征管生产数据库群(一)征管生产数据库群(一)p 属前台生产数据
22、,通过各种渠道从纳税人处采集,包括相关流程数据,覆盖税务登记属前台生产数据,通过各种渠道从纳税人处采集,包括相关流程数据,覆盖税务登记、认定、优惠、申报、征收、发票内外部管理、个税等业务环节;、认定、优惠、申报、征收、发票内外部管理、个税等业务环节;p 业务环节中产生的各类凭证,独立存储在凭证库中;业务环节中产生的各类凭证,独立存储在凭证库中;p 面向增、删、改类型操作,特点为数据量大,增长快,交易并发量高,访问更新频繁面向增、删、改类型操作,特点为数据量大,增长快,交易并发量高,访问更新频繁,事务小,需要实时响应;,事务小,需要实时响应;p 支持纳税人管理、申报征收、发票管理应用;支持纳税人
23、管理、申报征收、发票管理应用;p 申报征收库当前设计是一个库,后续将根据大集中试运行后的性能状况决定是否按区申报征收库当前设计是一个库,后续将根据大集中试运行后的性能状况决定是否按区域分库,最小单位为省。域分库,最小单位为省。金税三期工程金税三期工程39征管生产数据库群(二)征管生产数据库群(二)p 后台生产数据,主要由税务人员在处理风险类业务时采集,以流程类数据为后台生产数据,主要由税务人员在处理风险类业务时采集,以流程类数据为 主,覆盖评估审计、纳税人信用等级、稽查、法制等业务环节;主,覆盖评估审计、纳税人信用等级、稽查、法制等业务环节;p 业务环节中产生的各类凭证,独立存储在凭证库中;业
24、务环节中产生的各类凭证,独立存储在凭证库中;p 面向增、删、改类型操作,特点为数据量小,增长缓慢,访问更新频度低;面向增、删、改类型操作,特点为数据量小,增长缓慢,访问更新频度低;p 支持纳税评估、稽查、法制应用;支持纳税评估、稽查、法制应用;金税三期工程金税三期工程40征管应用数据库群(三)征管应用数据库群(三)p 以会计账务数据为主,数据量很大,增长快,访问更新频度低;以会计账务数据为主,数据量很大,增长快,访问更新频度低;p 业务环节中产生的各类凭证,独立存储在凭证库中;业务环节中产生的各类凭证,独立存储在凭证库中;p 支持税收会计核算应用;支持税收会计核算应用;金税三期工程金税三期工程
25、41p 存储的数据包括:存储的数据包括:n 同征管操作数据保持同结构、保留时间较长的数据,征管操作数据实时复制而得同征管操作数据保持同结构、保留时间较长的数据,征管操作数据实时复制而得n 税源管理数据税源管理数据n 实时查询辅助数据,如报表基础数据、统计基础数据等实时查询辅助数据,如报表基础数据、统计基础数据等n 按省局清分的数据按省局清分的数据p 分担操作数据库的查询、统计业务,减少操作型数据库压力分担操作数据库的查询、统计业务,减少操作型数据库压力n 实时性要求不高的定制报表实时性要求不高的定制报表n 实时跨系统查询统计实时跨系统查询统计n 应用系统和跨系统大数据量的批量计算应用系统和跨系
26、统大数据量的批量计算近期征管操作数据库近期征管操作数据库金税三期工程金税三期工程42征管操作征管操作-凭证处理凭证处理p 凭证是进行税务活动时需要使用或产生的各类单证信息凭证是进行税务活动时需要使用或产生的各类单证信息p 凭证信息分为后续税务活动需要频繁访问的关键业务数据和使用频度低的其它数据凭证信息分为后续税务活动需要频繁访问的关键业务数据和使用频度低的其它数据p 关键业务数据以结构化进行存储,同时全部凭证信息以关键业务数据以结构化进行存储,同时全部凭证信息以XMLXML格式存储在凭证库格式存储在凭证库p 凭证库中的信息需要定时抽取到近期操作数据库中,并解析为结构化数据凭证库中的信息需要定时
27、抽取到近期操作数据库中,并解析为结构化数据p 近期操作数据库中的结构化凭证数据定时抽取到统一视图近期操作数据库中的结构化凭证数据定时抽取到统一视图金税三期工程金税三期工程43数据物理分布总图数据物理分布总图-分析型数据说明分析型数据说明金税三期工程金税三期工程44分析主题纳税人分布主题 申报征收主题企业经营主题案件稽查主题公共维度主题私有维度N+X+Y个月的统一视图星型模型外部信息交换数据风险业务模型风险评分模型风险分析模型分类业务模型纳税人分类模型类群分析模型管理决策数据仓库生产数据其它业务模型税收预测模型指标关联性模型规则业务模型税收业务指标风险、信用指标X+Y个月征管应用数据库影像凭证资
28、料库网络发票数据库各渠道应用数据库省级遗留系统系统数据库法人数据管理认定数据发票业务数据违法违章数据信用评定数据申报缴款数据风险评估数据自然人数据基本信息数据家庭关系数据财产数据信用评定数据收入数据风险评估数据经营信息税务机关纳税人分布税收收入分布出口退税重点税源一般纳税人情况比对信息数据字典业务指标字典分析维度字典ETL流程数据数据生命周期数据指标/维度映射数据元数据元数据政策数据法规数据业务经验数据业务指标数据分析算法数据标准数据标准数据挖掘算法数据财产财产内容财产分布财产流动发票系统管理外部信息发票生命周期发票票面信息发票加密信息知识库总局分析型数据总局分析型数据查询统计管理决策数据集市
29、(共享数据逻辑汇总应用个性数据)征管状况分析报表管理绩效管理风险管理政策管理知识管理金税三期工程金税三期工程45管理决策数据与应用架构关系管理决策数据与应用架构关系p整体设计思想基础数据共享,一数多用,以数据规划视角,物理集中存储在统一视图和数据仓库中;应用的个性化数据,物理单独存放在数据集市中,并且用逻辑视图汇总应用所需基础共享数据;查询统计管理决策数据集市(共享数据逻辑汇总应用个性数据)征管状况分析报表管理绩效管理风险管理政策管理知识管理金税三期工程金税三期工程46查询统计逻辑视图自然人视图法人视图税务机关视图决策应用与决策数据的对应征管状况分析逻辑视图税务机关视图数据仓库分析主题报表管理
30、逻辑视图 税务机关视图绩效管理逻辑视图系统管理视图数据仓库绩效模型风险管理逻辑视图数据仓库风险模型法人视图税务机关视图税务机关视图逻辑视图自然视图逻辑视图系统产生数据数据仓库风险模型知识库视图业务规则模型政策管理逻辑视图逻辑视图知识库视图知识管理逻辑视图视图深加工产生数据系统产生数据视图深加工产生数据系统产生数据视图深加工产生数据系统产生数据视图深加工产生数据数据仓库标准数据数据仓库其他业务模型数据集市的数据内容数据集市的数据内容金税三期工程金税三期工程47关注焦点问题关注焦点问题-查询查询金税三期工程金税三期工程48应用逻辑架构应用逻辑架构金税三期工程金税三期工程49数据物理分布与应用的对应
31、数据物理分布与应用的对应金税三期工程金税三期工程50数据物理分布与应用的对应数据物理分布与应用的对应行政办公平台征管业务处理平台纳税人管理、个人明细管理、申报征收发票管理、核算、评估审计、稽查、法制外部统一交换纳税服务平台、统一门户纳税服务平台和统一门户管理决策平台金税三期工程金税三期工程51渠道数据库与子系统对应关系渠道数据库与子系统对应关系总局外部应用业务数据库总局内部中心数据库总局纳税人IA中心数据库总局内网网站数据库总局内网平台系统数据库总局外网网站数据库总局外部应用平台和前置系统数据库税库银系统数据库总局与工商等外部门信息交换数据库省局工商交换数据省局内网平台系统数据库省局内部中心数
32、据库省局纳税人I中心数据库呼叫中心大厅短信内部门户网站前置受理身份认证数据集成税库银外部门交换网上税局业务工作门户应用集成自助终端数据库子系统金税三期工程金税三期工程52生产数据库与子系统对应关系生产数据库与子系统对应关系纳税人管理数据库申报征收数据库自然人个税数据库发票数据库网络发票数据库计会统数据库评估审计数据库稽查数据库法制数据库行政办公数据库纳税人管理子系统申报征收子系统发票管理子系统计划会计评估审计子系统稽查子系统法制子系统综合办公人事管理财务管理纪检检查数据库子系统金税三期工程金税三期工程53目目 录录p数据分布数据分布数据分类数据分类数据分布内容数据分布内容关键流程关键流程金税三
33、期工程金税三期工程54关键流程关键流程-税务登记税务登记金税三期工程金税三期工程55关键流程关键流程-涉税审批涉税审批金税三期工程金税三期工程56关键流程关键流程-记帐记帐金税三期工程金税三期工程57关键流程关键流程金税三期工程金税三期工程58关键流程关键流程金税三期工程金税三期工程59关键流程关键流程金税三期工程金税三期工程60关键流程关键流程-凭证凭证金税三期工程金税三期工程61目目 录录1 1、概述、概述2 2、数据分布、数据分布3 3、数据交换与共享、数据交换与共享4 4、元数据、元数据5 5、数据治理、数据治理6 6、通用数据标准、通用数据标准金税三期工程金税三期工程62数据交换与共
34、享策略数据交换与共享策略p 主数据共享采取推送(订阅)方式,保持数据的实时性、一致性;主数据共享采取推送(订阅)方式,保持数据的实时性、一致性;p 征管核心数据库间共享采取推送(订阅)或服务调用方式,对于交征管核心数据库间共享采取推送(订阅)或服务调用方式,对于交互频繁、数据量大的采取推送方式互频繁、数据量大的采取推送方式(采用数据库复制技术采用数据库复制技术),对于数据量,对于数据量较小的采取服务方式。较小的采取服务方式。p 从生产数据采取从生产数据采取ETLETL方式抽取到统一视图中方式抽取到统一视图中p 总局到省局数据下发(主数据除外)建议采取总局到省局数据下发(主数据除外)建议采取ET
35、LETL方式方式金税三期工程金税三期工程63数据交换与共享示意图数据交换与共享示意图金税三期工程金税三期工程64数据物理分布总图数据物理分布总图-核心库间数据关系核心库间数据关系核心交易库的数据共享金税三期工程金税三期工程65数据物理分布总图数据物理分布总图-核心库间数据关系核心库间数据关系核心交易库的数据共享金税三期工程金税三期工程66数据物理分布总图数据物理分布总图-核心库间数据关系核心库间数据关系核心交易库的数据共享金税三期工程金税三期工程67总局数据交换与共享概览总局数据交换与共享概览金税三期工程金税三期工程68外部门统一交换外部门统一交换外部门统一交换实现税务机关和其他政府部门之间实
36、现数据共享和数据交换。外部门统一交换实现税务机关和其他政府部门之间实现数据共享和数据交换。主要包括财政、银行、国库、工商、技监、海关、外汇管理、公安、统计、劳主要包括财政、银行、国库、工商、技监、海关、外汇管理、公安、统计、劳动和社会保障、邮政、民政、国土管理、房产、法院等政府部门。动和社会保障、邮政、民政、国土管理、房产、法院等政府部门。两级交换:总局一级和省局一级。两级交换:总局一级和省局一级。系统包括:外部信息交换系统和税库银系统。系统包括:外部信息交换系统和税库银系统。系统系统平台平台部署部署外部信息交换外部信息交换系统系统外部统一交换平外部统一交换平台台总局总局/省省局局税库银系统税
37、库银系统外部统一交换平外部统一交换平台台总局总局金税三期工程金税三期工程69外部门统一交换外部门统一交换基基于于消消息息中中间间件件的的数数据据传传输输金税三期工程金税三期工程70税库银(税银)税库银(税银)金税三期工程金税三期工程71外部信息交换外部信息交换金税三期工程金税三期工程72总局与省局总局与省局数据下发(总局到各省)数据下发(总局到各省)总局下发支撑生产数据总局下发支撑决策数据数据集中(各省到总局)数据集中(各省到总局)省局遗留系统数据和自有系统数据(如果总局需要)省局交换的第三方数据(如果总局需要)技术技术平台平台部署部署数据库复制数据集成平台总局ETL/ELT数据集成平台总局基
38、于消息中间件数据集成平台总局/省局金税三期工程金税三期工程73征管数据清分下发征管数据清分下发金税三期工程金税三期工程74主数据清分下发主数据清分下发主数据:代码、纳税人基本信息、纳税人基本状态金税三期工程金税三期工程75总局与省局总局与省局金税三期工程金税三期工程76总局与省局总局与省局源数据库源数据库目标数据库目标数据库传输数据内容传输数据内容传输方式传输方式传输频度传输频度备备注注总局纳税人IA中心数据库省局纳税人IA分中心数据库单省的纳税人外网身份认证和信息LDAP清分准实时清分总局IA中心数据库省局IA中心数据库单省的操作人员的身份认证和信息LDAP清分准实时清分总局纳税人管理数据库
39、(N个月)省局主数据库单省的纳税人基本信息和代码信息数据库复制准实时清分总局近期征管操作数据库()省局征管应用业务操作数据库单省的总局应用大集中的征管业务各环节数据。ETL或者数据库复制或者文件方式每N小时/每天清分总局影像库省局影像库单省的纳税人外网办理涉税事宜时,提供的影像资料。每N小时/每天清分总局N+X+Y个月的统一视图省局统一视图和管理决策数据库单省的总局统一加工的分析结果数据。或者文件方式每天清分管理决策数据仓库省局统一视图和管理决策数据库单省的总局统一加工的分析结果数据。或者文件方式每天清分总局凭证库省局凭证暂存库单省的纳税人凭证暂存数据。基于消息中间件每N小时/每天集中省局工商
40、交换数据总局与工商、公安、统计、海关等外部们信息交换数据省一级交换的外部门数据,包括工商等。基于消息中间件每N小时/每天集中省局增值税防伪税控库(遗留)总局增值税防伪税控集中库纳税人的增值税发票的开具信息;发票存根联、抵扣联信息。基于消息中间件每N小时/每天集中增值税交叉稽核库(遗留)总局增值税稽核集中库省局比对的交叉稽核结果信息。基于消息中间件每N小时/每天集中金税三期工程金税三期工程77总局一级总局一级征管数据库群之间:征管操作数据库群之间;操作数据库与镜像库之间征管数据库群之间:征管操作数据库群之间;操作数据库与镜像库之间操作型与分析型之间:当期操作数据库、近期操作数据库、统一视图、数据
41、仓操作型与分析型之间:当期操作数据库、近期操作数据库、统一视图、数据仓库、数据集市之间库、数据集市之间内部系统与渠道之间:内部系统与内外部渠道系统(网上办税厅、网站)之间内部系统与渠道之间:内部系统与内外部渠道系统(网上办税厅、网站)之间技术技术平台平台部署部署数据库复制数据集成平台总局ETL/ELT数据集成平台总局Service调用应用集成平台总局/省局金税三期工程金税三期工程78征管数据库群之间征管数据库群之间金税三期工程金税三期工程79内部系统与渠道之间内部系统与渠道之间金税三期工程金税三期工程80总局操作型与分析型之间总局操作型与分析型之间金税三期工程金税三期工程81交换实现手段总结交
42、换实现手段总结分类分类子分类子分类交换手段交换手段交换特点交换特点外部门外部门外部门交换外部门交换基于消息中间件基于消息中间件批量批量税库银税库银基于消息中间件基于消息中间件实时实时/批量批量总局与总局与省局省局IAIA中心之间中心之间LDAPLDAP复制复制实时实时主数据下发主数据下发数据库复制数据库复制实时实时生产数据下发生产数据下发ETLETL或者数据库复制或者文件方式或者数据库复制或者文件方式批量定时批量定时分析数据下发分析数据下发ETLETL或者文件方式或者文件方式批量定时批量定时省局数据集中省局数据集中基于消息中间件基于消息中间件批量定时批量定时其他其他serviceservice
43、调用调用实时实时总局内总局内部部主数据同步主数据同步(包括外网)包括外网)数据库复制数据库复制实时实时共享数据(非主数据)同步共享数据(非主数据)同步数据库复制数据库复制实时实时(定时批量)定时批量)N N库到库到N+XN+X库库数据库复制数据库复制实时实时申报征收镜像、发票镜像申报征收镜像、发票镜像数据库备份数据库备份实时实时内、外网批量内、外网批量ETLETL批量定时批量定时OLTP(N+XOLTP(N+X库库)到到OLAPOLAPETLETL批量定时批量定时历史数据迁移历史数据迁移ETLETL批量定时批量定时其他其他serviceservice调用调用实时实时金税三期工程金税三期工程82
44、目目 录录1 1、概述、概述2 2、数据分布、数据分布3 3、数据交换与共享、数据交换与共享4 4、元数据、元数据5 5、数据治理、数据治理6 6、通用数据标准、通用数据标准金税三期工程金税三期工程83元数据管理元数据管理金税三期工程金税三期工程84元数据管理方案元数据管理方案金税三期工程金税三期工程85元数据管理实施策略元数据管理实施策略1.金税三期项目实施中,元数据管理涉及从数据抽取到数据展示的整个过程,是金税三期方案实施过程中十分重要的一环。2.本方案将在源系统、ETL、数据仓库、前端展现几个方面进行元数据管理,建议实现策略是:从分散管理向集中管理逐步过渡。3.在分散管理阶段,ETL过程
45、主要通过ETL工具进行元数据管理。4.在数据仓库环境中,通过数据字典、仓库建模工具(可以提供更高层的与特定业务相关的语义)和ETL工具进行元数据管理。5.在前端展现部分,通过前端展现工具进行元数据管理。6.在集中管理阶段,通过建立标准的元数据交换格式,采用专门的元数据管理工具,实现元数据的集成管理。根据金税三期大集中的战略,金税三期元数据管理最终实现集中式管理。金税三期工程金税三期工程86目目 录录1 1、概述、概述2 2、数据分布、数据分布3 3、数据交换与共享、数据交换与共享4 4、元数据、元数据5 5、数据治理、数据治理6 6、通用数据标准、通用数据标准金税三期工程金税三期工程87数据生
46、命周期管理实施方法数据生命周期管理实施方法金税三期工程金税三期工程88数据生命周期管理分类与分层管理数据生命周期管理分类与分层管理数据分类数据分类描描 述述渠道数据一般是为了改善服务的响应时间而将其暂时存储在本地的,一般存储在外置的磁盘阵列中当期征管数据数据库中的生产数据是实时性要求最高的,按照数据生命周期管理的理念要存储在高速磁盘阵列中近期征管数据数据库中数据是实时或者准实时,一般存储在高速磁盘阵列中数据仓库或者数据集市中的决策支持数据数据仓库或者数据集市中的决策支持数据数量巨大,对实时性的要求不高。推荐存储在高速磁盘阵列中归档的历史数据归档的交易历史数据可以脱机存放,按照数据生命周期管理的
47、理念建议存放在速度快,容量高的磁带库中。金税三期工程金税三期工程89数据生命周期管理分类与分层管理数据生命周期管理分类与分层管理数据分类数据分类描描 述述渠道数据一般是为了改善服务的响应时间而将其暂时存储在本地的,一般存储在外置的磁盘阵列中当期征管数据数据库中的生产数据是实时性要求最高的,按照数据生命周期管理的理念要存储在高速磁盘阵列中近期征管数据数据库中数据是实时或者准实时,一般存储在高速磁盘阵列中数据仓库或者数据集市中的决策支持数据数据仓库或者数据集市中的决策支持数据数量巨大,对实时性的要求不高。推荐存储在高速磁盘阵列中归档的历史数据归档的交易历史数据可以脱机存放,按照数据生命周期管理的理
48、念建议存放在速度快,容量高的磁带库中。金税三期工程金税三期工程90数据生命周期管理分类与分层管理数据生命周期管理分类与分层管理数据分类数据分类描描 述述渠道数据一般是为了改善服务的响应时间而将其暂时存储在本地的,一般存储在外置的磁盘阵列中当期征管数据数据库中的生产数据是实时性要求最高的,按照数据生命周期管理的理念要存储在高速磁盘阵列中近期征管数据数据库中数据是实时或者准实时,一般存储在高速磁盘阵列中数据仓库或者数据集市中的决策支持数据数据仓库或者数据集市中的决策支持数据数量巨大,对实时性的要求不高。推荐存储在高速磁盘阵列中归档的历史数据归档的交易历史数据可以脱机存放,按照数据生命周期管理的理念
49、建议存放在速度快,容量高的磁带库中。金税三期工程金税三期工程91数据质量管理规划与框架数据质量管理规划与框架p数据质量管理是一个没有终点的过程,它是一个持续的,不断改善的从数据质量管理规划阶段到数据质量审计及改进形成的数据质量管理的闭环过程。p针对数据质量现状,在数据质量管理上,规划事前预防、事中监测和控制、事后补救和改进的管理策略,规划数据质量管理框架 金税三期工程金税三期工程92数据质量管理过程(模型)数据质量管理过程(模型)金税三期工程金税三期工程93数据质量管理方案设计原则数据质量管理方案设计原则金税三期工程金税三期工程94数据质量管理方案数据质量管理方案1、分析源数据,从业务和数据本
50、身的角度剖析,包括对数据源中存储的逻辑定义,表、视图结构定义,约束,触发器,唯一性等等,得出相关的定义。由定义以及定义的关联产生相应的检验规则2、检验对象管理利用这些产出的规则,对源数据和目标数据进行校验,并对应校验规则保存校验结果;3、在数据质量管理中,需要对数据检验结果和修正结果进行分析,利用校验结果发现数据源和数据流程中存在的问题,同时可以参考修正记录,对数据的质量提出适当的改进策略,并采取适当的行为。金税三期工程金税三期工程95数据质量管理方案关键指标设计数据质量管理方案关键指标设计金税三期工程金税三期工程96数据安全数据安全金税三期工程金税三期工程97目目 录录1 1、概述、概述2