1、大数据平台交流1目录一二三五项目概述总体框架数据汇聚大数据治理四大数据存储六大数据分析七大数据共享八项目建议21、总体思路u 以大数据支撑平台建设为核心,为后续数据应用提供有力支撑u 建立数据管控体系,汇聚集团所有数据,通过数据治理手段保障数据质量u 提供一系列数据应用支撑组件,为项目人员、业务分析人员、数据分析员提供可视化的数据应用机制。u 以大数据平台为中心,建立系统之间的共享协同机制u 选取一到两类示范业务作为试点,展示大数据平台的魅力32、建设目标1、数据管理目标:、数据管理目标:建设统一的数据管控体系,对整个集团各个项目的数据进行集中化管理,保障数据质量。2、数据应用目标、数据应用目
2、标 DaaS:Data as a Service,使数据管理集中化管理,让更多的用户无需去注意底层数据的问题,而将注意力完全放在如何使用这些数据。 BIaaS:Business Intelligence as a service,提供一系列数据分析、数据可视化组件,作为一种敏捷的BI服务为项目提供支撑。4决策层决策层l 仪表盘:仪表盘:通过图表的方式对关键指标数据进行展示,为领导决策提供直观的数据支持。l 报表:报表:按照预定义的格式,在线查询报表l 即席查询:即席查询:通过即席查询工具或者自定义SQL方式,完成业务信息的检索l 多维分析:多维分析:从多个维度灵活组合进行分析,提供上下钻取等l
3、 信息检索:信息检索:对文档数据进行全文搜索l 数据挖掘:数据挖掘:通过数据挖掘工具分析结构化、非结构化数据,通过数据模型挖掘隐藏的数据价值。l 数据共享:数据共享:访问数据平台汇聚的不同项目共享的数据。l 数据分析:数据分析:提供工具,实现数据的分析与可视化3、不同用户对数据平台的关注点业务人员业务人员数据分析员数据分析员业务系统业务系统数据管理员数据管理员l 数据管控:数据管控:提供对数据标准、元数据、数据质量的管控体系l 数据安全:数据安全:对数据平台的数据进行安全访问控制和监控5目录二一三五总体框架项目概述数据汇聚大数据治理四大数据存储六大数据分析七大数据共享八项目建议61、总体框架数
4、据应用数据开放门户平台管理门户数据增值应用业务应用数据治理数据标准元数据数据质量监控数据安全自动化运维资源监控事件管理问题处理运维服务数据分析数据可视化即席分析OL AP分析数据挖掘全文检索大数据基础平台iPaaS数据采集数据清洗数据服务数据分发数据库、文件、接口、协议适配业务系统APP应用数据资源目录7汇聚存储治理分析共享数据适配数据采集数据清洗数据校验HDFSHBase索引库数据标准元数据数据资源目录数据质量数据安全即席分析OLAP分析数据挖掘全文检索数据可视化数据服务数据分发数据订阅2、大数据平台关键技术8目录三二一五数据汇聚总体框架项目概述大数据治理四大数据存储六大数据分析七大数据共享
5、八项目建议9数据汇聚过程10目录四二三五大数据存储总体框架数据集成大数据治理一项目概述六大数据分析七大数据共享八项目建议11数据存储架构历史归档数据区临时数据区源数据区主题数据区索引数据区应用数据区沙盘演练区12目录五二三一大数据治理总体框架数据集成项目概述四大数据存储六大数据分析七大数据共享八项目建议131、数据治理过程中遇到的问题n 在业务需求方面:在业务需求方面:缺乏企业级通用的业务规则。各业务部门制定自己的业务标准,部门之间的标准常常有矛盾或相互混淆。n 在数据质量方面:在数据质量方面:以满足功能应用为主,未形成企业级的整体数据架构设计,数据共享上比较困难,数据冗余、数据完整性、数据合
6、规性、数据一致性等问题突出;n在组织管控方面:在组织管控方面:针对数据质量管控提升,业务部门与信息部门之间未达成共识,职责划分不清,标准规范不统一,未形成企业级统一的管理体系、管理规范和执行流程。n 在数据发现方面:在数据发现方面:各部门建设了大量的业务系统,信息资源数量多、门类广、分布分散、信息不对称的特性,没有统一的机制进行资源的发现和定位。142、解决这些问题需要哪些手段?n 我们需要一个尺度作为判断的依据来衡量 - 建立数据标准体系建立数据标准体系n 我们需要一个监测、报告、协助分析数据问题的系统 - 数据质量管理数据质量管理n 我们需要对数据问题的影响进行分析,对数据进行统一的版本管
7、理和规范管理控制 - 元数据管理元数据管理n 我们需要有一套完整的定义、度量、分析、评估、执行的完整制度规范和流程 - 管理规范和流程管理规范和流程n 我们需要业务人员、开发人员、数据管理员、数据治理人员等相关人员的通力合作,各司其职对数据负责 - 组织和角色职责组织和角色职责n 我们需要一种方式,对众多的分布分散的信息资源进行发现、定位和使用资源 - 信息资源目录信息资源目录15组织架构组织架构u 数据生产者数据生产者u 数据使用者数据使用者u 数据管理者数据管理者u 数据拥有者数据拥有者制度流程制度流程u 数据治理基本制度数据治理基本制度u 数据治理管理办法数据治理管理办法u 数据治理实施
8、细则数据治理实施细则u 数据治理管控流程数据治理管控流程技术平台技术平台u数据标准管理数据标准管理u元数据管理元数据管理u数据质量管理数据质量管理u资源目录体系资源目录体系系统实现流程制定支持3、数据治理框架163、总体框架-人员组织数据治理数据治理组织体系组织体系 数据数据生产者生产者 数据数据使用者使用者 数据数据管理者管理者 数据数据拥有者拥有者数据标准核对数据质量初审数据质量绩效执行理解数据标准、管理制度提出数据质量问题数据发现、定位、使用数据治理绩效评估日常数据管理维护数据安全防护执行数据标准化流程修复数据质量问题按照标准建设系统173、总体框架-制度流程数据治理组织架构与岗位职责数
9、据治理制度规范数据治理考核办法数据标准管理元数据管理数据质量管理数据资源目录数据安全管理数据标准需求管理流程数据标准制定流程数据标准执行流程数据标准维护流程元数据需求管理流程元数据发布流程元数据维护管理流程元数据变更流程数据质量需求管理流程数据质量核检定义流程数据质量问题排查流程数据质量问题处理流程数据资源目录发布流程数据服务申请流程数据访问流程数据安全控制流程183、总体框架-技术平台194、数据治理:数据标准管理什么是数据标准化:什么是数据标准化:对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、复制规则等的定义基准,并提供运维这套数据标准成功的科学流程。有哪些数据标准类型
10、有哪些数据标准类型:术语标准、代码标准(代码集)、层次代码标准、规则标准、引用分类标准数据标准化的目标是什么:数据标准化的目标是什么:通过统一信息标准制定、发布使用、制度约束、系统控制等手段,实现信息的完整性、有效性、一致性、规范性、开放性和共享性管理,提高信息化水平205、元数据管理(1)-数据管理面临的困惑? 庞大的数据资源该如何管理? 形态万千、散落在企业各处的数据资源如何管理? 数据资源之间的关系是怎么样的? 如何让数据资源正确、有效的被使用并产生价值?215、元数据管理(2)-可以带来什么价值? 对数据资源再组织并形成全局性的视图 帮助用户更好的理解各个环节的数据和系统的建设现状 是
11、保障企业数据质量的基础 支持企业信息化的知识传承 提高数据信息化管理水平226、数据质量管理237、数据资源目录HOWWHENWHATWHOWHERE什么时候可以使用?什么时候可以提供?什么时间用的?有什么资源?资源的内容是什么?信息从哪里来?需要的信息在哪里?信息到哪里去?在哪里使用?谁提供的?谁加工的?谁使用的?如何使用?如何管理?如何发布?如何查找?24目录六二三五大数据分析总体框架数据集成大数据治理四大数据存储一项目概述七大数据共享八项目建议25 大数据分析是大数据平台的核心价值,只有通过分析才能获得更多智能的、深入的、有价值的信息。 由于目前广州地铁业务部门对大数据分析的需求不是非常
12、明确,但大数据平台作为公司的核心资源,需要提供一套完善的数据分析工具,为业务部门、项目业务部门、项目提供数据分数据分析和数据可视化析和数据可视化支撑。 将分析和可视化平台作为一种敏捷的BI服务,提供给各个业务部门和项目使用,方便数据的探索,充分利用数据的价值。1、大数据分析概述262、大数据分析总体思路 大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程。大数据应用建设总体建设思路:1、建立大数据分析和可视化支撑平台,为项目提供数据统计、分析、挖掘服务。2、迁移目前一些常用的数据统计和分析功能到大数据平台,并提供统一的可视化系统。3、通过与业务部门的需求沟通和数据分析建
13、模,针对一些业务做深度的数据挖掘和分析。273、大数据分析服务 即席查询服务:即席查询服务:提供SQL即席分析机制,简便快捷的检索、分析小规模的数据集,并提供灵活方便的配置方式,允许用户自定义查询,并生成查询结果和统计图表。 多维自助分析服务:多维自助分析服务:结合数据立方体(Cube)技术实现多维度快速OLAP分析能力。通过建立维度分析机制,有效的减少Hadoop在亿级以上数据规模情况下的查询延迟。 全文信息检索服务:全文信息检索服务:借助索引、分词等技术,对大数据平台的大量结构化、非结构化数据提供统一的数据检索方式。 可视化数据挖掘服务:可视化数据挖掘服务:建立通用的算法库,和可视化数据建
14、模方式,使得分析人员探索数据模式及特征,进而发现行为规律,专业人员就可以预测到未来可能发生的变化趋势。284、数据可视化 大数据可视化是以图形的方式直观的展示数据信息,能够帮助人们更快的理解数据,辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧。 大数据分析支撑平台可以通过一个直观的拖放界面就可创造交互式的图表,轻松打造“私人订制”级的数据可视化,有力支持管理者进行商业决策,提高核心竞争力。 常用可视化方法:图形可视化、多维数据可视化、时空数据可视化、网络关系可视化、文本信息可视化29目录七二三五大数据共享总体框架数据集成大数据治理四大数据存储六大数据分析一项目概述八项目建议30大数据
15、共享概述 大数据平台汇聚了大量的企业数据,以大数据平台为中心,构建DaaS服务,实现企业不同系统之间的数据共享和业务协同。数据共享方式:数据共享方式:u服务共享服务共享:通过接口服务的方式访问共享数据,支持字段级权限控制。u数据分发数据分发:预定义规则将大数据平台处理的数据分发到不同的系统。u数据订阅数据订阅:业务系统订阅自己关心的数据主题,当有数据变更时会通知到相应的订阅方31目录八二三五项目建议总体框架数据集成大数据治理四大数据存储六大数据分析七大数据共享一项目概述321、总体建议建设大数据平台汇聚企业数据建立数据治理体系建立自助分析体系建设数据可视化系统平台建设为核心数据应用为核心建设数据增值服务业务部门自助分析332、数据平台(一期)建立处理方式u 数据平台(一期)中,数据可视化,是通过硬编码实现的,不具备灵活性,需要建立统一的可视化机制,建议采用报表或图形可视化的展示。u 对于数据平台(一期)的数据,将原始数据抽取到大数据平台,并将数据仓库计算的结果也抽取过来,一些计算任务,难以进行迁移的,进行保留。u 陆续将数据仓库的任务迁移到大数据平台34