ImageVerifierCode 换一换
格式:PPTX , 页数:38 ,大小:1.14MB ,
文档编号:3413140      下载积分:25 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-3413140.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(三亚风情)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(海量数据搬运工-DataStream课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

海量数据搬运工-DataStream课件.pptx

1、海量数据搬运工 Datastream大纲Datastream 产生的原因Datastream 的结构和特征Datastream 关键技术点分享Datastream 应用场景Datastream 未来展望场景 1 BI,xx 应用想做下日志的统计分析,收集一下吧场景 2 线上的服务器日志做下分析吧,可能有DDOS场景 3 要拿数据库增量数据,建索引、反攻击、做分析,写点程序吧怎么办呢 问题:每个产品数据都不相同,不同部门代码复用率低 后果:BI、反垃圾、搜索引擎的同学都要疯了 解决方案:我们搞个统一的收集数据的平台吧Datastream 应运而生 我们不生产数据,我们是数据的搬运 工大纲Data

2、stream 产生的原因Datastream 的结构和特征Datastream 关键技术点分享Datastream 应用场景Datastream 未来展望什么是 Datastream Datastream 是一个数据传输平台,用于连通数据源和终端用户的桥梁他最大的作用就是:让终端用户对数据获取方式透明 让终端用户对数据的格式透明系统框架特性特性说明说明搬运节点线性扩展集群中节点可动态增减,个别节点宕机不影响集群数据来源多样化可支持多种数据源,新数据源支持简单数据存储终端多样化可根据产品需要支持不同类型的数据存储终端数据分流和复制根据产品需要对数据进行分流和复制输出数据格式统一统一采用结构化JS

3、ON的数据输出格式,产品端提取数据简单强大的管理平台管理平台有各种强大的向导功能远程控制所有的Datastream客户端都通过管理平台统一做远程控制,无需登录服务器系统特征大纲Datastream 产生的原因Datastream 的结构和特征Datastream 关键技术点分享Datastream 应用场景Datastream 未来展望关键技术点一、异构数据源解析二、数据分流三、数据可靠传输四、数据传输效率一、异构数据源解析 Datastream 从扩展性上来看能支持各种各样的数据源,目前支持一下数据源:文本文件 Syslog 日志 Mysql binlog文本日志来源 主要是应用服务器的日志

4、文件通过一个轻量级的 agent 来 tail 服务器本地日志并发送到 datastream文本日志解析的特点 支持各种滚动方式的日志 支持断点续传 轻量级,占用系统资源少 对应用无侵入 支持多行相关联日志输出为一行(例如 java 异常,结构化的 JSON,xml 等)tailFile 多行解析的实例Syslog 日志来源 这是一个通用的日志协议,不受编程语言限制,来源有 服务器系统日志 应用的重要日志 Apache,nginx 等代理日志Syslog 日志Syslog 日志解析特征 平台无关 应用侵入性低Mysql binlog 来源 Mysql binlog 是 mysql 增量数据的记

5、录,对于实时计算有相当大的作用Mysql binlog 解析关键技术 全自动化用户配置 Binlog 转换 JSON 反向查询 事务支持 强顺序性保证全自动化用户配置 全自动加载数据库表结构,支持分布式数据库二进制 binlog 转换为 JSON 可以根据用户配置将数据库中的增量数据转换成结构化的 JSON,供产品使用反向查询 反向查询有些应用(比如实时索引),需要变化的数据关联的其他数据构成完整数据事务支持 支持 mysql 事务,一个事务内的操作会封装为一个在一个 JSON 内,同时保持事务的执行顺序 过大的事务会进行切割,避免内存消耗过大强顺序性保证 binlog 的顺序如果出错,可能会

6、导致后端产品最终数据状态的错误,因此 datastream 在处理 Binlog 时采取了强顺序性的保证 每个 mysql 节点的事务操作顺序依次发送 事务内操作保持顺序 MQ 消费客户端的 ack 机制保证消费的顺序性和不遗漏消息 MQ 消费客户端异常退出会重新获取上次未完成的消息二、数据分流 日志分流规则的基础为数据标签 数据标签唯一标志一类数据的分流方式数据分流隔离机制 不同数据标签之前数据传输隔离,保证不同流量的产品之间传输速度不会相互影响 不同分流方式之间隔离,保证某个数据终端宕机或传输速度慢不会影响其他分流方式三、数据可靠传输 持久化机制 收到消息先做持久化后发送 ACK 机制 确

7、保后端模块已收到数据,否则重发 异常数据处理 无法处理的异常数据保存在制定位置,可追溯来源数据可靠传输 全面覆盖的监控程序 监控所有进程的正确执行 监控系统有无异常日志 监控系统吞吐量是否不足有延迟 监控产品数据流量异常波动 监控产品有无不符合协议的日志四、数据传输效率 分布式处理,可线性拓展 数据批量传输,批量 ACK 采用 thrift 序列化机制 采用 nio 优化数据持久化效率 多线程处理日志并保证顺序性(如日志过滤)大纲Datastream 产生的原因Datastream 的结构和特征Datastream 关键技术点分享Datastream 应用场景Datastream 未来展望Da

8、tastream 应用场景 一般产品需要数据做哪些操作呢?存储备份 条件查询 分析运算 构建索引Datastream 都能满足Datastream 应用场景 Datastream 目前可以支持以下应用场景:离线数据分析 实时数据分析 实时索引 日志归档 日志统计报表 日志报警监控大纲Datastream 产生的原因Datastream 的结构和特征Datastream 关键技术点分享Datastream 应用场景Datastream 未来展望Datastream 未来展望 Datastream 项目将来会更好地发挥搬运工角色,做一个效率更高,安全性更好的搬运工 后期会考虑实现如下的功能:数据追踪系统,提升数据安全性,类 似快递 更好地与后端数据服务整合 非结构化日志转为结构化日志未来的 Datastream

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|