1、大数据什么是大数据?大数据是指需要通过快速快速获取、处理、分析以从中提取价值价值的海量海量、多样化多样化的交易数据、交互数据与传感数据。交互数据传感数据海量快速多样性价值交易数据集成共享交叉复用智力资源知识服务能力什么是大数据?大数据究竟有多“大”How big is it?海量 巨型TB? PB? 主观标签大数据究竟有多“大”How big is it?各大公司的业务量Google 公司通过大规模集群和MapReduce 软件,每个月处理的数据量超过400PB百度 每天大约要处理几十PB数据,大多要实时处理,如微博、团购、秒杀Facebook 注册用户超过8.5亿,每月上传10亿照片,每天生
2、成300TB日志数据Yahoo! Hadoop云计算平台有34个集群,超过3万台机器,总存储容量超过100PB淘宝网 有3.7亿会员,在线商品8.8亿,每天交易数千万,产生约20TB数据大数据特点 数据量大 目前一般认为PB级以上数据看成是大数据Volume 种类多 包括文档、视频、图片、音频、数据库数据等Variety 速度快 数据生产速度很快,要求数据处理和I/O 速度很快Velocity 真实性 数据是完整的和可信任,并能自信地用它来做出关键的决定的能力的组织Veracity大数据处理流程数据采集数据存取基础架构数据处理统计分析数据挖掘模型预测结果呈现关系数据库、NoSQL、SQL等云存
3、储、分布式文件存储等处理自然语言的关键是要让计算机理解自然语言,所以自然语言处理又叫做自然语言理解,也称为计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。假设检验、显著性检验、差异分析、相关分析方差分析分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘预测模型、机器学习、建模仿真云计算、标签云、关系图等数据抽取(ETL)工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集合中,成为联机分析处理、数据挖掘的基础。大规模并行处理(MPP)数据库分布式数据库分布式文
4、件系统数据挖掘电网云计算平台互联网可扩展的存储系统大数据涉及的技术大数据分析方法 可视化分析可视化分析 数据挖掘算法数据挖掘算法 预测性分析预测性分析 语义引擎语义引擎 数据质量和数据质量和数据管数据管理理当前发展情况行业应用医疗行业能源行业通信行业研究状况大数据的重大意义用户生成内容(UGC)消费者使用行为大数据知识大数据的重大意义未来石油第三次浪潮的华彩乐章大数据的重大意义新一代信息技术融合应用的结点新一代信息技术融合应用的结点信息产业持续高速增长的新引擎信息产业持续高速增长的新引擎提高提高核心竞争力核心竞争力的关键因素的关键因素科学研究的方法手段将发生重大改科学研究的方法手段将发生重大改
5、变变目前所面临的问题技术层面处理非结构化和半结构化数据手处理非结构化和半结构化数据手段段数据异构性与决策异构性的关系对大数据知识数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响发现与管理决策的影响新的数据表示方法新的数据表示方法高扩展性的数据分析技术高扩展性的数据分析技术数据融合数据融合安全问题目前所面临的问题社会层面全社会开放与共享数据还很难,这让数据质量大打折扣开放与隐私如何平衡,亦是一大难题发展前景大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。需要新型的处理方式去促成更强的决策能力、洞察力与优化处理。发展前景研究革命性的算法和处理平台结构研究大数据的测量与感知理论研究数据的去冗余和高效率低成本的数据存储研究大幅度降低数据处理、存储和通信能耗的新技术大力开展交叉科学研究 结语谁率先具备从各种各样类型的数据中快速获得有价值信息的能力与机会谁就是赢家!win!