大数据挖掘与商务智能简述课件.ppt

上传人(卖家):三亚风情 文档编号:3195292 上传时间:2022-08-01 格式:PPT 页数:149 大小:19.98MB
下载 相关 举报
大数据挖掘与商务智能简述课件.ppt_第1页
第1页 / 共149页
大数据挖掘与商务智能简述课件.ppt_第2页
第2页 / 共149页
大数据挖掘与商务智能简述课件.ppt_第3页
第3页 / 共149页
大数据挖掘与商务智能简述课件.ppt_第4页
第4页 / 共149页
大数据挖掘与商务智能简述课件.ppt_第5页
第5页 / 共149页
点击查看更多>>
资源描述

1、数据挖掘与商务智能大数据时代的大数据时代的大数据时代的数据是宝贵的财富,其中蕴含大量有用的(有助于管理和决策)信息和知识。计算机和通讯技术的发展,使数据量急剧增加,人类进入大数据时代。收集、传输、存储、整合、分析与挖掘数据的各项技术快速发展。大数据时代,数据分析与数据挖掘作为一门信息技术,其兴起主要是受数据积累的增长和对数据分析的需求的驱动。在大数据时代,我们共同探讨数据分析与数据挖掘的思想、方法、工具和应用前景。尽量向大家介绍数据挖掘与商务智能的全貌,给一些资料性的信息。由于数据挖掘与商务智能涉及的方法广泛,软件、工具、公司太多,应用太广,此次以介绍方法为主。大数据挖掘与商务智能概论大数据将

2、变革既有数据观大数据”对社会发展的影响商务智能和数据挖掘的作用云计算构建新型信息基础设施信息时代的高科技犯罪目录大数据挖掘与商务智能概论大数据将变革既有数据观大数据”对社会发展的影响商务智能和数据挖掘的作用云计算构建新型信息基础设施信息时代的高科技犯罪大数据挖掘与商务智能概论大数据将变革既有数据观大数据”对社会发展的影响商务智能和数据挖掘的作用云计算构建新型信息基础设施信息时代的高科技犯罪 大数据挖掘 与商务智能概论第一部分第一从数据谈起数据无所不在大数据现象、来源与特征大数据现象与来源(1)从2012年2月18日开始,全国70万家三上企业和房地产开发经营企业将在统一的数据采集和处理平台上,通

3、过互联网直接向国家数据中心。2015年实现数据联网直报“三个全部”:所有由调查对象填报的调查,全部通过互联网直接向国家数据中心报送;所有现场调查,全部由调查员手持电子终端设备现场采集数据,并通过网络直报国家数据中心;全部国家统计调查,均在统一软件平台处理数据。国家(省、市)统计局(http:/8)国家统计局推进“大数据”应用2013年11月19日下午,国家统计局与百度、阿里巴巴等11家企业签订了大数据战略合作框架协议,共同推进大数据在政府统计中的应用。2014年9月30日,国家统计局第二批企业大数据战略合作协议签约仪式在京隆重举行,搜房、浪潮、数海等6家企业参与签约。大数据现象与来源(2)金融

4、数据(http:/ 要解决当前生命科学的问题,需要从时空状态对生老病死进行解读,这就需要大数据,这种大数据揭示的就是大科学,这种大科学就是人类发展史上最大的产业。生命科学已进入大科学、大数据时代,基因资源源头。如何去储存这些资源,为未来研究的使用提供基础成为一个关键问题。为了适应更庞大数据存储、处理、分析与应用的要求,深圳华大基因研究院还和国家超算天津中心、深圳超算中心、广州超算中心等机构展开战略性合作。下一步,将通过云计算的模式来组织存储和处理相关数据。大数据现象与来源(6)网络大数据网络数据即使不是最原始的大数据源,也是使用最广泛、认可度最高的大数据源。网络数据是指用户浏览万维网所产生的日

5、志信息,是等待分析和挖掘的信息宝库。横跨于大量不同行业中的企业组织已经把那些来自于网站的详细而又处于客户层面的行为数据源整合入它们自身的企业数据分析环境中。大数据引发的数据观变革第二部分我们来到大数据时代数据极简主义大数据:一切数据皆有用数据观、技术、成本的变化(硬件、软件和除理技术、来源)全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3

6、百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据人们从信息的被动接受者变成了主动创造者我们来到大数据时代20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data2011年5 月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念什么是大数据:Big Data名词由来 大数据=海量数据+复杂类型数据 海量和非结构化,增长如此之块,以至于难以使用现有的数据库管理工具来驾驭,困难在于数据的获取、存贮、搜索、共享、分析和可视

7、化等方面 大数据的定义数据量复杂性:种类和速度销量库存薪酬表客户信息合约ERP/CRMWEB2.0广告博客搜索营销文本/图像网络日志大数据社会情绪音频/视频传感器RFID维基/博客微博金融信息个人数据位置信息政府信息气象数据保险信息EBPBTBGB维基的大数据定义 大数据是任何超过了一台计算机处理能力的数据量亚马逊的大数据定义 大数据是由局部数据汇聚而成能反映出整体的数据,整体的数据又随时空在不断膨胀。Informatica的大数据定义 大数据=交易数据+互动数据+观测数据中国电信的大数据定义数据量中心的大数据定义 如果自然界中的事件完全不可预测地随机发生,人们的生活将无法忍受;与此相反,如果

8、每一件事情都是确定的、完全可以预测的,则生活将是无趣的。利用因果关系解释观测的现象或预测未来存在逻辑和实际上的困难。大数据的理性认知美C.R 劳 与传统比较,大数据的分析处理的核心是预测和推断,根本的变革在于不刻意追求因果关系,而更多关注相关关系。也就是说,只要知道和什么有关,而不必强求为什么有关。英舍恩伯格 大数据时代来临,使人类第一次有机会和条件在非常多和非常深入的层次获得和使用全面数据、完整数据和系统数据,简而言之就是样本=总体。英舍恩伯格 大数据为政府统计提供了总体性、非结构化、丰富真实的原始资料,可以极大地缩短数据采集时间,减少报表填报任务,减轻调查对象负担,提高统计数据质量。国家统

9、计局 马建堂大数据,也叫全局数据、总体数据,数据量越大其预测和推断的准确性越高1.体量Volume2.多样性Variety3.价值密度value4.速度Velocity大数据的异构和多样性,多种形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义以大量的不相关信息对未来趋势与模式的可预测分析,深度复杂分析,机器学习、人工智能实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合大数据:4V特性非结构化数据超大规模的爆发式增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50

10、倍,占总数据量8090%大数据不仅仅是数据“大”多大?PB级比大更重要的是数据的复杂性、全面性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值软件是大数据的引擎大数据与传统数据库的区别大数据是在传统数据库学科的分支数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:结构化程度:传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动

11、收集的监控结果等等,显然不同的格式处理起来更加困难。噪声(异常)数据的处理:传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。大数据市场分析12011年-2016年中国大数据市场规模2各行业大数据市场规模l政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。l由于各个行业都存在大数据应用需求,潜在市场空间非常可观。l2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将

12、迎来大数据市场的飞速发展。l2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。国际企业角力大数据 EMCEMC的大数据解决方案专注于使组织更有效地使用他们从不同来源产生的数据,包括网络上,网页上,消费者,监控系统和传感器。EMC的数据计算产品事业部正在开发分析工具以解决大数据现象。EMC的大数据解决方案包括40多个产品。2010年7月收购数据库软件供应商Greenplum,花费3亿美元2009年七月收购数据复制解决方案提供商Data Domain,花费24亿美元不一定和大数据完全相关,EMC从2009年起收购了A

13、rcher Technologies,SourceLabs,FastScale Technology,Configuresoft,and Varonis Systems。IBMIBM的策略是提供一个全面的方法来解决前所未有的信息爆炸提出的挑战,因为信息量无论在流量、种类、速度还是活力上都是爆炸式增长IBM一直致力于扩大对包括数据仓库中的大数据、信息流和结构化数据的分析在在过过去四年中,去四年中,IBM已已经经投入超投入超过过120亿亿美元美元进进行了行了23项项相关相关并并购购,其中包括:,其中包括:2010年9月收购数据库分析供应商Netezza公司,花费17亿美元2010年10月收购网络分

14、析软件供应商Coremetrics2009年10月收购数据分析和统计软件提供商SPSS,花费12亿美元2009年1月收购业务规则管理软件供应商ILOG,花费3亿4千万美元2007年花费20亿美元收购商务智能软件供应商Cognos微微软软微软提供了高性能计算能力,并在2005年靠Windows Compute Cluster服务器进入相关市场最近,微软的HPC部门开发了该公司的Dryad 并行处理技术社区技术预览(CTP),第一步是向Windows HPC Server的用户提供处理大数据工具甲骨文甲骨文甲骨文大数据提供的数据库和数据库软件主要用于配合Sun的硬件,特别是它的最高端服务2009年

15、7月收购专注于数据复制和实时数据集成解决方案的私人企业GoldenGate Software大数据的产业价值链数据的掌控者,拥有或者可以收集大量数据的公司。海量的数据就是财富,可以考虑自己分析或者卖数据给其他公司。技术供应商或者分析公司。掌握了从海量数据中分析出有用信息的技能或者工具,但本身不一定拥有数据。有创新思维的人或者公司。他们对大数据敏感,有怎样挖掘数据的新价值的独特想法。分析技术:数据处理:自然语言处理技术统计和分析:A/B test;top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存

16、取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等大数据技术体系:取、存、管、用存储结构化数据:p海量数据的查询、统计、更新等操作效率低非结构化数据p图片、视频、word、pdf、ppt等文件存储p不利于检索、查询和存储半结构化数据p转换为结构化存储p按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)高并发读写大数据核心技术需求高效率存储 和访问高可扩展性和高可用性低成本建设运维l 保证一致性的开销过大,难以实现高并发l 存储性能受限于控制器,性能难以保证l 关系

17、型表单存储难以适应不同数据类型l 上亿行数据的超级达标效率极低l 传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高l 许可和维护花费高昂l 无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展l 数据库升级需要停机维护和数据迁移,导致服务中断l 不保证遵循ACID原则,提高并发读写性能l Schema-Free存储适应不同数据类型l舍弃SQL标准功能,尽量简化数据操作,提升效率lMapReduce实现高效访问l 基于X86设备,价格低廉l开源系统,节省许可费用l 支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力l数据库升级不影响服

18、务持续大数据的分析模型研究对象由组织、用户、大数据和工具构成的运行系统研究内容大数据的构成 大数据的行为 大数据的行为和数据的组织研究方法知识工程解构大数据系统研发工程支撑大数据系统价值工程牵引大数据系统研究目标大数据生产平台大数据开发平台大数据采集平台大数据应用平台研究重点数据分而治之资源组织调度逻辑复制迁移组织大数据用户工具知识工程研发工程价值工程社会价值结构功能信源信宿信道控制状态协同生产采集存储应用传递展现概念定议划分经济价值科技价值商业价值为什么是什么怎么做大数据变革既有数据观:以变革始大数据将变革人们认世界的模式,最重要的是建模分析的方式;由选择抽样到全样本(all-sample)

19、,“样本=总体”;大数据更重视相关关系,而不去过于追求因果关系;即使从前的建模也一样是模拟,无法解决因果;大数据将彻底改变IT公司的构成,拥有数据、技术与思维的公司将三足鼎立,但最终拥有数据的公司将最有价值。大数据改变政府和企业对待数据的观念,真正认识到数据的重要性政务的大数据需求:原有异构数据的整理收集以及未来的应用创新 大数据是组织的一种资产 数据资源已经是上升为国家的战略资源。人类已进入“后信息经济时代”,即智慧经济。智慧经济是一种创新形态的萌生经济,能实现经济与环境、能源、社会最大限度的可持续发展。大数据是智慧经济的基础。从哪里来、当前在哪里、要到哪里去大数据是一种资产 三个小故事:智

20、者善用数据和工具 孟德尔碗豆杂交实验,基于数十年实验数据,经过采集、分析、归纳、推导、预测找到其规律。(一)使用数据 曹冲称象,大而划之、分而治之。秤是分析,算盘是汇总。(二)处理数据 平民传奇,分布式文件系统、分布式数据库系统,解决对象的切分与存贮;MR编程模式解决分析与归纳。(三)构建系统 大数据处理行为技术特征数据无限分而治之功能有限复制分发 大数据系统的定义 是一个以人为主导,利用计算机硬件、软件、网络通信设备以及其他办公设备,进行信息的收集、传输、加工、储存、更新、拓展和维护的系统 是一个将各类信息系统产生的数据作为存贮、分析和利用的信息系统,通过借助计算机硬件、软件、网络通信设备以

21、及其他设备,实现对数据的收集、存贮、处理、传递、备份的系统。管理信息系统大数据系统 大数据系统的设计目标设计目标1可以存贮海量数2可以进行高速处理3可以快速开发出并行服务4可以搭建在廉价的机群上 大数据系统的逻辑架构数据应用层外部系统层数据计算层数据节点子系统任务节点子系统综合管控层信息安全保障体系标准规范体系数据分析层 定制计算子系统 数据分析子系统 数据仓库子系统 数据域节点子系统任务节点子系统名称节点子系统作业节点子系统数据库主节点子系统统一协同节点子系统备份节点子系统 数据调用子系统 数据呈现子系统 数据采集子系统 ERP系统 电子商务网站 与现有系统的关系现有系统大数据系统数据输入分

22、布节点1分布节点2分布节点3输出现有系统调用大数据系统分布节点1分布节点2分布节点3输出HADOOPMaHout主流大数据库 使用现状大数据现象An EverestSized Opportunity!p容量单位:从K到YKMGTPEZYKKilo1K字节=1,024字节MMeg1M字节=1,048,576字节GGiga1G字节=1,073,741,824字节TTera1T字节=1,099,511,627,776字节PPeta1P字节=1,125,899,906,842,624字节EExa1E字节=1,152,921,504,606,846,976字节ZZetta1Z字节=1,180,591,6

23、20,717,411,303,424字节YYotta1Y字节=1208,925,819,614,629,174,706,176字节数据存储单位及换算关系大数据的价值(Value)大数据的价值密度低。大数据将引发新的“智慧革命”:从海量、复杂、实时的大数据中可以发现知识、提升智能、创造价值。有了云计算、物联网,但缺乏大数据分析处理的核心技术,智慧城市的“大脑”就不够发达,“智商”就不够高,能力就不够强。广义的大数据人才、组织(数据科学家等)数据处理、存储、分析技术(Hadoop、NoSQL、机器学习、统计分析等)非结构化数据(文本、视频、声音、传感器、GPS等)结构化数据(客户数据、销售数据等)

24、狭义的大数据(具备3V特征)广义的大数据新信息世界观:物理世界、信息世界、人类社会组成三元世界大数据共生智能系统中的数据、信息与知识管理组织与社群:人类集体智能决策与问题求解扩展的计算机网络系统:人工智能数据加工平台可感知的环境与物品:周遭智能(AmI)感知与执行终端数据、信息、知识流转共生智能系统:综合集成共同解决现实的复杂问题大数据对社会发展的影响第三部分大数据对社会发展的影响科学研究第四种范式公共管理大数据国家战略智慧城市工业生产与商业经营大数据产业链与商务智能自然科学大数据专刊2011年2月11日出版的科学2008年9月3日出版的自然杂志刊登专题大数据杂志刊登专题数据处理第四种范式 观

25、察与经验描述与实验、理论建模、仿真与计算等科研模式之后,当代又出现了数据密集型的科研范式。微软公司于2009年10月发布了TheFourthParadigm:Data-IntensiveScientific,首次全面地描述了快速兴起的数据密集型科学研究。“TheNextScienceRevolution”,HarvardBusinessReview,November2010第四范式:数据密集型的科学发现中文版科学正在进入一个崭新的阶段。在信息与网络技术迅速发展的推动下,大量从宏观到微观、从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动,产生出大量科学数据,形成被成为“大数据”(Bi

26、gData)新的科学基础设施。大数据国家战略 2012年5月,联合国发布了大数据促发展:挑战与机遇白皮书。国家大数据战略2015年8月,国务院促进大数据发展行动纲要。2015年9月,贵州获批全国首个大数据综合实验区。2015年11月,中国共产党十八届五中全会公报提出要实施“国家大数据战略”。2016年3月,“十三五”规划纲要中指出,实施国家大数据战略。2016年8月,国家发改委发布关于组织申报大数据领域创新能力建设专项的通知,组建13个国家级大数据实验室。2016年10月,第二批国家级大数据综试区,包括两个跨区域类综试区(京津冀、珠江三角洲),四个区域示范类综试区(上海、河南、重庆、沈阳),一

27、个大数据基础设施统筹发展类综试区(内蒙古)。公共管理智慧城市建设愿景“智慧城市”系统体系结构综合应用智能处理传输感知华为公司提议的一个“智慧城市”系统体系结构物理空间信息与知识空间社会心智空间智慧城市的三个空间理论智慧城市的三个空间理论城市管理是个复杂学科,智慧城市建设是一项复杂的系统工程。对智慧城市的建设应该同时着眼于三个空间的整体。44大数据:变革世界的关键资源Dataarebecomingthenewrawmaterialofbusiness:aneconomicinputalmostonaparwithcapitalandlabor.数据正逐渐变成商业所需的原材料之一:一项几乎和资本或

28、劳力一样重要的经济原料。(Feb.27th,2010)产业界的关注麦肯锡咨询公司“大数据”研究报告“Bigdata:Thenextfrontierforinnovation,competition,andproductivity”McKinseyGlobalInstitute,May2011.高德纳(Gartner)研究与顾问咨询公司大数据产业链大数据产业是指对互联网、移动互联网、运营商等渠道产生的大量数据资源进行快速获取、收集存储、价值提炼、智能处理和分发,从而用于企业决策支持等方面的信息服务业。大数据全生命周期可以划分为“数据产生数据采集数据传输数据存储数据处理数据分析与挖掘数据发布、展示

29、和应用产生新数据”等阶段。大数据产业链主要包括数据源层、数据存储平台层、数据分析和挖掘层以及大数据应用层。大数据应用层主要分布在互联网、电信、金融、零售和政府等行业,和企业用户的业务更加的结合的紧密,通过大数据分析实现商业智能(BI)、决策支持和用户需求挖掘等应用价值。大数据产业链大数据产业链通信行业大数据产业链结构Gartner魔力象限 横轴:前瞻性(CompletenessofVision)包括厂商或供应商提供的产品底层技术基础的能力、市场领导能力、创新能力和外部投资等等。纵轴:执行能力(AbilitytoExecute)包括产品的使用难度、市场服务的完善程度和技术支持能力、管理团队的经验

30、和能力等。NichePlayers利基者、投机者 Challengers挑战者 Visionaries有远见者、愿景者 Leaders领导者、行业领袖522016年数据仓库和数据管理解决方案魔力象限2017年商务智能(BI)魔力象限智能决策与管理科学目前决策制定者正在被大量的数据淹没,数字信息从各种各样的传感器、工具和模拟实验那里源源不断地涌来,令企业的组织能力、分析能力和储存信息的能力捉襟见肘。正如麦肯锡的报告揭示的那样,商业管理作为科学的一个特性正在越来越凸现出来。管理与管理系统管理是管理主体作用于管理客体的活动过程。随着科技的发展,管理及管理系统的数字化、网络化、智能化已越来越受到人们的

31、广泛关注。信息管理系统:数据处理系统、检索系统、计算机辅助系统、管理信息系统(MIS)、办公自动化系统(OA)、决策支持系统(DSS)、知识管理系统(KMS)等。决策与信息“决策”一词的英语表述为decision-making,意思就是作出决定或选择。当今是信息爆炸时代,重要的不是获得信息,而在于对信息的加工和分析,使之对决策有用。决策者需要的是对决策有意义的新信息,决策者的注意力是一种最宝贵资源,不能无谓消耗在大量无关的信息上。对信息的提供,就应当有一定条件的限制,不符合这些条件的信息,不应该输送给决策者。所以信息系统应该包括一个筛选系统,以保证提供与决策有关的有用信息。决策需要信息与知识情

32、报阶段:确定问题设计阶段:找出解决方案选择阶段:选出解决方案实施阶段:实施方案返回情报阶段返回设计阶段返回选择阶段西蒙决策过程的四个阶段决策的过程发现那些需要引起注意的征兆并加以解释,例如销售滑坡、生产成本猛涨、老顾客对新产品的需求、新竞争对手带来的威胁等。最优方案由多种因素决定,如成本、实施的难易程度、对员工的要求、方案实施的时间顺序等。执行选中的方案,检测实施的结果,并作出必要的调整。商务智能和数据挖掘的作用第四部分第四部分什么是商务智能?高级管理人员信息系统(EIS)管理信息系统(MIS),决策支持系统(DSS)数据库技术,数据仓库(数据集市)数据整合与清洗工具 查询和报告工具,在线分析

33、处理工具(OLAP)统计数据分析,数据挖掘 分析性ERP、CRM、SCM 企业绩效管理,平衡记分卡商业智能Gartner 商业智能的概念于1996年最早由加特纳集团(GartnerGroup)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。什么是商务智能?商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商

34、务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。http:/ 企业这里用“组织机构”或“实体”会显得更完整,因为所有的组织机构和实体(不只是企业)都可以而且应该利用商务智能;之所以仍用“企业”是为保持与“商务”的一致性。各行各业,包括非企业性机构,比如政府部门、教育机构、医疗机构和公用事业等,都应该而且能够利用商务智能。现代信息技术利用现代信息技术这是这一定义中的关键之一,I IT T的发展产生了信息经济和信息社会,在这一新型的经济和社会形态中,信息的爆炸式激增又产生了对能够处理和控制信息的新技术的强烈需求;商务智能就是新的I IT T在商务分析中的有效利用。BIBI过程中所涉及的IT

35、IT主要有:从不同的数据源收集的数据中提取有用的数据,对数据进行清理以保证数据的质量,将数据经转换、重构后存入数据仓库或数据集市(这时数据变为信息),然后寻找合适的查询、报告和分析工具和数据挖掘工具对信息进行处理(这时信息变为辅助决策的知识),最后将知识呈现于用户面前,转变为决策。收集数据收集收集数据是管理和分析数据的前提,数据收集工作是十分重要的,必须引起企业的充分重视,在这方面中国企业与世界上发达国家中的先进企业之间的差距非常大,这是商务智能在中国还不能很快成熟起来的重要原因之一,这应了中国的一句俗话:“巧妇难为无米之炊”。数据和信息的收集主要是通过各种交易系统进行的,比如ERP、CRM、

36、SCM和E-Business等系统。随着中国企业在这些方面的进步,数据和信息的数量会快速增长的。另外,信息,特别是非结构化的信息,来自公司各个部门和各个员工创造和收集的、没有放在上述交易系统中的内容。第三方也是企业收集数据和信息的一个重要来源,这样的外部数据和信息包括市场调研报告、人口统计报告、顾客信用报告等。管理和分析数据 管理这里的“管理”主要是指对数据的储存、提取、清洗、转换、装载、整合等工作,其目的主要是为了提高数据的质量和安全性。分析“分析”是一个广泛的概念,这里包括数据查询、数据报告、多维分析、数据挖掘、高级统计分析等。大多数人理解的商务智能都集中在这些分析工具上。结构化与非结构化

37、数据结构化结构化的数据主要是指储存于各个交易系统背后的关系型数据库中的数据,通常都是以表格的形式存在和展现的。传统的商务智能概念只包括这种结构化的、可定量的数据。非结构化的非结构化的数据和信息主要是上面的提到的各个部门和各个员工创造和收集的、没有放在各种交易系统中的内容,通常是以零散的文件形式存在和展现的;新的商务智能概念纳入了非结构化内容的分析,但是非机构化的内容的管理仍然主要是通过文件管理和内容管理(DocumentManagement&ContentManagement)软件来进行的。商务数据和信息商务数据和信息并不能加以狭隘的理解,这里所致的商务数据和信息包括一切可能对商务产生影响的、

38、直接和间接的数据和信息,往小里说包括顾客的名字、地址和电话号码等,往大里说包括过国际上的政治、经济、文化和军事情况等。商务智能的目的创造和累计商务知识和见解这是商务智能的第一层的目的和功能,也是最直接的目的和功能;“知识和见解”正是“智能”得名的由来。改善商务决策水平这是商务智能的更高一层的目的和功能,企业能否利用好这一功能、实现这一目的在很大程度上取决于领导者的意识和胸襟以及企业文化中决策科学化和民主化的成分。商务行动与商务流程 采取有效的商务行动采取有效的商务行动是创造和累计商务知识和见解、改善商务决策水平的目的和动力。商务智能是能够指导实战的高明兵法,而不是“无所不知、但无能为力”的“纸

39、上谈兵”。完善各种商务流程残缺、散乱、僵化、低效的商务流程是企业的顽疾,商务智能能够为这一顽疾的诊断和治疗做出一定的贡献;优化后自动化(请注意先后顺序)的商务流程反过来也会促进商务智能的发展。商务绩效 提升各方面商务绩效这是商务智能在企业内部的最高目的和作用,有效的商务智能系统和技术能够帮助企业提升各个方面的绩效:财务的和非财务的,前台的和后台的,企业内的和供应链内的,组织的和个人的。企业绩效管理已成为热门的管理和技术概念,这既是因为各种软件厂商的推动又是因为企业所面临的绩效方面的压力的增大。综合竞争力增强综合竞争力这是商务智能在企业中的最高目的和作用。商务智能事关企业的兴衰成败和生死存亡。如

40、今以及未来企业之间的竞争是主要是综合智能上的竞争,不管是中国企业还是外国企业,不管是国营企业还是民营企业,不管是大企业还是小企业,都必须提高企业经营和竞争活动中的智能水平,争取成为优秀的智能企业,否则一定会落后于智能上高人一等、捷足先登的企业。智慧和能力把商务智能分为智慧和能力是因为真正的商务智能既有思想层面也有行动层面(而且“智能”本身可以一分为二、二合为一)。商务智能的关键技术 起源:从数据到知识的挑战和跨越 结蛹:数据仓库之厚积薄发 蚕动:联机分析处理之惊艳 破茧:数据挖掘之智能生命的产生 化蝶:数据可视化的华丽上演数据、信息与知识每时每刻,我们身边都充满了各种各样的数据。但只有将这些杂

41、乱无章的数据,转换为信息和知识,才能帮助我们做出聪明的选择。由于数据、信息与知识三者之间有着密切的相关性,他们常被混淆使用。我们将重点对数据、信息与知识进行分析和对比。数据(Data)数据泛指对客观事物的数量、属性、位臵及其相互关系的抽象表示,以适合于用人工或自然的方式进行保存、传递和处理。例如,水的温度是100,礼物的重量是500克,木头的长度是2米,大楼的高度时45层。在这些表述中:100;500克;2米;45层就是数据。数据的表现形式是多种多样的,除了数字,数据还以图像、声音、文字等形式表现出来。信息(Information)信息是指有一定含义的、经过加工处理的、对决策有价值的数据。信息

42、数据处理信息是有意义的数据,是被赋予相关性和目的性的数据。例如,人口的分布情况、降雨量分布情况等。可以用专门的信息管理系统对各类信息进行管理。信息管理系统的最基本功能就是数据收集和数据处理。76知识(Knowledge)知识是信息基础上的又一次升华,是浓缩的系统化了的信息。需要通过信息,使用归纳、演绎的方法得到。知识只有在经过广泛深入地实践检验,被人消化吸收,并成为了个人的信念和判断取向之后才能成为知识。知识信息+理解(understanding)与推理(reasoning)解决问题的技能(skill)决策支持系统、专家系统、案例推理系统是对人类知识的利用,而智能数据分析是获得隐含在数据信息中

43、的知识。OECD1990s知识分类3W+H信息(Information)知识(Knowledge)与智慧(Wisdom)TheDataInformationKnowledgeandWisdomHierarchy(DIKW)知识是从数据到智慧划分为不同层次的。数据分析与挖掘的价值数据分析与挖掘概况数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策n模式n趋势n事实n关系n模型n关联规则n序列n目标市场n资金分配n贸易选择n在哪儿做广告n销售的地理位置n金融n经济n政府n人口统计n生命周期数据解析学专题报告Analytics:Thereal-worlduseofbigdataH

44、owinnovativeenterprisesextractvaluefromuncertaindata(2012)数据解析学(DataAnalytics)数据解析学是多种学科的交叉的产物。商务智能e-science数据解析学统计学数据分析机器学习数据挖掘知识发现数学概率论计算机科学人工智能数据库数据仓库信息管理知识管理运筹学/管理科学什么是商务分析?(BusinessAnalytics)商务分析以商业知识为基础,以建模和编程为手段,从数据分析出发,以决策优化来创造价值的新兴专业,实现大数据的商业应用。Businessanalysisonthebasisofbusinessknowledge,

45、bymeansofmodelingandprogramming,startingfromtheanalysisofdata,tocreatevalueofemergingprofessionaldecisionmakingoptimization,implementationoflargeNumbersAccordingtothecommercialapplicationBusinessAnalyticsDescriptivePrescriptivePredictiveBusinessAnalytics云计算构建新型信息基础设施第五部分云计算与大数据大数据应用运行在云平台之上如果数据是财富,那

46、么大数据就是宝藏;云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的存储和积淀,云计算也只能是杀鸡用的宰牛刀!什么是云计算:云的业务模式Gartner高级分析师Ben Pring评价道:“它正在成为一个大众化的词语。”但是,问题是似乎每个人对于云计算的理解各不相同。作为一个对互联网的比喻,“云”是很容易理解的。但是一旦同“计算”联系起来,它的意义就扩展了,而且开始变得模糊起来。有些分析师和公司把云计算仅仅定义为计算的升级版基本上就是互联网上提供的众多虚拟服务器。另外一些人把云计算定义的更加宽泛,他们认为用户在防火墙保护之外消费的任何事物都处于“云”之中。人云

47、亦云 众说纷纭提交请求硬件软件服务存储网络云用户按需付费服务什么是云计算:业务模式1服务可租用:用户所需资源不在客户一端而在网络2服务可计量:服务能力具有分钟级或秒级的计量能力3高性价比:具有较之传统模式5倍以上的性价比优势云计算云计算的定义与特征(12345)通过网络接入弹性可扩展的物理或虚拟资源池,并可以以按需、自服务的方式对资源进行部署和管理的服务模式1:提供者以租代售,由卖产品变为卖服务,提高资源利用率并降低服务成本2:使用者以租代买,提高投资回报率1:SAAS(软件即服务)2:PAAS(平台即服务)3:IAAS(基础设施即服务)1:私有云2:社区云3:公有云4:混合云1:宽带网络接入

48、2:按需服务3:资源共享4:快速弹性扩展5:服务可度量什么是云计算:技术特性v虚拟化技术硬件虚拟化系统虚拟化应用虚拟化v并行运算技术映射(Map)归约(Reduce)云计算的4大支撑技术四大技术是拆分分布技术是合成一机变多机一算变多算一存变多存v海量数据管理技术列族存贮主服务器子表服务器v海量数据存贮技术元数据节点数据节点一库变多库云的四大效能:对客户的价值整体高效、资源共效按需分配、均衡统筹互联互通数据统一云最大的优势,有效解决资源、信息孤岛问题共享硬件资源:计算、存储、网络统一管理业务、应用、数据统一安全服务统一管理服务标准、规范、法规体系专网专网专网专网专网专网世界领先IT公司服务器持有

49、量名称服务器数量备注谷歌(Google)100万台2010年底依能耗推算数据为90万台,总数约占全球的2%,Google 2005年建成的一个单体数据中心的服务器数量就高达4.5万台。估算当前全球的服务器数量(30多个数据中心)数量应在100万台。亚马逊45.4万台据中国软件网推测,这些服务器分布于全球7100个机架上,过去6个月每月新增110个机架惠普(HP/EDS)38万台HP收购的EDS运营着180个数据中心微软30万台2008年,微软那时有21.8万台服务器。微软在芝加哥的新服务器农场能容下30万台服务器百度25台据华为称,百度服务器数量每年以10万台以上的速度增长,百度数据中心采用了

50、华为 S9300设备。从市场份额和业务量推算从2009年以来,百度服务器应在40万台。腾讯20万台主要分布在深圳、上海、北京、天津、成都。其中腾讯天津数据中心,2009年初开建,投资5亿美元,服务器托管能力超过10万台。2011年开工建设的腾讯深汕云计算数据中心,总用地面积20万平方米,服务器20万台,总投资额20亿元人民币。Facebook 6万台全球拥有8亿用户,在俄勒冈州普赖因维尔(Prineville)建造的新数据中心投资达2.1亿美元,数据中心第一期工程已于2011年建设完成,建设面积为30万平方英尺云计算产业市场前景孵化数20112012201320142015当年10020040

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(大数据挖掘与商务智能简述课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|