1、路漫漫其悠远路漫漫其悠远2022-6-2大数据分析和内存计算大数据分析和内存计算路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核路漫漫其悠远路漫漫其悠远2022-6-2大数据(Big Data)时代来临移动互联网Mobile Internet物联网Internet of Things新量级、新处理模式、新企业智能路漫漫其悠远路漫漫其悠远2022-6-2在Web 2.0时代,人们从信息的被动接受者变成了主动创造者路漫漫其悠远路漫漫其悠远2022-6-2大数据举例互联网:社交网络、视频、图片、
2、电子商务物联网:移动设备、传感器天文、地理、环境、气象、交通信息扫描书籍、历史文献、社会交互信息医疗扫描、电子病历路漫漫其悠远路漫漫其悠远2022-6-2大数据典型应用搜索引擎: Google 、Bing、Baidu、电子商务:淘宝、京东、Amazon、eBay零售业:Walmart 可能净利润增长水平为60%或以上政府公共服务欧洲政府部门每年3500亿美元,大约每年0.5%的增长率医疗服务美国每年3000亿美元,大约每年0.7%的增长率制造业产品开发、组装成本降低50%路漫漫其悠远路漫漫其悠远2022-6-2大数据潜力不同行业中,企业信息化成熟度差异明显不同行业中,企业信息化成熟度差异明显政
3、府政府 等行业等行业 的信息化成熟的信息化成熟 度明显领先,总度明显领先,总 体体处于扩展和处于扩展和 整合优整合优 化阶段化阶段 ;除金融和电信之外的服务行业的信息化建设成除金融和电信之外的服务行业的信息化建设成熟度相对较低熟度相对较低,仍处仍处 在成长阶段。在成长阶段。对大数据的处理需求将启发对于对大数据的处理需求将启发对于IT系统投资新系统投资新热点,证实热点,证实IT推动业务发展,增加对推动业务发展,增加对IT投资。投资。从从IT系统走向大数据决策分析系统走向大数据决策分析未来着眼点在于服务未来着眼点在于服务2000制造业制造业金融金融电信电信政府政府互联网企业互联网企业自动化走向初步
4、信息化自动化走向初步信息化快速发展快速发展整体解决方案需求整体解决方案需求年年600亿投资规模亿投资规模信息化走向移动互联化信息化走向移动互联化基本架构已经建立基本架构已经建立相对成熟相对成熟500亿以上投资规模亿以上投资规模手工化向自动化转型:手工化向自动化转型:成熟度低成熟度低成长阶段成长阶段中国建筑信息化投入中国建筑信息化投入占总收入占总收入0.03%建筑建筑流通流通移动互联化数据智能化大数据路漫漫其悠远路漫漫其悠远2022-6-2大数据潜力路漫漫其悠远路漫漫其悠远2022-6-2国外大公司的角逐 Google:满足用户需求,将互联网将变得越来越智能。:满足用户需求,将互联网将变得越来越
5、智能。 Facebook:人际网络,创造新的需求。:人际网络,创造新的需求。 Google利用好用的、免费得软件产品,换取对用户的理解;通过精准的利用好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道,颠覆了微软卖软件拷贝赚钱的模式。广告,找到生财之道,颠覆了微软卖软件拷贝赚钱的模式。互联网越来越智能互联网越来越智能Google精确掌握用户行为、获取需求精确掌握用户行为、获取需求路漫漫其悠远路漫漫其悠远2022-6-2国内大数据计划国内各地制定云计算国内各地制定云计算“十二五十二五”规划规划云计算、物联网园区云计算、物联网园区中国各地制定或公布了云计算、物联网等产业规划;这
6、些工程的初始着眼点在房地产,政中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。 云计算、物联网、社交化媒体、云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括的为大数据提供了丰富的数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术发展,我们即将步入基于大数据的智能化时代。分析
7、的技术发展,我们即将步入基于大数据的智能化时代。路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据背景大数据由来大数据由来大数据定义大数据定义大数据与相关领域的关系大数据与相关领域的关系大数据挑战大数据挑战大数据现有系统大数据现有系统大数据现有关键技术大数据现有关键技术课程介绍课程介绍课程考核课程考核路漫漫其悠远路漫漫其悠远大数据诞生大数据诞生Big Data专刊IT企业研究报告科学研究“第四范式”“十二五”规划美国重大研究计划Dealing with Data专刊路漫漫其悠远路漫漫其悠远传染病预测海啸实时预警搜索与电子商务大数据研究意义智能交通路漫漫其悠远路漫漫其悠远大数据研究意义
8、 居民消费价格指数(CPI) CPI意义: 与民生密切相关的国家 经济决策重要指标 反映通货膨胀率 目前存在问题: “滞后、不科学” 原社科院金融发展室主任易宪容 “86%认为CPI与消费感受不符合”中国政协网如何准确计算分析CPI 大数据计算路漫漫其悠远路漫漫其悠远大数据定义及特点大数据定义及特点大数据是通过传统数据库技术和数据处理工具不能处理的庞大而复杂的数据集合。5亿用户8亿商品20亿PV/天用户评论3万条/秒5万订单/分钟路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核路漫漫其悠远
9、路漫漫其悠远2022-6-2什么是“大数据”?海量数据(信息)非结构化数据Hadoop+Map/Reduce云计算数据 (Cloud Data)数据密集型计算数据(DIC Data)路漫漫其悠远路漫漫其悠远2022-6-2大数据的性质(4V)VolumeVolume海量的数据规模海量的数据规模VarietyVariety多样的数据类型多样的数据类型ValueValueVelocityVelocity快速的数据流转快速的数据流转巨大的数据价值巨大的数据价值路漫漫其悠远路漫漫其悠远2022-6-2大数据的性质实例城市计算速度快(Velocity)北京出租车每分钟400万条定位数据类型多(Varie
10、ty)POI、路网、轨迹、路况、评论价值密度低(Value)特殊事件(赛事、事故)用户评论(污染、堵塞)规模大(Volume)街旁网有1亿次签到数据机器&人工路漫漫其悠远路漫漫其悠远2022-6-2大数据 外延与应用密切相关的各类数据,强调对于支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构、质量差的数据生产数据、设计数据、统计数据文本、多媒体数据、各种文档数据Heterogeneous Information Network世界上的数据80%是非结构化数据80-20规则路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现
11、有系统大数据现有关键技术课程介绍课程考核路漫漫其悠远路漫漫其悠远2022-6-2与大数据相关的几个热点问题非结构化数据云计算与大数据Hadoop + HDFS + Map/ReduceNoSQL路漫漫其悠远路漫漫其悠远2022-6-2什么是半结构化/ /非结构化数据23Social MediaMachine / SensorDOC / MediaWeb ClickstreamAppsCall LogLog路漫漫其悠远路漫漫其悠远2022-6-2云计算与大数据云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式云计算是继大型主机、PC、互联网之后的IT领域的最新一次
12、重大变革Amazon和Google是始作俑者虽然云计算和大数据是沿着不同的道路发展而来的,两者在技术和应用上相辅相成云计算提供的服务离不开它所能承载的大数据解决大数据的挑战,云计算模式是可行的方案云计算遭遇大数据是发展的必然趋势云计算遭遇大数据是发展的必然趋势路漫漫其悠远路漫漫其悠远云计算与大数据云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式云计算是继大型主机、PC、互联网之后的IT领域的最新一次重大变革Amazon和Google是始作俑者云计算技术、CTO、成本大数据业务、CEO、价值云计算遭遇大数据是发展的必然趋势云计算遭遇大数据是发展的必然趋势路漫漫其悠
13、远路漫漫其悠远2022-6-2Amazon 云服务弹性计算云EC2简单存储服务S3简单数据库服务Simple DB简单队列服务SQS弹性MapReduce服务内容推送服务CloudFront电子商务服务DevPay灵活支付服务FPS路漫漫其悠远路漫漫其悠远2022-6-2大数据技术就是Hadoop+M/R?来源于Google,在类似搜索引擎的查询并行化分析处理领域取得极大成功针对大规模数据密集型应用的编程范式(programming paradigm)所基于的BigTable和HDFS 是非常质朴的数据模型和存储系统适用领域有限,为大数据研究打开了思路,但绝不代表大数据技术全部回到起点来重新审
14、视数据管理之目的回到起点来重新审视数据管理之目的路漫漫其悠远路漫漫其悠远MapReduceMapReduce是一种编程模型,用于大规模数据集(一般大于1TB)的并行运算的实现特性用户自定义函数自动并行化容错I/O调度监听路漫漫其悠远路漫漫其悠远2022-6-2MapReduce路漫漫其悠远路漫漫其悠远Hadoop一个分布式系统和并行执行环境Hadoop这个框架实现了MapReduce,方便用户海量处理数据特点:扩容能力强成本低高效率可靠性适合场景大数据分析离线分析不适合场景少量数据复杂数据在线分析路漫漫其悠远路漫漫其悠远2022-6-2大数据和数据库的关系数据库界从一开始就探索过,但还是过于保
15、守忘不掉ACID,舍不得Relation,忽视实际应用沉浸在自己的世界里空值理论(Null Value),泛关系 (Universal Relation)数据库设计的范式理论(FD, MVD, 4NF,5NF,)潜意识地奉行“一招鲜”(One Size Fits All, OSFA)Hadoop+Map/Reduce+Bigtable+HDFS响亮一击回到起点来考虑数据管理问题,豁然开朗大数据是数据库的自然延伸大数据是数据库的自然延伸路漫漫其悠远路漫漫其悠远2022-6-2数据库 关系代数 索引 查询优化 事务处理姓名姓名学号学号班级班级年龄年龄性别性别住址住址籍贯籍贯电话电话张三100计91
16、20男北京海淀北京89150李四200计9219男北京东城北京88888王五300计9318女北京西城北京77777赵六400计9419女北京朝阳北京99999刘七500计9521男北京丰台北京88666课程名课程名课程号课程号地点地点教师教师DB15101李国良DB25102冯建华DM35103王建勇学号学号课程课程号号分数分数100199200198300297路漫漫其悠远路漫漫其悠远2022-6-2路漫漫其悠远路漫漫其悠远2022-6-2路漫漫其悠远路漫漫其悠远2022-6-2事务处理 原子性(原子性(AtomicityAtomicity) - 不可分割不可分割 一致性(一致性(Cons
17、istencyConsistency)- - 前后一致前后一致 隔离性(隔离性(IsolationIsolation)- - 并发并发 持久性(持久性(DurabilityDurability)- - 永久永久路漫漫其悠远路漫漫其悠远2022-6-2大数据的系统需求High performance 高并发读写的需求高并发、实时动态获取和更新数据Huge Storage 海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询High Scalability & High Availability 高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间
18、断服务路漫漫其悠远路漫漫其悠远2022-6-2高并发读写大数据存储的大数据存储的 核心需求核心需求高效率存储 和访问高可扩展性和高可用性低成本建设运维l 保证一致性的开销过大,难以实现高并发l 存储性能受限于控制器,性能难以保证l 关系型表单存储难以适应不同数据类型l 上亿行数据的超级达标效率极低l 传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高l 许可和维护花费高昂l 无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展l 数据库升级需要停机维护和数据迁移,导致服务中断l 不保证遵循ACID原则,提高并发读写性能l Schema-Free存
19、储适应不同数据类型l舍弃SQL标准功能,尽量简化数据操作,提升效率lMapReduce实现高效访问l 基于X86设备,价格低廉l开源系统,节省许可费用l 支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力l数据库升级不影响服务持续RDMSNoSQL路漫漫其悠远路漫漫其悠远2022-6-2大数据管理三个层次Web数据管理决策数据管理科学数据管理路漫漫其悠远路漫漫其悠远2022-6-2Web数据管理数据处理检索实时检索查询连续查询分析文本结构化数据图通常依赖于廉价PC机所搭建的集群路漫漫其悠远路漫漫其悠远2022-6-2Web数据管理示例:社交媒体数据管理关注列表join活动列表活动列
20、表join活动列表实时统计推送系统的行为用户页面获取个性化内容展示“消息链”丰富信息量节省通讯目的看似简单的页面显示需要后台的大量查询处理支持路漫漫其悠远路漫漫其悠远2022-6-2Web数据管理示例:社交媒体数据管理难点T: 110M条消息/天1200条/秒 19GB/天(文本)W: 峰值32312条/秒W: 平均每个人关注540人T: 平均每个人关注36人W: 转发超过1000的微博中,超过80%的转发发生在1个小时之内的占59要求:(准)实时,大规模并发要求:(准)实时,大规模并发计算:查询,连接,统计计算:查询,连接,统计关注列表join活动列表活动列表join活动列表实时统计推送T:
21、 W: 路漫漫其悠远路漫漫其悠远2022-6-2决策数据管理数据处理检索实时检索查询连续查询分析文本结构化数据图通常使用高性能服务器和专用存储设备路漫漫其悠远路漫漫其悠远2022-6-2决策数据管理传统DBMS秉承的 one-size-fits-all 的理念不合适OLAP和数据仓库技术在新的硬件和体系结构情形下有新的发展机遇高可靠的MPP架构内存计算列存储应用:实时商务智能研究问题内存数据库,廉价高性能集群,优化分析路漫漫其悠远路漫漫其悠远2022-6-2决策数据管理示例: 商务智能(BI)传统处理方式传统处理方式离线离线:ETLETL,物化视图,报表生成,规则提取模型训练,物化视图,报表生
22、成,规则提取模型训练在线在线:OLAPOLAP新问题:新问题:GPS, RFID, GPS, RFID, 离线离线ETLETL不能满足需要不能满足需要应用:应用:智能电网、供应链管理、物流优化、智能电网、供应链管理、物流优化、路漫漫其悠远路漫漫其悠远2022-6-2科学数据管理数据处理检索实时检索查询连续查询分析文本结构化数据非结构半结构数据异构、分布式系统路漫漫其悠远路漫漫其悠远2022-6-2新型信息服务的商业模式互联网广告:Web + BI路漫漫其悠远路漫漫其悠远2022-6-2新型信息服务:互联网广告数据处理检索实时检索查询连续查询分析文本结构化数据非结构半结构数据路漫漫其悠远路漫漫其
23、悠远2022-6-2提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核路漫漫其悠远路漫漫其悠远2022-6-2Big Data 带来的挑战不同“看”数据的方式需要更高性价比的数据计算与储存方式不同的数据管理策略超越企业现有 IT 的数据解决能量路漫漫其悠远路漫漫其悠远2022-6-2超越企业现有 IT 数据解决能量每天几百 GB、 几 TB 的资料,且持续成长中 在收数据的同时做必要的前置处理 (pre-processing),并区分数据处理的优先等级 (prioritizing)如何有效的避免因硬件毁坏所导致的资料损毁如何从中挖
24、掘出所关注事件的 pattern 或 behavior50路漫漫其悠远路漫漫其悠远2022-6-2大数据研究挑战全面考量全面考量高可扩展性高可扩展性高性能高性能高度容错高度容错多类型多类型传统数据仓库无法存储日益增长的海量数据传统数据仓库无法存储日益增长的海量数据传统数据仓库无法有效处理新型业务的数据传统数据仓库无法有效处理新型业务的数据路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核路漫漫其悠远路漫漫其悠远2022-6-2大数据处理平台MapReduceHadoopSparkNoSQLK
25、ey-valueColumnAmazon EC2S3Mturk路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据背景大数据由来大数据由来大数据定义大数据定义大数据与相关领域的关系大数据与相关领域的关系大数据挑战大数据挑战大数据现有系统大数据现有系统大数据现有关键技术大数据现有关键技术课程介绍课程介绍课程考核课程考核路漫漫其悠远路漫漫其悠远2022-6-2大数据管理模型软件即服务多租户模型大规模并行数据管理MapReduce编程模型NoSQL数据模型CAP理论路漫漫其悠远路漫漫其悠远2022-6-2多租户(Multi-Tenancy)多租户是服务提供商来提供软件和硬件在数据库层面实现虚
26、拟化用户将软件、硬件、维护移交给第三方用户只需与第三方提供的服务交互路漫漫其悠远路漫漫其悠远2022-6-2抓住长尾大型用户大型用户$ / $ / 用户用户运营成本运营成本长尾理论长尾理论获利获利# # 用户数用户数长尾市场长尾市场 现有市场现有市场路漫漫其悠远路漫漫其悠远2022-6-2大数据管理模型软件即服务多租户模型大规模并行数据管理MapReduce编程模型NoSQL数据库CAP理论路漫漫其悠远路漫漫其悠远2022-6-2MapReduceMapReduce是一种编程模型,用于大规模数据集(一般大于1TB)的并行运算的实现特性用户自定义函数自动并行化容错I/O调度监听路漫漫其悠远路漫漫
27、其悠远2022-6-2MapReduce步骤Key-value 路漫漫其悠远路漫漫其悠远2022-6-2Hadoop一个分布式系统和并行执行环境Hadoop这个框架实现了MapReduce,方便用户海量处理数据特点:扩容能力强成本低高效率可靠性适合场景大数据分析离线分析不适合场景少量数据复杂数据在线分析路漫漫其悠远路漫漫其悠远2022-6-2大数据管理模型软件即服务多租户模型大规模并行数据管理MapReduce编程模型NoSQLCAP理论路漫漫其悠远路漫漫其悠远2022-6-2NoSQL简介N Not ot O Only nly SQLSQL,non-relational databasesn
28、on-relational databases处理超大数据量,处理超大数据量,TB or PBTB or PB级别(级别(SearchSearch)高并发(万高并发(万/s/s),不注重事务(),不注重事务(CAPCAP原则)原则)易部署、易扩展、易开发(透明)易部署、易扩展、易开发(透明)便宜便宜路漫漫其悠远路漫漫其悠远2022-6-2NoSQL背景大数据时代下的系统需求大数据时代下的系统需求High performance 高并发读写的需求高并发、实时动态获取和更新数据Huge Storage 海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询High Sc
29、alability & High Availability 高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务路漫漫其悠远路漫漫其悠远2022-6-2NoSQL数据库分类Key/Value Stores (键/值存储库)Amazon SimpleDB http:/ DB http:/ http:/memcachedb.org/Redis Redis http:/ Stores (文档库)CouchDB http:/couchdb.apache.org/MongoDB MongoDB http:/www.mongodb.org/Graph Database (图形数据
30、库)Neo4j http:/www.neo4j.org/Wide Column Stores (列存储库)Hadoop Hadoop http:/hadoop.apache.org/Cassandra http:/incubator.apache.org/cassandra/路漫漫其悠远路漫漫其悠远2022-6-2大数据管理模型软件即服务软件即服务多租户模型多租户模型大规模并行数据管理大规模并行数据管理MapReduceMapReduce编程模型编程模型NoSQLNoSQLCAPCAP理论理论路漫漫其悠远路漫漫其悠远2022-6-2CAP理论一致性(一致性(ConsistencConsiste
31、nc)可用性(可用性(AvailabilityAvailability)分区容错性(分区容错性(Partition TolerancePartition Tolerance)三者只能满足三者只能满足2 2个个Availability可用性传统关系数据库Key-value数据库Consistency一致性Partition tolerance分区容错性路漫漫其悠远路漫漫其悠远2022-6-2大数据应用举例移动互联网大数据时空大数据路漫漫其悠远路漫漫其悠远2022-6-2移动互联网拥有大数据大量用户大量用户大量数据大量数据用户通话信息用户通话信息用户喜好用户喜好位置信息位置信息网络访问网络访问电子
32、交易电子交易用户行为分析用户行为分析路漫漫其悠远路漫漫其悠远2022-6-2大数据给移动互联网带来的机遇大数据分析平台,通过挖掘海量用户信息,提供更好服务用户,更好创造价值更好的引入新客户移动广告推送在线应用平台 apple store软件即服务应用平台 amazon 路漫漫其悠远路漫漫其悠远2022-6-2移动网络中用户行为分析数据来源更多,除传统数据外,我们还关注:用户的通讯信息:电话、短信、数据服务基于位置的信息:GPS、WiFi、传感器基于时间的信息:具体时间或日期路漫漫其悠远路漫漫其悠远2022-6-2移动网络中用户行为分析路漫漫其悠远路漫漫其悠远2022-6-2个性化推荐的相关技术
33、研究用户研究用户n用户研究,用户网上行用户研究,用户网上行为分析,用户消费心理为分析,用户消费心理n社会化网络分析社会化网络分析研究商品研究商品n文本挖掘文本挖掘n图像识别图像识别n 数据挖掘,机器学习,数据挖掘,机器学习,模式识别,人工智能模式识别,人工智能n 相关性算法,相关性算法,Behavior Targetingn 概率统计,因子分析,概率统计,因子分析,主成分分析主成分分析n 分布式计算因分析分布式计算因分析n 实时计算,实时推荐,事件营销实时计算,实时推荐,事件营销路漫漫其悠远路漫漫其悠远总体研究方案大规模多源异构数据大规模多源异构数据众包、知众包、知识图谱、识图谱、情境感知情境
34、感知能耗数学原理能耗数学原理抽样邻域理论抽样邻域理论分析决策城市大数据挖掘分析数据获取 城市大数据深度理解与融合 城市大数据知识图谱构建 城市大数据的挖掘与分析 实时智能交通 城市设施规划 移动用户分析结构化数据资源结构化数据资源半结构化半结构化/ /非结构化数据资源非结构化数据资源路漫漫其悠远路漫漫其悠远大数据实例城市计算速度快(Velocity)北京出租车每分钟400万条定位数据类型多(Variety)POI、路网、轨迹、路况、评论价值密度低(Value)特殊事件(赛事、事故)用户评论(污染、堵塞)规模大(Volume)街旁网有1亿次签到数据机器&智能路漫漫其悠远路漫漫其悠远用户位置信息获
35、取与挖掘北京海淀朝阳 五道口中关村上地清华华清红杉清华华清红杉面向位置的知识图谱位置信息提取用户位置聚合与推理路漫漫其悠远路漫漫其悠远热点区域的挖掘路漫漫其悠远路漫漫其悠远用户迁徙行为的分析路漫漫其悠远路漫漫其悠远用户的轨迹挖掘路漫漫其悠远路漫漫其悠远地址间关系挖掘路漫漫其悠远路漫漫其悠远实时智能交通n路况经验模型路况经验模型北京出租车数据(北京出租车数据(100100亿)亿)用户兴趣点数据(用户兴趣点数据(3 3千万)千万)n路况实时模型路况实时模型实时路况实时路况用户共享用户共享( (滴滴等滴滴等) )路漫漫其悠远路漫漫其悠远城市地域功能区挖掘与分析 地域功能区挖掘 商业区 住宅区 城市路
36、网规划 地域功能分析 热点区域分析 路漫漫其悠远路漫漫其悠远区域挖掘(北京)http:/166.111.71.174:8000/regionalkeywords/路漫漫其悠远路漫漫其悠远路漫漫其悠远路漫漫其悠远基于位置的影响力分析 对指定区域影响力最大的用户 例如,对清华大学影响力最大的用户 基于位置的影响力传播模型 位置+影响力 实时挖掘与分析算法 索引+算法路漫漫其悠远路漫漫其悠远人物画像挖掘 大数据实体分析与挖掘 实体信息抽取 例如用户、商品 实体属性挖掘 例如性别、年龄、位置等?路漫漫其悠远路漫漫其悠远人物画像挖掘 显式属性 - 抽取 系统、屏幕、重量 隐式属性 - 挖掘 性别,年龄段
37、,职业,位置 隐式属性挖掘方法 属性特征抽取 特征训练与分类 属性特征匹配路漫漫其悠远路漫漫其悠远2022-6-2提纲大数据背景大数据由来大数据定义大数据与相关领域的关系大数据挑战大数据现有系统大数据现有关键技术课程介绍课程考核路漫漫其悠远路漫漫其悠远2022-6-2课程内容 分布式文件系统:GFS、HDFS 分布式处理系统:Hadoop,Hive,MapReduce 内存计算系统:Spark,Shark,SAP HANA 流数据管理系统:Storm,S4 新型数据库系统:NoSQL、CAP理论、图系统 新型介质上的数据管理:SSD、PCM 分布式数据挖掘 时空数据处理技术 海量数据融合技术 群智计算 做研究的一些经验和技巧路漫漫其悠远路漫漫其悠远2022-6-2课程考核 2个大作业:60% Hadoop上实现数据挖掘算法 Spark上算法实现 1个论文报告:20% 论文读后感论文存在问题、新想法、新应用 1个课堂Presentation:20% 自己阅读文献,然后总结 例如NoSQL数据库实战比较、图系统优劣分析等。