1、1一一.大数据研究的背景和意义大数据研究的背景和意义二二.与空间信息和位置相关的大数与空间信息和位置相关的大数据据 三三.位置大数据研究的经典位置大数据研究的经典案例案例四四.研究方法研究方法 五五.总结总结21 大数据时代的到来大数据时代的到来32012年奥巴马政府公布了年奥巴马政府公布了“大数据研发计大数据研发计划划”(Big DataResearch and Development Initiative),以国家战略应对大数据,以国家战略应对大数据 时代时代1中国政府、学术界和产业界积极应对,目前已经成立了多个大中国政府、学术界和产业界积极应对,目前已经成立了多个大数数 据的产学研联盟,
2、并据的产学研联盟,并在在973等科研计划中设立了相关项目等科研计划中设立了相关项目共同的目标:共同的目标:改进现有从海量和复杂的数据中获取知识的能力,改进现有从海量和复杂的数据中获取知识的能力,加速人类在科学与工程领域发明的步伐,增强国家安全,转变加速人类在科学与工程领域发明的步伐,增强国家安全,转变现现 有的教学和学习方式有的教学和学习方式1 大数据时代的到来大数据时代的到来4从高德纳从高德纳(Gartner)公公 司司2013年年7月月 发布的技术曲线发布的技术曲线成熟度报告分析,成熟度报告分析,大数据研究正处大数据研究正处 在期望膨胀期,在期望膨胀期,距离成熟期还需距离成熟期还需 要要5
3、10年时间年时间抓住这一时机抓住这一时机,是摆在学术界和是摆在学术界和 工业界面前的机工业界面前的机 会与挑会与挑战战2期望值创创新新萌萌芽芽期期期期望望膨膨胀胀期期 泡泡沫沫化化后后的的谷谷底底期期爬爬升升中的中的复复苏期苏期生生产产成熟期成熟期距距离离成成熟熟期期:超超过过10年年少少于于2年年时间2年年到到5年年5年年到到10年年生物声学传感智能微尘量子计算量化自我立体及全息显示人类增强 脑机接口3D生物打印规范分析情感计算 电震动自然语言问答物联网语音翻译移动机器人3D扫描神经商务 生物芯片 自主驾驶大大数数据据消费级3D打印游戏化可穿戴用户接口复合事件处理内容分析内存数据库虚拟助理增
4、强现实机器间通信服务移动健康监测近场通信网格网络传感云计算手势控制内存分析虚拟现实企业级3D打印 活动流消费级车联网生物特征识别位置智能语音识别预测分析1 大数据时代的到来大数据时代的到来2012年年3月月29日日发布大数据研究和发展计划发布大数据研究和发展计划六大联邦部门年投资六大联邦部门年投资2亿美金亿美金奥巴马政府奥巴马政府2012年年7月月10日日发布大数据促发展:挑战和机遇发布大数据促发展:挑战和机遇对失业率增加、区域开支、疾病暴发进行预对失业率增加、区域开支、疾病暴发进行预测测联合国联合国2012年年7月月“活活力力ICT日本日本”综合战略综合战略应用大数据解决社会公共问题应用大数
5、据解决社会公共问题日本总务省日本总务省2013年年1月月英国投资英国投资1.89亿英镑发展大数据亿英镑发展大数据占国家新技术发展资金的占国家新技术发展资金的31.5%英国政府英国政府2013年年6月月21日日中科院发表战略报告中科院发表战略报告大数据作为国大数据作为国家家7大研究领域之一大研究领域之一200多专家耗时多专家耗时1年研究得出年研究得出中国中国资料来源:大数据时代下的智慧与融合,华为存储产品线,经宁52 大数据研究的定义与内涵大数据研究的定义与内涵6定义定义Wikipedia:大型复杂数据集的聚合,这些数据集的规模和复杂:大型复杂数据集的聚合,这些数据集的规模和复杂程程 度常超出目
6、前数据库管理软件和传统数据处理技术在可接受时度常超出目前数据库管理软件和传统数据处理技术在可接受时间下间下 的获取、管理、检索、分析、挖掘的获取、管理、检索、分析、挖掘和和可视可视化化能能力力3全球大数据总量分布(全球大数据总量分布(单单位位:PetaBytes)图片来源:www.deloitte.co.za,2012 250China2 大数据研究的定义与内涵大数据研究的定义与内涵7内涵内涵大数据的大数据的“大大”,更多意义在于:人类可以处理、分析并使用,更多意义在于:人类可以处理、分析并使用的的 数据在大量增加,通过这些数据的处理、整合和分析,可以数据在大量增加,通过这些数据的处理、整合和
7、分析,可以创造创造 新价值,有时一条微博就具有颠覆新价值,有时一条微博就具有颠覆性性的价的价值值,“数数据即据即服服务务”正正 在被广泛接受在被广泛接受3 大数据的特点大数据的特点8体量体量 Volume多样性多样性 Variety价值价值 Value速率速率 Velocity非结构化数据非结构化数据的超大规模和增长的超大规模和增长 总数总数据量据量的的8090%比结比结构构化化数数据据增增长快长快10倍到倍到50倍倍是传是传统数据仓库统数据仓库的的10倍倍到到50倍倍大数据的异构和多样性大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)很多不同形式(文本、图像、视频、机器数据)无
8、模式或者模式不明显无模式或者模式不明显不连贯的语法或句义不连贯的语法或句义大量的不相关信息大量的不相关信息高价值总量、低价值密度高价值总量、低价值密度深度深度复杂分析(机器学习、人工智复杂分析(机器学习、人工智能能Vs传传统商务智统商务智 能能(咨咨询、报告等)询、报告等)实时分析实时分析而非批量式分析而非批量式分析 数据输入、处理与丢弃数据输入、处理与丢弃 立立竿见影而非事后见效竿见影而非事后见效3 大数据的特点大数据的特点Volume 巨量巨量Velocity爆量爆量Veracity 多多变变Variety多多样样全球每天新生成全球每天新生成 的的 数数 据据 约约 2.5 EB=2500
9、PB90%的数据为近的数据为近 两年生成的两年生成的每分钟每分钟Google 有有200万次查询万次查询流数据,实时响流数据,实时响 应(毫秒级)应(毫秒级)立竿见影而非事立竿见影而非事后见效后见效不同不同形形式(式(文文本、本、图像、视频、机图像、视频、机 器数据)器数据)异构:无模式或异构:无模式或 者模式不明显者模式不明显非结构化数据占非结构化数据占总量总量8090%不连贯的语法或不连贯的语法或句义句义不确定性:数据不确定性:数据 不一致、不完整不一致、不完整 引发的引发的资料来源:IBM大数据和分析,陈景浩93 大数据的特点大数据的特点从中心化的从中心化的/top-down模式转为去中
10、心化的模式转为去中心化的/自组织自组织的的 计算模式计算模式10集中式集中式TitleTitleTitleTitleTitleTitleTitle分布式分布式性能、容量、扩展性等性能、容量、扩展性等受受限限数据孤岛、管理复杂数据孤岛、管理复杂分布式实现性能与容量分布式实现性能与容量按按需扩需扩展展数据高效使用、简化管理数据高效使用、简化管理资料来源:大数据时代下的智慧与融合,华为存储产品线,经宁3 大数据的特点大数据的特点基于数据的智能:通过群体智能、社会计算、认知计算基于数据的智能:通过群体智能、社会计算、认知计算对对 数据价值的发酵和提炼,会有越来越多靠数据价值的发酵和提炼,会有越来越多靠
11、“数据的体数据的体量量+简单的逻辑简单的逻辑”的方法去解决复杂问题的方法去解决复杂问题11数据在存储与计算之间数据在存储与计算之间搬搬迁迁PB级数据时代数据搬迁代价级数据时代数据搬迁代价巨巨大大以搬迁计算代替搬迁数据以搬迁计算代替搬迁数据实现实现PB级数据快速存储与分析级数据快速存储与分析以数据为中心以计算为中心资料来源:大数据时代下的智慧与融合,华为存储产品线,经宁4 大数据的意义:科学进步大数据的意义:科学进步 科学研究的第四范式科学研究的第四范式图灵奖获得者吉姆图灵奖获得者吉姆格雷格雷(Jim Gray)提出:大数据是科)提出:大数据是科 学研究的第四范式学研究的第四范式(the fou
12、rth paradigm),是从计算),是从计算 密集型科研发展到以大数据为基础的数据密集型科研方法密集型科研发展到以大数据为基础的数据密集型科研方法12132009年至今美国政府全面开放了年至今美国政府全面开放了40万联邦政万联邦政 府原始数据集。大数据已成为美国国家创新府原始数据集。大数据已成为美国国家创新战战 略、国家安全战略、国家略、国家安全战略、国家IT产业发展战略产业发展战略以及以及 国家信息网络战略的交叉领域、核心领国家信息网络战略的交叉领域、核心领域域4 大数据的意义:社会变革大数据的意义:社会变革 被改变的政治与政府被改变的政治与政府被重塑的价值与思维被重塑的价值与思维21世
13、纪数据的价值有可能等同于世纪数据的价值有可能等同于20世纪的世纪的石石 油,大数据研究使得人们降低了对因果关油,大数据研究使得人们降低了对因果关系系 的渴求,而关注相关关系。只需要知道是的渴求,而关注相关关系。只需要知道是什什 么,而不需知道为什么。这将使得理解现么,而不需知道为什么。这将使得理解现实实 和做决定的基础也将受到根本性挑战和做决定的基础也将受到根本性挑战4 大数据的意义:经济增长大数据的意义:经济增长 新的职业新的职业将有专门针对数据科学的专业形成,有博士、硕士甚至本将有专门针对数据科学的专业形成,有博士、硕士甚至本科科 生出现。产生一批新的就业岗位,如:数据分析师、数生出现。产
14、生一批新的就业岗位,如:数据分析师、数据科据科 学家、数据工程师。具有丰富经验的数据分析人才成学家、数据工程师。具有丰富经验的数据分析人才成为稀缺为稀缺 资源资源,数据驱动型工作机会成爆炸性增长数据驱动型工作机会成爆炸性增长新的企业新的企业数据分析与互联网、云计算包括测绘行业紧密结合,形成数据分析与互联网、云计算包括测绘行业紧密结合,形成一一 批新的经济体,包括专门从事数据源收集的企业、数据批新的经济体,包括专门从事数据源收集的企业、数据分析分析 的企业,大数据基础设施建设的企业、大数据应用处的企业,大数据基础设施建设的企业、大数据应用处理外包理外包 的企业以及相应的产业联盟的企业以及相应的产
15、业联盟144 大数据的意义:经济增长大数据的意义:经济增长 新的应用新的应用15大数据分析意味着企业能够从积累的信息数据中获得新的企业洞察力,大数据分析意味着企业能够从积累的信息数据中获得新的企业洞察力,创新商业服务模式创新商业服务模式大数据将在政府公共服务、医疗服大数据将在政府公共服务、医疗服务务、零、零售售业、业、制制造业造业、以及以及涉涉及个及个人人位置服务等领域得到广泛应用,并产生巨大的社会价值和产业空间位置服务等领域得到广泛应用,并产生巨大的社会价值和产业空间公共管理医疗制造位置服务零售大数据 市场前景对欧洲的公共管理部门来说,大对欧洲的公共管理部门来说,大 数据每年有数据每年有25
16、00 亿欧元的潜在亿欧元的潜在 价价值值-比希腊的比希腊的GDP 还高还高对美国医疗行业对美国医疗行业来说,大数据每来说,大数据每 年拥有年拥有3000 亿亿 美元的潜在价值美元的潜在价值生产商可以利用大数据生产商可以利用大数据 使产品研发、组装成本使产品研发、组装成本 削减削减50%,人力成本,人力成本 削减削减7%利用全球的个人位置利用全球的个人位置 信息,每年可以取得信息,每年可以取得6000 亿美元的消费亿美元的消费 者价值者价值零售商可以利用大零售商可以利用大 数据使经营利润取数据使经营利润取 得得60%的增长的增长16当前与数据科学相关新兴企业http:/ 大数据的意义:经济增长大
17、数据的意义:经济增长 新的产值新的产值TMR(透明度市场透明度市场 研究研究)最新发布报最新发布报 告大数据市场:告大数据市场:2012-2018年全年全 球形势、发展趋势球形势、发展趋势 预预测测显示,显示,2012年全球大数年全球大数 据市场产值据市场产值为为63 亿美元,预计亿美元,预计2018年该产值将年该产值将 达达483亿美元亿美元4一一.大数据研究的背景和意义大数据研究的背景和意义二二.与空间信息和位置相关的大数与空间信息和位置相关的大数据据 三三.位置大数据研究的经典位置大数据研究的经典案例案例四四.研究方法研究方法 五五.总结总结171 位置大数据位置大数据位置大数位置大数据
18、据是大数据研究中的重要组成部分是大数据研究中的重要组成部分麦肯锡全球研究所麦肯锡全球研究所(McKinsey Global Institute)估计位置数估计位置数 据的等级在据的等级在2009年为年为PB级级(千万亿字节级千万亿字节级)*,并以每年并以每年20%的的 速度增长,这还不包括来源于速度增长,这还不包括来源于RFID传感器的数据。联合国全传感器的数据。联合国全 球地理信息管理球地理信息管理(UN-GGIM)估计每天会产生估计每天会产生2503万字节的万字节的数数 据,其中显著的部分据,其中显著的部分是是位置大数据位置大数据卫星测卫星测绘绘空间媒空间媒体体用户轨迹用户轨迹182 位置
19、大数据的分类位置大数据的分类位置大数据位置大数据主要分为地理数据、轨迹数据和空间媒体数主要分为地理数据、轨迹数据和空间媒体数据据地理数据地理数据轨迹数据轨迹数据位置大数据位置大数据空间媒体空间媒体数据数据地理数据地理数据指直接或间接关联着相对指直接或间接关联着相对 于地球的某个地点的数据,包括自于地球的某个地点的数据,包括自 然地理数据和社会经济数据。然地理数据和社会经济数据。内容:内容:土地覆盖类型数据、地貌土地覆盖类型数据、地貌数数 据、土壤数据、水文数据、植据、土壤数据、水文数据、植被数被数 据、居民地数据、河流数据、据、居民地数据、河流数据、行政行政 境界及社会经济方面的数据境界及社会
20、经济方面的数据等等特点特点:数据体量大、较为规则化、:数据体量大、较为规则化、变化较慢变化较慢192 位置大数据的分类位置大数据的分类地理数据地理数据又可以分为自然地理又可以分为自然地理数数据和人物地据和人物地理理数据。自然数据。自然地地理数据理数据 包包括地图数据、大地基准数据括地图数据、大地基准数据、遥感影像数遥感影像数据据等等地图数据种类地图数据种类:数字数字矢矢量线量线画画地图地图(DLG)即以即以坐坐标表标表示示的地的地图图各要各要素素数据数据集集,可,可放放大、大、漫漫游、游、检索、量测、叠加,数据量少检索、量测、叠加,数据量少数字栅格地图(数字栅格地图(DRG)有数字扫描形)有数
21、字扫描形成成的像的像素素化的化的地地图数图数据据集,集,数数据量大据量大数字正射影像地图(数字正射影像地图(DOG)经地图投影)经地图投影纠纠正后正后的的影像影像图图,以,以像像素和素和灰灰度值或度值或 色色彩值表示影像,数据量大彩值表示影像,数据量大数字数字高高程模程模型(型(DEM)用用一一组有组有序序数值数值的的阵列阵列形形式表式表示示地面地面高高程的程的实实体模体模型型,可进行数值运算,计算坡度等可进行数值运算,计算坡度等地图数据规模:地图数据规模:全国全国1:5万万DLG有有250GB,DOM有有10TB,1:1万万DLG约约5.3TB,DOM约约350TB202 位置大数据的分类位
22、置大数据的分类地理数据地理数据又可以分为自然地理数据和人物地理数据。自然地理数据包括又可以分为自然地理数据和人物地理数据。自然地理数据包括地地 图数据、大地基准数据、遥感影像图数据、大地基准数据、遥感影像数数据等据等卫星遥感影像数据卫星遥感影像数据:可见光影像数据数,分彩色和黑白影像可见光影像数据数,分彩色和黑白影像微波遥感影像数据,黑白影像微波遥感影像数据,黑白影像红外影像数据,黑白影像红外影像数据,黑白影像激光雷达扫描点云数据,类似栅格数据激光雷达扫描点云数据,类似栅格数据航空遥感影像数据:航空遥感影像数据:同上同上地面遥感一些数据:地面遥感一些数据:同上同上地下地质雷达数据:地下地质雷达
23、数据:地下空间和管线数据地下空间和管线数据水下声呐探测数据:水下声呐探测数据:水下地形和水底地质地物数据水下地形和水底地质地物数据212 位置大数据的分类位置大数据的分类地理数据地理数据又可以分为自然地理数据和人物地理数据。自然地又可以分为自然地理数据和人物地理数据。自然地理理 数据包括地图数据、大地基准数据、遥感影像数据等数据包括地图数据、大地基准数据、遥感影像数据等222 位置大数据的分类位置大数据的分类位置大数据位置大数据主要分为地理数据、轨迹数据和空间媒体数主要分为地理数据、轨迹数据和空间媒体数据据地理数据地理数据轨迹数据轨迹数据位置大数据位置大数据空间媒体空间媒体数据数据轨迹数据轨迹
24、数据指通过指通过GNSS等测量手段等测量手段 以及网络签到等方法获得的用户活以及网络签到等方法获得的用户活 动数据,可以被用来反映用户的位动数据,可以被用来反映用户的位 置和用户的社会偏好。置和用户的社会偏好。内容:内容:个人轨迹数据、群体轨迹个人轨迹数据、群体轨迹数数 据、车辆轨迹数据等据、车辆轨迹数据等特点特点:数据体量大、信息碎片化、:数据体量大、信息碎片化、准确性较低、半结构化准确性较低、半结构化23结构化的结构化的轨迹数据轨迹数据可以可以被被GPX等文件形式所描述。此外还有等文件形式所描述。此外还有 大量半结构化的轨迹数据,附带其他的用户信息和社会语义大量半结构化的轨迹数据,附带其他
25、的用户信息和社会语义e.g.中山市总共中山市总共1200台出租车台出租车1年的纯文本轨迹数据约年的纯文本轨迹数据约 500GB北京市北京市28519辆出租车辆出租车24天的纯文本轨迹约天的纯文本轨迹约35GB2 位置大数据的分类位置大数据的分类24出租车轨迹数据示例2 位置大数据的分类位置大数据的分类位置大数据位置大数据主要分为地理数据、轨迹数据和空间媒体数主要分为地理数据、轨迹数据和空间媒体数据据地理数据地理数据轨迹数据轨迹数据位置大数据位置大数据空间媒体空间媒体数据数据空间媒体数据空间媒体数据指包含位置因素的数指包含位置因素的数 字化的文字、图形、图像、声音、字化的文字、图形、图像、声音、
26、视频影像和动画等媒体数据,主要视频影像和动画等媒体数据,主要 来源于移动社交网络、微博等新型来源于移动社交网络、微博等新型 互联网应用互联网应用特点:特点:数据来源混杂、数据异构性数据来源混杂、数据异构性 大、数据价值密度低,实时性强大、数据价值密度低,实时性强252 位置大数据的分类位置大数据的分类互联网图像视频数据互联网图像视频数据:仅仅2011年全球被创建和被复制的数据年全球被创建和被复制的数据 总量为总量为1.8ZB,其中,其中75%来自于个人(主要是图片、视频和音来自于个人(主要是图片、视频和音 乐),远远超过人类有史以来所有印刷材料的数据总量乐),远远超过人类有史以来所有印刷材料的
27、数据总量(200PB),),至少至少1/3含有位置信息;含有位置信息;社交网络数据社交网络数据:Facebook注册用户超过注册用户超过10亿,每月上传的照亿,每月上传的照 片片10亿张,每天生成亿张,每天生成300TB以上的与位置有关的日志数据;以上的与位置有关的日志数据;在线电子商务数据在线电子商务数据:淘宝网会员超:淘宝网会员超过过3.7亿,在线商品超过亿,在线商品超过8.8 亿,每天交易数千万笔,产生约亿,每天交易数千万笔,产生约20TB数据,均含有物流位置数据,均含有物流位置 信息;信息;城市监控摄像头数据城市监控摄像头数据:上海平安城市监控摄像头:上海平安城市监控摄像头为为60万只
28、,万只,在在 未来五年规划中达到未来五年规划中达到100万只,其万只,其中中10万只高清摄像头,万只高清摄像头,每天每天 产生的位置监控数据达产生的位置监控数据达PB级级263 位置大数据的作用位置大数据的作用实现实现智慧城智慧城市市的关的关 键是建立一种泛在键是建立一种泛在 的城市计算的城市计算(Urban Computing)体制,其中涉及到体制,其中涉及到 三个重要层面三个重要层面:泛:泛 在测绘、位置大数在测绘、位置大数 据分析和服务提供。据分析和服务提供。因此大数据将成为因此大数据将成为 智慧城市中的关键智慧城市中的关键 问题问题感 知 层服 务 层满足用户个性化需求 的朋友、位置兴
29、趣点 和社会信息推荐服务符合用户预期行为规律 的事前预告、预警服务基于位置的社会群体 态势分析与引导服务传 感 层用户位置 数据用户应用 数据时间数据时空媒体 数据泛 在 地 图社会网络服务(SNS)感知位置 社会语义感知用户 社会属性感知用户 移动行为感知用户 社会关系感知大规模社群行为时空数据传感器轨 迹 地 图 云服 务平地理信息系统(GIS)台 层网络搜索分布式存储Map-Reduce泛在泛在测测绘绘大数据分析大数据分析服务服务提提供供273 位置大数据的作用位置大数据的作用通过位置大数据,主要形成智慧城市三个方面的服务支通过位置大数据,主要形成智慧城市三个方面的服务支持持为企业经为企
30、业经济济服服务务为个人生为个人生活活服服务务为城市运为城市运行行服服务务位位 置置 大大 数数 据据城市城市规规划、划、疾疾病控病控制制、智、智能能交通交通、节能节能减排、减排、环环境保境保护护、应应急响急响应应28社会社会交流、交流、个个性化性化信信息息推推送、送、驾驾 驶安驶安全、智全、智能能驾驾驶驶企业企业调调度、度、门门店选店选址址、广、广告告推送推送、位置位置营营销销一一.大数据研究的背景和意义大数据研究的背景和意义二二.与空间信息和位置相关的大数与空间信息和位置相关的大数据据 三三.位置大数据应用的经典位置大数据应用的经典案例案例四四.研究方法研究方法 五五.总结总结291 位置大
31、数据与城市规划位置大数据与城市规划城市土地用途分类是城市规划城市土地用途分类是城市规划 领域的一项重要工作。政府部领域的一项重要工作。政府部 门做城市规划时希望某个区域门做城市规划时希望某个区域 具备哪些主要社会功能,但是具备哪些主要社会功能,但是 规划实施后的区域不一定与预规划实施后的区域不一定与预 期完全相符。传统土地分类算期完全相符。传统土地分类算 法往往使用卫星遥感技术,所法往往使用卫星遥感技术,所 得到的分类也多为物理形态上得到的分类也多为物理形态上 的类别的类别文献文献5从城市人群流动数据从城市人群流动数据出出 发,揭示区域功能和区域人发,揭示区域功能和区域人流流 的关系,对城市区
32、域的社会的关系,对城市区域的社会学学 功能进功能进行行分类分类不同类别的区域的平均人群 流动模式不同301 位置大数据与城市规划位置大数据与城市规划文献文献6采用出租车轨迹中乘客上下车地点的数据,按照人们采用出租车轨迹中乘客上下车地点的数据,按照人们 移动性数据所反映的兴趣点来揭示城市的功能区域。例如有一移动性数据所反映的兴趣点来揭示城市的功能区域。例如有一 个区域,大部分人都是上午个区域,大部分人都是上午8点左右离开,晚上点左右离开,晚上7点返回,则点返回,则这这 个区域很可能是住宅区。并以此结果来评价城市的功能区个区域很可能是住宅区。并以此结果来评价城市的功能区域规域规 划合理性。划合理性
33、。31城市功能区划核心商业区2 位置大数据与智能交通位置大数据与智能交通智能交通是位置大数据的应用的主要场景。大规模的车辆轨智能交通是位置大数据的应用的主要场景。大规模的车辆轨迹迹 数据可以为政府改善交通状况,为乘客提供交通信息和为数据可以为政府改善交通状况,为乘客提供交通信息和为司机司机 提高驾驶效益提供帮助提高驾驶效益提供帮助文献文献7基于北京市基于北京市3万多辆出租万多辆出租车车3个月轨迹数据分析城市交个月轨迹数据分析城市交 通中的不合理区域通中的不合理区域32城市交通中的不合理区域分析2 位置大数据与智能交通位置大数据与智能交通文献文献8-9依照用户历史数据为司机和乘客提供了一个双向最
34、依照用户历史数据为司机和乘客提供了一个双向最 优的出租车招车优的出租车招车/候车服务模型候车服务模型文献文献10同样基于出租同样基于出租车车GPS轨迹数据并结合天气及个人驾车轨迹数据并结合天气及个人驾车 习惯、技能和道路熟悉程度等因素,提出了针对个人的最优习惯、技能和道路熟悉程度等因素,提出了针对个人的最优导导 航算法,平均为每航算法,平均为每30分钟的路线节约分钟的路线节约5分钟时间分钟时间33出租车招车/候车分析基于大数据的导航引擎3 位置大数据与疾病控制位置大数据与疾病控制34文献文献11-12依照全球定位系统数据,分析纽约依照全球定位系统数据,分析纽约63万名微博用万名微博用 户的户的
35、440万条微博,绘制身体不适用户位置万条微博,绘制身体不适用户位置“热点热点”地图,显地图,显 示流感在纽约的传播情况。根据热点地图和视频,最早可在示流感在纽约的传播情况。根据热点地图和视频,最早可在个个 体出现流感症状前体出现流感症状前8天作出预测,准确率天作出预测,准确率为为90对用户微博进行位置知识发现和语义判断流感传播态势分析4 位置大数据与环境保护位置大数据与环境保护当前城市环境监测几乎全是由地面空气监测站来实时感知的。当前城市环境监测几乎全是由地面空气监测站来实时感知的。但但 监测站的建设成本高昂,站点有限,无法全时空监测城市环监测站的建设成本高昂,站点有限,无法全时空监测城市环境
36、境文献文献13利用群体感知的大数据来解决这个问题。通过在自行利用群体感知的大数据来解决这个问题。通过在自行车车 车轮里安装一些传感器,通过用户手机将收集的数据发送至车轮里安装一些传感器,通过用户手机将收集的数据发送至后台后台 服务器。依靠群体的力量,我们就可以感知整个城市不同服务器。依靠群体的力量,我们就可以感知整个城市不同角落的角落的 温度、湿度和二氧化碳浓度温度、湿度和二氧化碳浓度35著名的MIT“哥本哈根车轮”4 位置大数据与环境保护位置大数据与环境保护文献文献14利用地面监测站有限的空气质量数据,结合交通流道利用地面监测站有限的空气质量数据,结合交通流道路路 结构、兴趣点分布、气象条件
37、和人们流动规律等大数据,基结构、兴趣点分布、气象条件和人们流动规律等大数据,基于机于机 器学习算法建立数据和空气质量的映射关系,从而推断出器学习算法建立数据和空气质量的映射关系,从而推断出整个城整个城 市细粒度的空气质量市细粒度的空气质量36北京某时刻的细粒度空气质量(绿色为优)5 位置大数据与节能减排位置大数据与节能减排文文献献15利用出租车在加油站的等待时间来估计加油站的排利用出租车在加油站的等待时间来估计加油站的排队队 长度,估算出此时加油站内的车辆数目及加油量。通过将长度,估算出此时加油站内的车辆数目及加油量。通过将全城全城 的加油站数据汇总,可估计出一个城市每天的能源消耗的加油站数据
38、汇总,可估计出一个城市每天的能源消耗量,从量,从 长期上为政府制定更为合理的城市能源战略长期上为政府制定更为合理的城市能源战略通过位置大数据估计出来的城市能源消耗情况375 位置大数据与节能减排位置大数据与节能减排美美国国UPS快递公司利用位置大数据对物流车辆进行最优化管理。快递公司利用位置大数据对物流车辆进行最优化管理。通过数据分析发现,货车左转行为更容易导致事故,同时左转通过数据分析发现,货车左转行为更容易导致事故,同时左转 往往需要低档慢行从而带来更多的油耗。为此往往需要低档慢行从而带来更多的油耗。为此UPS调度系统尽调度系统尽 可能优化货车路线可能优化货车路线,2011年总计使得员工少
39、跑年总计使得员工少跑了了4828万公里万公里 路程,节省路程,节省300万加仑燃油,降低万加仑燃油,降低约约3万吨万吨CO2排放排放386 位置大数据与应急管理位置大数据与应急管理随着各类基于手机定位的移动随着各类基于手机定位的移动数数据、据、GPS 轨迹数据、地铁公交刷卡轨迹数据、地铁公交刷卡 数据、社交网络数据等呈数据、社交网络数据等呈“爆爆炸炸式式”增长,增长,为为灾难发生的灾难发生的情情况下,况下,为人流移动的分析、建模、预为人流移动的分析、建模、预测测以及灾难应以及灾难应急急管理提供了管理提供了新新的方法的方法文献文献16通过对微博位置数据进行分析和挖掘,研究地震的通过对微博位置数据
40、进行分析和挖掘,研究地震的了了实时实时 预警。文献预警。文献17-18通过分析通过分析160 万人一年的万人一年的GPS 移动轨迹,对东移动轨迹,对东 日本大日本大地地震和福震和福岛岛核事故核事故发发生后的生后的灾灾民移动民移动、避难行避难行为为进行了进行了建建模、模、预测和模拟预测和模拟日本311大地震发生时东京都的人流移动情况396 位置大数据与应急管理位置大数据与应急管理东日本大地震和福岛核事故中挖掘出的中长期避难行为:避难起点到终 点的迁移连线406 位置大数据与应急管理位置大数据与应急管理416 位置大数据与应急管理位置大数据与应急管理2013年年4月月15日,波士顿马拉松爆炸案事发
41、几小时内,数以千日,波士顿马拉松爆炸案事发几小时内,数以千 计的在场群众将事发现场拍摄的照片和视频放到了公共网络平计的在场群众将事发现场拍摄的照片和视频放到了公共网络平 台上,这些照片和视频图像来自各种相机,手机和平板电脑。台上,这些照片和视频图像来自各种相机,手机和平板电脑。不到一天时间,嫌犯被确认并在纽约被抓获不到一天时间,嫌犯被确认并在纽约被抓获这是一种典型的利用空间社会媒体的位置大数据与反犯罪机构这是一种典型的利用空间社会媒体的位置大数据与反犯罪机构 的专业能力结合,建立的城市安全与应急新体制的专业能力结合,建立的城市安全与应急新体制42基于用户轨迹和社会时空媒体上的用户数据,通过社会
42、感知基于用户轨迹和社会时空媒体上的用户数据,通过社会感知 计算(计算(Socially Aware computing)方法能够实时感知识方法能够实时感知识 别社会个体的行为,分析挖掘群体社会交互特征和规律,引别社会个体的行为,分析挖掘群体社会交互特征和规律,引 导个体社会行为,支持社群的互动、沟通和协作导个体社会行为,支持社群的互动、沟通和协作位置大数据主要在以下四个方面提升用户社会生活的质量:位置大数据主要在以下四个方面提升用户社会生活的质量:感知用户的社会关系,促成社会交流活动感知用户的社会关系,促成社会交流活动19-217 位置大数据与用户社会生活位置大数据与用户社会生活43用户轨迹与
43、用户社会关系间存在着密切联系感知位置的社会语义,为用户提供社会化信息服务感知位置的社会语义,为用户提供社会化信息服务22-23 位置语义包括:位置的社会信息、位置上常现的社会情景、位置语义包括:位置的社会信息、位置上常现的社会情景、用户在位置上的社会情感等用户在位置上的社会情感等感知用户的社会属性,为用户提供个性化信息服务感知用户的社会属性,为用户提供个性化信息服务24 用用户社会属性包括:性别、年龄、婚否、职业、家庭人口户社会属性包括:性别、年龄、婚否、职业、家庭人口等以及用户个人的生活偏好和生活习惯等以及用户个人的生活偏好和生活习惯7 位置大数据与用户社会生活位置大数据与用户社会生活44快
44、乐区域快乐区域悲伤区域悲伤区域预测用户的移动行为,为用户提供预见性服务预测用户的移动行为,为用户提供预见性服务25-26车辆驾驶主动安全预警服务:利用车联网技术和用户车辆车辆驾驶主动安全预警服务:利用车联网技术和用户车辆惯惯 性传感器的数据,汇集用户急刹、急转等驾驶行为数据,性传感器的数据,汇集用户急刹、急转等驾驶行为数据,分分 析异常情况,在尚不知道道路突发事故详细情况下即为析异常情况,在尚不知道道路突发事故详细情况下即为司机司机 提供主动安全预警服务提供主动安全预警服务7 位置大数据与用户社会生活位置大数据与用户社会生活45一一.大数据研究的背景和意义大数据研究的背景和意义二二.与空间信息
45、和位置相关的大数与空间信息和位置相关的大数据据 三三.位置大数据研究的经典位置大数据研究的经典案例案例四四.研究方法研究方法 五五.总结总结461 数据采集方法数据采集方法位置大数据研究涉及到数据采集、数据处理、计算和存储以位置大数据研究涉及到数据采集、数据处理、计算和存储以及及 可视化等一套完整的方法体系可视化等一套完整的方法体系位置大数据研究中的四个挑战:可采集、可计算、可使用和位置大数据研究中的四个挑战:可采集、可计算、可使用和可可 表达表达数据表达:可视化数据表达:可视化数据计算数据计算:Map-Reduce 数据分析:重数据轻算法数据分析:重数据轻算法 数据采集:泛在数据采集:泛在测
46、测绘绘471 数据采集方法数据采集方法48建建立立完整的、高精度的、室内外一体的位置大数据传感网完整的、高精度的、室内外一体的位置大数据传感网络络位置信息GNSS定位地基增强系统定位系统及定位网络天基增强系统GEO卫星定位导航系统移动通信 网络WiFi/蓝牙/3G室内室内 定位定位基站基站 定位定位网关语音MSM WAP.位置服务分析及计算云(网格)接入 安全 部件(云 安全 部 件)云计算部件电子 地图位置数据的挖 掘分析中心位置信息位置信息通 信 网 络基于位置位置服务的应用网络的知识或 服务自适应可视化表达移动 社会 网络智能传感网twitter.Web 2.0用户终端位 置 服 务满足
47、全球和区域位置服务的网络体系结构1 数据采集方法数据采集方法49建建立立完整的、高精度的、室内外一体的位置大数据传感网完整的、高精度的、室内外一体的位置大数据传感网络络1 数据采集方法数据采集方法50综合利用自然语言处理、图像处理、信息检索等方法,提取综合利用自然语言处理、图像处理、信息检索等方法,提取互互 联网多媒体中的位置信息,建立位置信息与互联网媒体的联网多媒体中的位置信息,建立位置信息与互联网媒体的内在内在 关联关联URLlistWebDBsplit 0split 1split 2split nTask TrackerTask TrackerClient ProgramSubmit J
48、obJob Trackersplit n-1contentpicturetextTextParserM 1M 2M nURLSearchAbsExtracterCoordExtrRegion 2Region 3Region 1Region 1Region 2Region 3Region 1Region 2Region 3Text TrackerR 1Picture TrackerURLTrackerR 2R 3Ontology of Location KnowledgeNew URL list互联网文本中的位置要素提取框架27互联网图像中位置要素提取:Geo-Targeted photo1 数
49、据采集方法数据采集方法利用用户主动分享的移动社会网络数据利用用户主动分享的移动社会网络数据通过已经建立的诸如路桥通过已经建立的诸如路桥ETC系统、地铁收费系统、公交刷系统、地铁收费系统、公交刷卡卡 系统等,大规模被动收集用户位置数据系统等,大规模被动收集用户位置数据实现用户主动分享与被动感知相结合的数据采集体制512 数据分析方法数据分析方法位置大数据包含多种来源不位置大数据包含多种来源不 确定的数据,使得数据集中确定的数据,使得数据集中 往往含有各种各样的错误和往往含有各种各样的错误和 误差,体现为数据不正确、误差,体现为数据不正确、不精确、不完全、过时陈旧不精确、不完全、过时陈旧 或者重复
50、冗余或者重复冗余数据挖掘和机器学习技术仍数据挖掘和机器学习技术仍 然是大数据研究中主要使用然是大数据研究中主要使用 的方法的方法Stanford最新出版大数据最新出版大数据 挖掘中有相关方法可参考挖掘中有相关方法可参考 http:/infolab.stanford.edu/ul lman/mmds.html#latest522 数据分析方法数据分析方法高维数据高维数据(High Dim.Data)感知哈希感知哈希(Locality-Sensitive Hashing)聚类聚类(clustering)降维分析降维分析(Dimensionality Reduction)图数据图数据(Graph D