1、文旅大数据平台解决方案依托大数据技术,提供多样的旅游大数据应用能力C O N T E N T S目 录01平台概述02平台架构03平台应用01平台概述建 设 背 景 随着信息化社会的快速发展,旅游行业信息量爆发式的快速增长。这些数据的特征表现为数量大,数据类型多,衍生了旅游大数据。江西省面对庞大而复杂信息数据体系,逐步分层次的整理相关数据,基础数据:酒店信息、地图、 POI 、景区信息及景区周边环境信息;应用基于数据:游客酒店预订、景区购票消费交易等数据;行为数据:游客通过使用高度地图等 LBS 行为数据。 为此,通过整合交通、气象、酒店、餐饮、景区、旅行社等相关数据,形成江西省旅游大数据。通
2、过对各行业务、数据清洗治理形成数据标准,并接入到大数据平台。同时利用大数据可视化分析平台对数据筛选、分析,提供景区、酒店等行业发展动态、服务模式、旅游偏好热度数据分析报告,为江西省旅游局决策提供数据、研判支撑。建 设 目 标通过对旅游景区进行实时客流监控,及时掌握客流分布及密度。根据历史游客量变化对景区的游客趋势进行预测及预警,挖掘热门景点、热门旅游路线。通过对游客属性、来源地、出行工具、住宿及消费等分析,洞察游客画像,挖掘游客多方面行为特征,揭示旅游规律及因素关系、游客商业影响力,拉动区域商业影响力。通过大数据能力整合区域涉旅要素,运用大数据实现产业、市场监测管控运用行业大数据,整合OTA数
3、据以及行业权威数据,辅助管理部门掌握旅游行业实时动态以及历史动态321402平台架构平 台 架 构构建统一标准、打通数据通道、突破信息孤岛效应,在具体的业务部门和技术之间搭建起一个灵活度高、效率高、可复用的组件化平台,面向不同业务部门,快速提供数据服务支持,调取所需数据高效完成数据分析挖掘。公共文旅服务数据输出公共文旅服务数据输出文旅企业运营数据输出文旅企业运营数据输出文旅产业监管数据输出文旅产业监管数据输出数 据 中 台面向公众 服务数据 面向企业 营销数据面向政府 监管数据 高 德 数 据 源数据源1数据源2数据源3 腾 讯 数 据 源数据源1数据源2数据源3 其 他 数 据 源数据源1数
4、据源2数据源3平 台 架 构03平台应用数据采集中心多种方式和多种平台,完成对数据的采集以及对接3爬虫抓取携程、去哪儿、同程、艺龙、欣欣旅游、驴妈妈、马蜂窝、途牛、阿里旅游等等OTA平台抓取4公共数据源对接导入天气数据、人口分布数据、交通数据等等数据接入12对政府或者企业内部数据进行对接采集内部数据对接合作伙伴接口对接高德、腾讯、百度、大众点评、友盟、360携程、去哪儿、等等对接5自定义API对接日志数据、业务数据、大数据文件等等自定义对接6人工导入EXCEL,CSV,TXT等文件人工导入数 据 管 理 - 建 模 和 E T L业务数据业务数据任务调度 数据建模建模ETL数据建模ETL任务调
5、度通过平台的工作表管理模块,创建工作表 多表关联:多张表根据关联条件进行join处理 数据聚合:将一张工作表按照指定的纬度进行聚合处理 追加合并:将多张表进行union处理 SQL:通过用户自己些SQL的方式创建新表建模的结果为一张新的工作表,用户可以基于此表进行作图分析,当基础数据更新后,平台会根据建模关系完成此表的数据更新通过平台的工作表管理模块,在相关的工作表上添加计算字段进行初步的数据清洗操作以便后续的数据建模数据管理-数据存储计算基于云服务器的统一数据池的基础之上,使用已经经过数据质管理平台治理后的数据,通过统一的数据出口接入数据,并且构建基于挖掘分析场景的业务分析专题库。计算引擎
6、SQL 计算:用户数据会被平台处理为Parquet 表,通过 Spark SQL 进行数据计算高级计算:为满足留存率、桑基图等复杂业务对外提供的高级计算服务UDF:对外提供除常见的 SQL 函数之外的实用函数数据存储平台采用 HDFS 存储用户数据,数据格式为平台自有格式数据管理-数据质量管理数 据 源 质 量 分 析 方 法数据源质量的分析方法主要从数据集市对数据源质量要求的几个方面进行分析,即:检查数据的完整性、检验数据的准确性、查看数据是否一致、推断数据逻辑是否合理。根据这些方面的要求,每个字段进行数据质量分析。数 据 清 洗 和匹 配 数 据 清 洗数据清洗是对数据进行校验和标准化,比
7、如地址邮编是否存在等等。数据匹配:数据匹配是找出有可能重复的记录。数 据 源 数 据 量主要分析数据源中,涉及到的每一个表的记录总数。在这一步,形成数据量文件。文件内包含每一个表的记录总数。数据源物理范围、数据源格式分析、数据源更新频率、数据源更新方式、数据源数据量这五个分析项的分析记录可以整合为一个表格,记录每一个数据项的这五项分析记录。数 据 源 更 新 方 式数据源的更新方式是指数据在应用系统运行时,如何发生变化。针对每个数据表,数据可以为增量更新,可以为随机更新。增量更新是指数据只要插入数据表,就不再发生变化,系统只是往数据表中追加数据,而不会更改历史数据。随机更新是指系统随时会更改表中的数据,而且被更改的数据没有规律。数 据 源 更 新 频 率 和存 储 周 期确定数据源的物理范围后,需要确定数据源的更新频率。这一步可以和数据源格式分析并行进行。数据源的更新频率是指数据在应用系统实际运行时的更新频率。通常更新频率可以分为随时更新、每月定时更新、很少更新、从不更新几类。决策分析系统-综合分析决策分析系统-景区洞察决策分析系统-用户画像决策分析系统-交通分析谢谢