1、智能交通系统的数据基础智能交通系统的数据基础设施设施5.1简介越来越多的数据是通过联网运输系统产生和处理的,这些系统由部署在联网车辆、道路/路侧设备、交通信号和移动设备(统称为物联网)中的大量传感器组成。有效地收集、处理和分析这些数据的能力,以及提取驱动智能交通系统(ITS)的洞察力和知识的能力是至关重要的。本章的目的是概述支持网联交通系统(CTS)应用需求的基础设施。为了解决 CTS 的复杂需求,需要一个能够使用不同的抽象和运行系统存储/处理大量数据的数据基础设施。5.2网联的交通管理系统及其负载特征CTS 数据应用程序的负载特性:1)收集和获取:CTS 应用的一个常见挑战是数据收集。2)分
2、析:典型的负载包括将大量数据解析为结构化格式。3)机器学习:这涉及到以识别模式(非监督学习)、分类和/或预测(监督学习)为目标的算法的使用。4)模型部署:开发的模型通常部署在服务于用户应用程序的在线系统中。5.3基础设施简介为了支持 CTS 中的应用程序和数据管道的不同阶段,需要一个以数据为中心的基础结构,它具有数据收集、存储、处理和模型部署并将结果提供给数据应用程序的能力。5.4数据基础设施顶层设计5.4.1 MapReduce:可拓展的数据处理Hadoop MapReduce 基于一种面向磁盘的方法,即在每次 MapReduce 运行后需要在 HDFS 中持久化数据。这对于需要查询的交互式
3、或实时分析以及机器学习的迭代处理来说,会导致访问速度变慢。为了解决这些问题,出现了各种处理和执行框架,如Spark、Flink 和 Tez。5.4.2数据接受和流处理传统的数据集方法侧重于完整的有界数据集的收集、存储和分析。在 CTS 中,当数据可能到达网络边缘或设备本身时,分析数据通常是至关重要的。流处理的主要组件:消息代理系统流 处 理 引 擎5.4.3 SQL 和数据表SQL 已被证明是一种稳定的数据查询方法。SQL 的优点众所周知,它的查询语言提供了一种鲁棒的方法来获取数据。许多案例依赖 SQL 作为数据提取的通用语法。它对于查询来自较少结构化数据源的柱状数据特别有用。一般来说,有两种
4、架构:(1)将 Hadoop 与现有的关系型数据库集成;(2)在核心 Hadoop 服务(即 HDFS 和 YARN)之上实现 SQL 引擎。数据结构是基于 Spark SQL 并与之紧密集成的,允许用户将不同的编程模型组合起来进行数据提取和特征工程。数据结构用于数据操作、分析和建模的强大抽象。5.4.4短时随机数据读取管理大多数 Hadoop 工具依赖于快速顺序读取,用于支持可扩展分析应用程序的。其他数据访问模式,比如短时运行和随机访问查询,与传统的关系数据库系统相比,它们只是一个次要问题。例如,HBase 允许可变和随机访问数据集。HBase40 是一个基于 HDFS文件系统和 Hadoo
5、p 的面向列的数据存储。其他基于 Hadoop 的分析框架(比如 Hive 和Spark)可以直接访问它,而不需要移动数据。5.4.5基于搜索的分析Gartner 将基于搜索的数据发现工具定义为:允许终端/业务用户使用搜索词创建结构化和非结构化数据的视图和分析的工具 41。一些基于搜索的数据发现工具,例如 Elasticsearch、Solr 和 Splunk。ELK 栈使用 3 个互补的开源工具:Elasticsearch42、Logstash43 和 Kibana44。Elasticsearch 支持基于索引搜索的数据分析,Logstash 是一种主要为日志文件设计的数据获取和改进的工具,
6、Kibana 是一种可视化工具。5.4.6商业智能与数据科学可视化是数据分析过程的关键部分,对于提供分析见解至关重要。有两组支持数据分析的工具:BI 工具通常侧重于在众所周知的结构化数据源上创建仪表盘的能力。数据科学工具支持更深层的数据处理和复杂的数据管道用于清洗、准备和分析数据。为此,需要访问从 Excel 文件到 Hadoop 集群,再到关系型数据库的各种数据源。随着 BI 工具增加了访问 Hadoop 集群和执行高级分析的能力(例如通过集成 R),这两个工具类别正在聚合。与此同时,用于数据探索和发现的新的可视化工具出现了,比如 Trifacta。5.4.7机器学习大多数数据科学涉及到上百
7、种多是手工编写的简单易懂的算法的使用,如线性和逻辑回归、支持向量机、随机森林等。R 和 Python 都为机器学习提供了丰富的库。Python数据生态系统包含强大的科学和分析库,如 NumPy、Pandas 和 Scikit-Learn。但是,它们通常不是并行的,因此在可扩展性方面受到限制。Mahout、MLlib、Dato 和H2O 是在 Hadoop 基础上提供高级机器学习功能的一些示例。5.5数据基础设施底层设计5.5.1 Hadoop:存储和计算管理Hadoop 核心包含两个组件:Hadoop 分布式文件系统(HDFS)和另一个资源协调器(YARN)。HDFS 提供了一个分布式文件系统
8、,它能够随着数据量增加而扩展,同时还提供了冗余和完整性。YARN 为集群提供资源管理。5.5.2云环境下Hadoop 3 种模式可以用于云计算:公共模式、私有模式和混合模式。公共云在可扩展性方面具有较大的灵活性。5.6章节总结与结论本章讨论了支持 CTS 应用的数据基础设施。它提供了基础设施的概述,以支持能够使用不同的结构和运行系统存储、处理和分配大量数据的数据基础设施的需求。Hadoop是一个可扩展的计算和存储平台,在互联网公司和科学界被广泛用于大数据处理。一个由数据处理、高级分析和机器学习工具组成的充满活力的生态系统已经存在。在这个生态系统中,Spark 和 Hadoop 为存储、批处理和流处理提供了核心基础设施。感谢您的观看感谢您的观看THANK YOU FOR YOUR WATCHING