1、第二讲第二讲 数据需求与采集数据需求与采集 公交数据采集的目的公交数据采集的目的(回答以下这些问题!)(回答以下这些问题!)对于乘客对于乘客:”最近的站点在哪里?最近的站点在哪里?”我应该在什么时刻在站我应该在什么时刻在站点等待?点等待?”对 于 公 交 企 业对 于 公 交 企 业:“线 网线 网 站 点 和 枢 纽 应 该 如 何 改站 点 和 枢 纽 应 该 如 何 改善?善?”“”“怎样改进每一条线路?怎样改进每一条线路?”“”“对于运营最有效的时对于运营最有效的时刻表是什么?刻表是什么?”“”“怎样减少车队数目同时能够保持现在的怎样减少车队数目同时能够保持现在的服务水平?服务水平?”
2、“”“怎样缩减员工工资而又不影响服务?怎样缩减员工工资而又不影响服务?第二讲第二讲 数据需求与采集数据需求与采集公交企业公交企业希望利用数据达到希望利用数据达到以下这些目标:以下这些目标:(a)改善服务和运营;)改善服务和运营;(b)通过更好地平衡供给和需求来提高运力和效率;)通过更好地平衡供给和需求来提高运力和效率;(c)通过更好地控制和快速反应来增加可靠性以提高)通过更好地控制和快速反应来增加可靠性以提高服务水平服务水平;成功公交系统的三要素成功公交系统的三要素第二讲第二讲 数据需求与采集数据需求与采集运营数据采集中有五种相关的基础方法运营数据采集中有五种相关的基础方法:站点调查站点调查跟
3、车调查跟车调查空驶调查空驶调查乘客调查乘客调查公众调查公众调查第二讲第二讲 数据需求与采集数据需求与采集1 站点调查站点调查站点调查通常是指核查员在某个公交站点进行的观测和站点调查通常是指核查员在某个公交站点进行的观测和统计。统计。选定的站点一般是最大客流断面,在这一断面,平均离选定的站点一般是最大客流断面,在这一断面,平均离开站点的公交车在所有路段中开站点的公交车在所有路段中载客量最大载客量最大。路段被定义为。路段被定义为路径中相邻两站点之间的道路。路径中相邻两站点之间的道路。对于经过站点的每一辆车,站点调查通常包含对于经过站点的每一辆车,站点调查通常包含载客量,载客量,到达和离开时间,以及
4、确定车辆所属的线路。到达和离开时间,以及确定车辆所属的线路。第二讲第二讲 数据需求与采集数据需求与采集除了高峰站点外,其它的核查地点包括除了高峰站点外,其它的核查地点包括:多峰站点多峰站点调查:适用于调查:适用于同时有多个高峰点同时有多个高峰点的情况,同时的情况,同时也适用于也适用于长线和支线长线和支线的情况。这里的支线是指在基本线的情况。这里的支线是指在基本线路上的延伸线路。路上的延伸线路。终点调查:终点调查:适用于适用于运行时间测量运行时间测量并记录并记录售票数据售票数据。关键点调查:关键点调查:对于对于特定内容的检查特定内容的检查十分有用,比如在主十分有用,比如在主要要换乘点换乘点观测观
5、测换乘时间和成功会车时间换乘时间和成功会车时间,或者在主要,或者在主要活活动中心动中心观察乘客在观察乘客在选择竞争模式中选择竞争模式中的行为,以及在的行为,以及在新的新的居民区居民区观测观测乘客需求的变化乘客需求的变化等。等。数据采集数据采集站点调查站点调查2 跟车调查跟车调查跟车调查指由调查人员或是采用自动化设备在整条线跟车调查指由调查人员或是采用自动化设备在整条线路上进行的调查。路上进行的调查。内容主要包含:内容主要包含:统计上下车乘客数统计上下车乘客数,通过这种方式能,通过这种方式能够得到从每一站的上下车乘客数够得到从每一站的上下车乘客数在每个站点的在每个站点的到达和到达和离开时间离开时
6、间,以及,以及特定项目的调查或测量特定项目的调查或测量(车辆运行速度,(车辆运行速度,票价类别,乘客性别和行李大小等),并登记票价类别,乘客性别和行李大小等),并登记售票数据售票数据。数据采集数据采集跟车调查跟车调查数据采集案例数据采集案例数据采集案例数据采集案例自动化的自动化的跟车调查跟车调查技术技术智能踏板智能踏板(APC)数据采集数据采集跟车调查跟车调查智能踏板系统构成处理板踏板手持数据采集终端线束数据处理计算机自动化的自动化的跟车调查跟车调查技术技术智能踏板智能踏板(APC)数据采集数据采集跟车调查跟车调查b 下车踏板踩踏过程a 上车踏板踩踏过程踏板的定向识别的原理自动化的自动化的跟车
7、调查跟车调查技术技术自动车辆定位自动车辆定位 Automatic vehicle location(AVL)数据采集数据采集跟车调查跟车调查自动化的自动化的跟车调查跟车调查技术技术自动车辆定位(自动车辆定位(AVL)数据采集数据采集跟车调查跟车调查车载设备 自动化的自动化的跟车调查跟车调查技术技术IC卡卡数据采集数据采集跟车调查跟车调查刷卡设备 自动化的跟车调查技术自动化的跟车调查技术IC卡卡数据采集数据采集跟车调查跟车调查车载收费系统车载收费系统车载收费系统数据采集分中心公交ICIC卡系统管理中心公交IC卡数据中心公交IC卡数据采集流程 自动化的跟车调查技术自动化的跟车调查技术IC卡卡数据采
8、集数据采集跟车调查跟车调查各数据的基本信息如下:1.公交IC卡基础信息:IC卡卡号、卡类别、余额等。2.公交线路信息:线路号、站数、起点站、终点站、中间站点等。3.公交线网信息:线路分布,站点位置,站间距等4.IC卡记录信息:IC卡卡号,线路号,刷卡日期,刷卡时刻,刷卡站点等数据采集数据采集调查数据调查数据站点调查数据跟车调查数据乘客公里 乘客小时 3 空驶空驶调查调查空驶调查是指调查车辆在一条线路上的到达点和另空驶调查是指调查车辆在一条线路上的到达点和另一条线路的出发点之间的平均运行时间。一条线路的出发点之间的平均运行时间。空驶时间是由于空驶时间是由于跨路调度跨路调度而产生的,它由运行在两而
9、产生的,它由运行在两条线路终点之间最短路径上的公交车辆的行驶时间来条线路终点之间最短路径上的公交车辆的行驶时间来确定确定。最短路径则根据每天的不同时刻以及每周中的。最短路径则根据每天的不同时刻以及每周中的不同天而各不相同。不同天而各不相同。数据采集数据采集空驶调查空驶调查4 乘客调查乘客调查 通常调查分为一般调查和特殊目的调查。通常调查分为一般调查和特殊目的调查。一般调查:一般调查:可以通过多种方式获得信息,如可以通过多种方式获得信息,如O-D数据数据出出行模式和距离行模式和距离出行目的出行目的出行线路的选择出行线路的选择支付的车费支付的车费支付方式支付方式每天的乘车频率每天的乘车频率以及社会
10、地位和经济状况以及社会地位和经济状况等。等。特殊目的调查:特殊目的调查:旨在得到某种特定类型的信息,如旨在得到某种特定类型的信息,如O-D信信息,对线路变化的选择、换乘、限行、对可能变化的票价息,对线路变化的选择、换乘、限行、对可能变化的票价的态度、不同票价种类的比率的态度、不同票价种类的比率等意见。等意见。数据采集数据采集乘客调查乘客调查5 公众调查公众调查 公众调查是指对某个地区的家庭、商店或工作地来进行公众调查是指对某个地区的家庭、商店或工作地来进行调查。调查。调查通常是以采访为基础,涉及使用和不使用公共交通调查通常是以采访为基础,涉及使用和不使用公共交通的人群,目的是获取公众对的人群,
11、目的是获取公众对公交线路变更(包括对家庭公交线路变更(包括对家庭住址选择的影响)、票价变更、以及交通和土地利用项住址选择的影响)、票价变更、以及交通和土地利用项目的态度和意见目的态度和意见。对公交使用者和非公交使用者的采访也可以解决很多关对公交使用者和非公交使用者的采访也可以解决很多关键问题,包括潜在的键问题,包括潜在的出行需求、市场划分、市场机会出行需求、市场划分、市场机会和和对新的对新的公交举措的建议公交举措的建议等。等。数据采集数据采集公众调查公众调查数数据据采采集集方方法、法、结结果果分分析析和和服服务务因因素素第二讲第二讲 数据需求与采集数据需求与采集案例分析案例分析利用北京公交利用
12、北京公交IC卡数卡数据挖掘公交客流规律据挖掘公交客流规律第二讲第二讲 数据分析与处理数据分析与处理公交客流数据分析、挖掘的内容公交客流数据分析、挖掘的内容公交运营调度应用:公交运营调度应用:客流在时间,空间的不均衡性,短期客流预测等。客流在时间,空间的不均衡性,短期客流预测等。公交管理应用:公交管理应用:平均满载率、总人数公里和总乘客数等。平均满载率、总人数公里和总乘客数等。公交规划建设应用公交规划建设应用客流客流OD分布分析、公交线网效益、公交直达率、平均满分布分析、公交线网效益、公交直达率、平均满载率,中长期客流预测等。载率,中长期客流预测等。数据准备数据选择数据预处理数据变换第一阶段基于
13、FishFish聚类的客流峰值区间划分第一阶段上车站点停靠时刻下车站点下车时刻第二阶段基于神经网络时刻站点上下车人数预测结果表达客流OD出行时间断面客流等基于基于FishFish聚类的客流峰值区间划分聚类的客流峰值区间划分定义类直径定义类直径2.2.定义误差函数定义误差函数jikikiyyjiD2),(基于基于FishFish聚类的客流峰值区间划分聚类的客流峰值区间划分3.3.求解最优k k分段4.4.确定划分的峰值区间数 根据类之间的误差,以及从调度管理方便、适合的角度出发,确定合理的分段数 ,即为峰值区间的个数。上车站点、停靠时间判定下车站点和时刻判定根据两次出行的关系判断起点站点4站点8
14、站点12站点16终点出行信息明细表中的五个站点实例分析选取3条比较典型的公交线路进行客流峰值划分,分别为16路、26路和701路。16路线路距离短、车站少,701路线路距离长、车站多,26路线路距离和车站位于16路和701路之间。线路与站点图客流峰值区间划分与出行距离规律客流峰值区间划分与出行距离规律出行距离分布呈厄尔伦格K曲线!数据分析与处理的方法数据分析与处理的方法1 传统的统计方法与工具传统的统计方法与工具2 新的数据建模、人工智能、数据挖掘技新的数据建模、人工智能、数据挖掘技术等术等第二讲第二讲 数据分析与处理数据分析与处理案例分析案例分析利用北京公交利用北京公交GPS数数据预测车辆到
15、站时间据预测车辆到站时间第二讲第二讲 数据分析与处理数据分析与处理研究背景公交到站时间是出行者最为关注的信息之一发布给出行者的公共交通实时信息匮乏乘客望眼欲穿,等待公交车。研究意义研究的主要内容非参数回归模型BP人工神经网络模型基于平均行驶和停靠时间的统计模型数据采集与处理公交车辆到站时间影响因素分析实证分析公交车辆到站时间组成要素对于公交线路,假设其在走向上有个站点,则其在该走向第个站点的到站时间可表示为:l)0,2(1211ldkildikildildkAnkRDAldildildiALDdnk公交车辆到站时间影响因素影响因素复杂影响因素复杂 系统建模的关键系统建模的关键站点延误程度定义一
16、种理想状态下的到站时间一种理想状态下的到站时间数据采集系统数据采集文件格式数据插值处理30s间隔数据点间隔数据点每秒钟的数据点每秒钟的数据点缓冲区分析示意图到站时间点到站时间点离站时间点离站时间点 Map Matching调查时间:2010年3月24号下午15:38-17:05调查工具:秒表调查对象:北京公交16路车辆编号为47394和 47383的公交车数据校验计算停站时间偏长计算停站时间偏长到站时间吻合程度好到站时间吻合程度好 采用的计算模型非参数回归模型BP人工神经网络模型基于平均行驶和停靠时间的统计模型基于平均行驶和停靠时间的统计模型基于平均行驶和停靠时间的统计模型BP人工神经网络模型
17、人工神经网络模型)()16(3knkk),(TldldldldSDAfA非参数回归模型非参数回归模型样本数据库的创建样本数据库的创建匹配算法和近邻机制匹配算法和近邻机制 K近邻法和核近邻法预测算法设计预测算法设计 实证分析实证分析数据采集时间范围:数据采集时间范围:2010-3-9至至2010-5-7采集对象:北京公交采集对象:北京公交16路的路的23辆辆GPS车辆车辆有效车次数据:有效车次数据:3369组组标定模型数据:标定模型数据:3000组组(上行方向(上行方向1584组,下行方向组,下行方向1416组)组)预测检验数据:预测检验数据:369组组(上行方向(上行方向177组,下行方向组,
18、下行方向192组)组)以上行方向为例(二里庄以上行方向为例(二里庄-西直门外)西直门外)实证分析到站时空图到达末站概率分布)21(2)()2()21()(xxPDF0,x)(t停站时空图末站停靠时间概率分布延误程度时空图末站延误程度概率分布预测模型评价指标 相对平均误差(MRE)站位模型6示例K=9时平均误差最小时平均误差最小5.58%20个站位模型的预测误差对比前两个站位,统计模型误差最小。前两个站位,统计模型误差最小。站位站位3开始,非参数回归模型误差最小开始,非参数回归模型误差最小。11 8 12 9 6 9 6 4 10 6 9 10 5 4 8 6 5 5 5 6最优最优K值不同值不同。20个站位模型的预测误差对比作业案例