作品编号:B989(三等奖)
作品名称:基于北京市浮动车OD数据的游客出行特征分析
作者单位:中国石油大学(华东)地球科学与技术学院
小组成员:陈海波,李建,李学伟,李谊让
指导老师:王海起
- 设计背景及意义
旅游业一直以来在国家与地区中扮演着重要的角色,它能够带动当地经济增长,在促进就业,吸引投资等方面有着独特的优势。以往传统的研究手段是以调查问卷的形式,来获取游客的反馈信息。但这种方法耗时耗力,收集数量也较少,且问卷调查结果受主观影响因素较大,对决策者的决策造成困扰。在大数据时代,大规模的浮动车GPS轨迹数据是研究出行者行为模式很好的数据源,而上车点和下车点是出行者真实的出发地和目的地。所以利用上下车点(origin-destination,OD)数据,可以挖掘出景区背后的主要游客群体,游客出行规律和偏好。在帮助景区找到市场需求和拓展方向,有针对性地开发景区,和为交通部门实施管理方面有重要意义。
- 设计思想及技术路线
- 主要设计思路
收集了北京市2015年5月11日至5月17日一周的浮动车轨迹数据(浮动车为北京出租车和少量观光游览车),提取所有OD数据。因北京市景区众多,根据OD数据在北京市景区的分布情况,和考虑景区自身特点划定样本景区。考虑到上下点多在景区旁道路和GPS点定位可能不准的情况,选择一定距离生成景区缓冲区,又考虑到景区的营业时间及游客出行和离开时间确定为7-19时,最后通过这些条件来确定景区的OD点。利用属性表连接为所有景区D点匹配对应O点,为所有景区O点匹配对应D点。利用ArcGIS集成R语言,设计了三大分析内容,游客出行统计分析,游客出行时空分布特征,景区间关联性分析。
- 游客出行统计特征分析:分景区、工作日和周末三个尺度来进行,通过编写R脚本来实现。得到不同景区工作日、周末下的客流量,各景区工作日、周末下的平均出行距离,游客出行时间与出行量的关系。通过客流量与出行距离作比较,得到客流量与距离之间的关系;游客出行时间分短时间(0-10min)和长时间(10-60min)两个尺度来分析,通过对不同时间下浮动车数量做非线性拟合,得到游客出行时间的规律。分时段研究景区客流量变化可以得出景区流入与流出的高峰时段。
- 游客出行时空特征分析:通过Arcgis核密度估计工具对各景区的上客点和下客点制作热力分布图,通过热力图可以获知景区来向和去向游客的主要分布情况。通过Arcgis标准差椭圆工具揭示游客在上下客店在空间分布上的整体特征,并将其离散程度和方向性进行直观表达。考虑到浮动车行驶轨迹沿道路网分布,且上下车点的聚集中心与附近道路交叉口之间的距离很近,采用基于道路中心点的泰森多边形区划方法进行活动强度研究单元划分,以此研究游客活动强度空间分布。活动强度体现出了该单元人口活动数量的大小特征,却无法展现游客在该区域内具体的流动变化情况。为进一步把握这一规律,仍以活动强度研究单元为研究对象,采用网络流率(NFR)的手段从游客出入特征的角度来进一步的分析和讨论。
- 景区间关联性分析:考虑到游客在一个景区游完后会到下一个景区继续游玩,只提取景区到景区间的OD点,以相关矩阵的形式来展现景区间的关系度,最后在R语言中进行可视化。
- 技术路线
图2.1 技术路线图
- 主要功能
- 展点投影
因原始OD数据较大,对每个表投影展点耗时耗力,为此我们制作了展点投影模型。对原始表数据库中每一个表进行循环展点,导出数据和投影。
图3.1 展点投影模型图
- 属性连接
因为我们在后续的景区上客点和下客点分布中,要知道各个景区下车点所对应的上车点和各个景区上车点所对应的下车点,为此制作了属性连接模型。从输入的地理数据库中选择出要匹配的4个表(D_7_19或0_7_19结尾)和待匹配的4个表(O或D结尾),连接要素为景区缓冲区进行空间连接,连接后为景区中的所有下车点和上车点,与待匹配表通过trackID字段进行匹配,得到的是每个景区下车点(上车点)所对应的同轨迹的上车点(下车点)。
图3.2 属性连接模型图
- R统计脚本
利用R语言强大的统计和可视化功能,并利用r-bridge桥接工具在arcgis中安装R bindings,直接将R语言脚本封装成GP工具,将游客出行距离、时间;景区的客流量、分时段的吞吐;景区相关关系做了全面的统计分析。
(a)R 统计脚本
(b)景区日均客流量
(c)工作日游客出行平均距离
(d)周末游客出行平均距离
(e)短时间与出行量非线性拟合
(f)长时间与出行量非线性拟合
(g)分时段景区吞吐量
(h)景区相关矩阵
图3.3 R统计结果图
- 核密度、标准差椭圆模型
这个模型用于制作每个景区(上下客点)的核密度分布图和标准差椭圆分布图。椭圆大小为2_STANDARD_DEVIATIONS,各景区核密度为统一标准带宽为所有景区默认带宽的均值。
图3.4核密度、标准差椭圆模型图(上)及结果图(下)
- 建立以泰森多边形为基础的研究单元
首先,利用new network dataset建立道路交点,以道路交点为站点生成泰森多边形;为保证划分单元适合OD点分布,将落入每个多边形内的所有OD点归为一类,用所有OD点再次生成泰森多边形;其次,由于OD点分布的不均匀性,以上划分并没有保证每个单元内都有足够数量的OD点. 过少的OD 点在区域出入特征表达上不具有较强的说服力. 因此我们对区域进行了合并. 合并的总体思路是根据OD 数量阈值(90%分类单元所含OD点数,即10个OD点)对每个OD数量小于10的单元合并到与之邻接且OD 数量最少的对象中,最终获得533个研究单元。(活动强度计算,该单元的活动强度=该单元该时段的所有OD数/该时段所有OD数;网络流率计算,)
(a)道路交点生成的泰森多边形 (上) (b)OD点生成的泰森多边形(下)
(c)二者结合生成的研究单元(上) (d)总体活动强度图(下)
图3.5 建立研究单元过程图及活动强度图
- 特点、结论及展望
- 作品特点
通过利用Rbindings将R与Arcgis结合在一起,实现了游客出行的距离、时间,景区的日均客流量,分时段吞吐量,景区间相关关系,丰富了Arcgis空间统计和可视化的能力,又结合Arcgis的核密度和标准差椭圆工具制作了上客点和下客点的热度分布和方向分布,利用道路交点与OD数据结合的方式用泰森多边形细化了研究单元,分析了活动强度和流入流出情况。从空间统计和空间分析两大方面对游客出行特征和景区总体特征做了全面的分析。
- 结论
- 出行距离与客流量成反比,出行距离较长的地方,客流量较少。但客流量不仅与距离有关系,与知名度也有很大的关系。
- 游客搭乘出租车去景区多为短时出行,10分钟最多。9-11点为景区高流入时段,流出时段较为平均。
- 上下客点集中分布在景区周边的住宅区、大学、酒店,还有一部分在火车站和机场。
- 识别出两大游客群体:学生和外地游客
- 距离较近的景区有较大的相关性。
- 展望
可以为学生群体、外来游客群体制定专门的优惠政策,淡季以吸引更多的游客;像离机场较近的景区例如奥林匹克森林公园、水立方、鸟巢等可考虑开通景区到机场的接驳线,离火车站较近的景区可考虑开通景区到火车站的接驳线;上午9-11点为景区高流入时段,景区在这个时段考虑加强管理,避免景区内发生拥堵,游客也可错开高峰时段以保证更好的游玩效果;距离较近(10min车程可达)的景区,可考虑卖联票的方式吸引游客。
参考文献
[1]刘萌,邬群勇.基于出租车OD数据的居民活动强度时空特征研究[J].福州大学学报(自然科学版),2018,46(02):204-209.
[2]杨格格,宋辞,裴韬,周成虎,舒华,张加.北京对外交通枢纽乘客OD时空分布特征[J].地球信息科学学报,2016,18(10):1374-1383.