本文主要是记录下Exploring Bikesharing Travel Patterns and Trip Purposes Using Smart Card Data and Online Point of Interests这篇文章的主要思路。
1.论文概要
数据
共享单车刷卡数据;google api提供的POI数据;
方法
kmeans聚类,LDA主题模型
概要
文章主要是利用刷卡数据和POI数据利用聚类和LDA主题模型探究了共享单车出行目的和出行模式。
详细思路
- 首先爬取了POI数据,然后将POI分成6个类别。为每个共享单车站点设定缓冲区,因此可以计算出每个站点缓冲区内各个POI类别的比例,进而使用这个比例作为features进行了kmeans聚类,将站点划分成了5个类别。
- 然后对数据进行处理,对每一次trip,都根据这样的规则打上标签,文章给了一个例子:some people ride to station #256 around 8 pm on Monday. The station type for station #256 in the clustering analysis was type P1. This trip record was transformed into a trip label as Mon20P1.然后将这个标签作为LDA的基本输入。
- LDA模型是用来处理文本数据的,因此文章将输入输出都做了一定的解释:首先将一次trip作为一个word,将一个行政区划(其实就是一个交通小区,或者一个分析单元)作为一个document,将所有的trips作为corpus,最后可以得到每个行政区划的topic,这些topic也就是travel pattern。这样一来,一来可以划分出若干个topic,这些topic就是出行模式,可以对出行模式进行分析;二来可以揭示各个行政区划的主题,这样一来可以对各个行政区划的共享单车站点布置提出优化建议。
- 在3中介绍了主要的方法论,最后文章主要从两个维度进行了分析。第一个维度是提取了最重要的几个travel pattern,每个travel pattern观察其最重要的10个trip标签,以此分析这些最重要的出行模式及出行目的。第二个维度是对于每个行政区划,分析该行政区划的出行模式,以此对该行政区划的共享单车站点提出优化建议。
参考文献
Bao J , Xu C , Liu P , et al. Exploring Bikesharing Travel Patterns and Trip Purposes Using Smart Card Data and Online Point of Interests[J]. Networks and Spatial Economics, 2017, 17(4):1231-1253.