摘 要:城轨客流预测可以帮助地铁运营部门优化列车行车间隔,提高地铁运营效率,提升服务水平。针对工作日和休息日客流变化的不同特征,为避免数据间不同特征的影响,分别构建工作日和休息日客流数据的预测模型,采用Pearson相关系数分析历史客流数据与预测值的相关程度。同时采用完全噪声辅助聚合经验模态分解(CEEMDAN)算法对客流数据进行分解,减少数据波动所带来的误差。根据客流的时间变化,采用改进的双向长短期记忆网络(BLSTM)对分解后的客流数据进行预测。为验证模型的有效性,将LSTM、BLSTM、EMD-BLSTM等模型与本文所提CEEMDAN-BLSTM模型进行对比,结果表明,本文提所提模型具有更优有效性和准确性。
关键词:城轨客流预测;时间序列; CEEMDAN-BL STM模型;神经网络,
Short- time Passenger Flow Forecast of Urban Rail Transit Based on the CEEMDAN-
BLSTM Model
Abstract:
The urban rail passenger flow forecast can help the subway operation department optimize the train interval and improve the subway operation efficiency. According to the different characteristics of passenger flow change on workdays and holidays, in order to avoid the influence of different characteristics between data, the prediction model of workdays and holidays passenger flow data are built respectively, and the Pearson correlation coefficient was used to analyze the correlation degree between the historical passenger flow data and the predicted value. Due to the large fluctuation of passenger flow data, there will be large error in directly predicting the original data. Adopt complete ensemble empirical mode decomposition with adaptive noise (CEEMDAN) algorithm to decompose passenger flow data, then based on the timing change of the passenger flow, bi-directional long short-term memory network (BLSTM) improved by LSTM is employed to predict each decomposed series. In order to verify the effectiveness of the model, the LSTM, BLSTM, EMD-BLSTM are compared with the CEEMDAN-BLSTM model proposed in this paper. The results show that the proposed model has better effectiveness and accuracy.
Keyword:
passenger flow prediction; time series; CEEMDAN-BLSTM model; neural networks;
0 引言
由于城市轨道交通运输方便快捷的特点,其在城市交通中的作用越来越重要,准确预测未来时刻客流变化,为轨道运营部门合理安排运营方案,提高服务水平意义重大。同时,还可为管理部门对乘客进行引导,确保乘客在拥挤环境中的安全,对节省车站运营成本具有重要意义。
客流预测是利用历史客流数据和相关影响因素,对下一时刻乃至未来几个时刻的客流进行预测。文献[1]使用BP神经网络进行短期交通流量预测。文献[2-3]使用支持向量机(SVM)来预测典型和非典型环境中的流量。文献[4]使用长短期记忆网络(LSTM)进行客流预测,并与SVM等方法进行对比,验证了模型的优越性。
为了进一步提高预测的准确性,文献[5]建立SVM-LSTM集成客流预测模型,可以更好地反映客流的异常波动,提高预测精度。文献[6]首先通过聚类算法捕捉客流特征,并利用LSTM预测,提出了基于聚类算法的LSTM地铁客流预测模型。文献[7-8]使用卷积神经网络CNN和BLSTM 将客流数据转换为图像并提取时间和空间的特征。
由于客流数据具有很强的不稳定性,提高预测精度变得更加困难,因此有文献提出先对客流数据进行处理,再将处理后的数据作为预测模型的输入。文献[9]提出了基于STL-LSTM 的地铁客流预测模型,通过鲁棒局部加权回归作为平滑方法(STL)将客流数据分解为S、T、R,并对每个组件进行单独的预测。文献[10-11]使用变分模态分解 (VMD)处理客流数据,验证了LSTM优于RNN模型,VMD-LSTM优于LSTM模型,但VMD存在分解成分重构与原始序列不一致的缺陷。
上述研究为城轨客流预测奠定了良好的基础,但也存在局限性。因此,考虑到不规律的客流数据变化将对预测精度造成极其不利的影响,本文建立基于CEEMDAN-BLSTM的客流预测模型。首先将原始客流数据通过 CEEMDAN算法进行分解,其次将每个分解后的序列分别用BLSTM进行预测,最后将每个分解后的序列的预测结果相加得到最终的预测结果。算例结果表明,与其他模型相比,预测精度大大提高。
1具有自适应噪声的完整集合经验模式分解
CEEMDAN是一种通过经验模态分解(EMD)和集合经验模态分解(EEMD)改进的自适应后验分解方法,能够自适应在给定的数据将其分解为多个分解分量(IMF)。通过在原始信号中自适应地加入相反的白噪声,可以避免EMD模式混合和加入白噪声后EEMD分解会产生重构误差的问题。CEEMDAN分解步骤如下:
1)在原始系列中添加高斯白噪声并确定加噪次数。
xi(t)=x(t)+ε0ni(t),i=1,2...T(1)
式中:xi(t)为加入白噪声后的第i个序列,x(t)为原始序列,ni(t)为服从N(0,1)分布的高斯白噪声,ԑ0为噪声标准差,T是添加的噪声次数。
2)使用EMD对序列进行分解,得到第一个IMF分量。
imf1(t)=1T∑i=1Timf1i(t)(2)
3)计算残余信号分量。
r1(t)=x(t)−imf1(t)(3)
4)计算第二个IMF。
imf2(t)=1TE1[ri(t)+ε1E1(ni(t))](4)
式中:Ej(•)指的是序列的EMD分解的j阶分量。
5)重复上面的步骤3)和4),得到imfk(t)的残差信号。
rk(t)=rk−1(t)−imfk(t)(5)
imfk+1(t)=1TE1[rk(t)+εkEk(ni(t))](6)
6)重复步骤5),直到得到的残差信号量极值点不超过2,得到K个IMF分量。最终的残差成分是:
r(t)=x(t)−∑k=1Kimfk(7)
即将原始序列分解为残差分量和IMF分量之和:
x(t)=r(t)+∑k=1Kimfk(8)
2 基于CEEMDAN-BLSTM的客流预测模型结构
LSTM由输入层、隐藏层和输出层组成。隐藏层增加一个记忆单元,让LSTM能够记住更多的历史信息,记忆单元包括三个门:输入门、遗忘门和输出门。通过记忆单元确保LSTM能够更好地记住历史信息中有用的部分。而BLSTM本质上是由两个相反方向的LSTM组成。LSTM只能实现单独的前向传输,但是BLSTM可以从前后两个方向训练。下层由正向时间序列计算,保存隐含层每次的输出,上层由反向时间序列得到隐含层每次输出,求均值即为最终输出。
图1为基于CEEMDAN-BLSTM的客流预测模型结构。由于客流数据具有较强的非稳定性和短时随机性,本文选择先通过CEEMDAN法对客流数据进行分解得到xi(t),以减少数据随机性对预测精度的影响。并依次将每个序列分量作为输入数据,通过BLSTM预测输出数据。最后将所有序列预测值相加得到总预测数据,并通过与真实量的对比分析模型的预测精度。
3 算例分析
3.1原始数据
选取重庆某站地铁客流数据作为原始数据,时间从2021年6月8日至7月22日共44天(31个工作日和13个休息日),地铁运营时间:6:00至23:15,步长选为15分钟。并对原始数据中的缺失值和不良数据进行处理,使用滑动窗口创建具有时间步长的模型输入数据。由于工作日客流数据呈现明显的早晚双峰特征,而休息日的客流与其有明显差异,本文分别对工作日和休息日的客流数据进行预测。
Pearson相关系数用于确定合理的历史输入数据分量,并通过模型进行验证。Pearson相关系数可以反映两组数据之间的相关程度,取值范围为[-1,1],值大于0表示正相关,越接近1,相关性越强,反之,负值表示负相关。Pearson相关系数为:
r=1n−1∑i=1n(Yi−Y¯¯¯SY)(Xi−X¯¯¯SX)(9)
式中:Yi,Xi分别是客流数据和第i个影响因素的数据,Y、X分别是客流数据和影响因素的平均值;SY、SX分别为客流数据方差和影响因素方差。
3.2 基于CEEMDAN的客流分解
利用CEEMDAN将工作日、节假日客流数据分别分解为10个和7个分量,每个分量从一开始就逐渐波动。图2和3是分解结果,第一个序列是原始客流数据。
3.3 BLSTM的参数设置
以Tensorflow为后端Keras平台编程。在3.1中,表1分析了历史客流数据对预测客流的影响。模型中隐藏层为BLSTM,使用Dense层作为输入层和输出层,实验发现增加隐藏层神经元数量有助于提高模型训练集的性能,同时增加输入层神经元数量有助于提高测试集的预测精度。本实验设置输入层神经元为128个,隐藏层神经元个数为64个,输出层数为1,即输出层神经元个数为1,隐藏层设置Dropout=0.3,选用激活函数tanh防止模型过拟合。本文选择变量学习率设置,初始学习率为0.01,每100次训练学习率变为1/10,从而保证学习效果和学习速度。在本文中,batch_size = 50。工作日和节假日分别选择前27和11天客流数据作为训练集,后2天分数据别作为验证集和测试集。
3.4 不同模型的预测结果比较
将本文所提模型与LSTM、BLSTM、EMD-BLSTM、STL-BLSTM [12]预测模型比较来验证所提模型的有效性和优越性。本文选用可反映各数据误差百分比的平均百分比误差(MAPE)和可衡量观测值与真实值偏差的均方根误差(RMSE)作为评价指标。
本文模型预测预测结果如图4和5所示。在该模型和数据集下,工作日和节假日流量预测MAPE分别为8.97%和9.79%,RMSE分别为3.56和5.78。根据预测结果,MAPE为评价指标时,工作日和节假日的预测精度差别不大,预测值能够很好地拟合真实值,反映客流变化趋势。在波动的数据集下,预测值仍能很好地拟合真实值,反映客流变化趋势。例如,在客流量大的车站,数据会变得更加平滑,预测精度也会相应提高。
表2为不同预测模型的指标比较。图6为其它四种预测模型的预测结果比较。由表2和图6可以看出,本文所提模型指标最低,即本文模型预测精度最高。与对比模型中精度最高的EMD-BLSTM模型相比,所提模型的准确率提升也达到了16.47%,证明将所提模型应用于客流预测能够取得更好的预测效果。
4结论
本文提出CEEMDAN-BLSTM城轨交通客流预测模型,通过将客流数据划分为工作日和节假日来预测客流。Pearson相关系数分析了历史客流数据对预测值的影响,基于CEEMDAN对客流数据进行分解,以减少数据波动带来的误差。为了获得更好的预测结果,采用双向长短期记忆神经网络(BLSTM)作为预测模型。并用工作日客流数据用于验证不同模型的预测精度。结果表明,EMD、STL、CEEMDAN都可以提高客流数据预测的准确性。CEEMDAN分解成分较少,预测精度提高了16.47%,表明该模型更适合客流预测。下一步,我们可以进一步考虑分析客流数据的时空相关性,分析不同站点之间的影响,进一步提高预测精度。
[1] Smith B L , Demetsky M J . Short-Term Traffic Flow Prediction: Neural Network Approach[J]. Transportation Research Record, 1994, 1453(1453):98-104.
[2] Castro-Neto M , Jeong Y S , Jeong M K , et al. Online-SVR for short-term traffic flow prediction under typical and atypical traffic conditions[J]. Expert Systems with Applications, 2009, 36(3):6164-6173.
[3] Li Yang, Wang Xu-Dong, et al. Forecasting short-term subway passenger flow under special events scenarios using multiscale radial basis function networks [J]. Transportation Research Part C: Emerging Technologies, 2017, 77:306-328.
[4] Tian Y , Li P . Predicting Short-Term Traffic Flow by Long Short-Term Memory Recurrent Neural Network[C]. 2015 IEEE International Conference on Smart City. IEEE, 2015.
[5] Guo J , Xie Z , Qin Y , et al. Short-Term Abnormal Passenger Flow Prediction Based on the Fusion of SVR and LSTM[J]. IEEE Access, 2019, 7: 42946-42955.
[6] Zhang J , Chen F , Shen Q . Cluster-based LSTM Network for Short-Term Passenger Flow Forecasting in Urban Rail Transit[J]. IEEE Access, 2019, 7:147653-147671.
[7] Ma X , Zhang J , Du B , et al. Parallel Architecture of Convolutional Bi-Directional LSTM Neural Networks for Network-Wide Metro Ridership Prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 20(6): 2278-2288.
[8] Du B , Peng H , Wang S , et al. Deep Irregular Convolutional Residual LSTM for Urban Traffic Passenger Flows Prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21(3):1-14.
[9] Chen D , Zhang J , Jiang S . Forecasting the short-term metro ridership with Seasonal and Trend decomposition using Loess and LSTM neural networks[J]. IEEE Access, 2020, 8(1): 91181-91187.
[10] Liang D , Xu J , Li S , et al. Short-term passenger flow prediction of rail transit based on VMD-LSTM neural network combination model[C]. 2020 Chinese Control And Decision Conference, 2020: 5131-5136.
[11] Cao J , Li Z , Li J . Financial time series forecasting model based on CEEMDAN and LSTM[J]. Physica A: Statistical Mechanics and its Applications, 2018, 519:127-139.
[12] Zhang W,Qu Z,Zhang K. et al. A combined model based on CEEMDAN and modified flower pollination algorithm for wind speed forecasting[J]. Energy Conversion and Management, 2017. 136:439-451.