Page 246 - 《软件学报》2021年第5期
P. 246

1470                                     Journal of Software  软件学报 Vol.32, No.5,  May 2021

                 预测结果,意味着模型学到的其实是一种“平均行为”,这在一定程度上限制了预测的效果.因此,作者在输入信息
                 中引入了服从标准正态分布的随机噪声,同一条轨迹在不同随机噪声的影响下将会得到不同的预测结果,选取
                 这些结果中最好的那个作为最终的预测结果,并用来计算损失函数.值得一提的是:模型采用了 GAN 去优化参
                 数,这在轨迹数据挖掘应用中是比较少见的.文献[26]进一步在 Social GAN 的基础上引入了注意力机制                           [55] ,同时
                 还使用语义分割的方法从场景图像中提取信息,从而获得了更准确的预测结果.
                 2.4.2    轨迹相似性计算
                    时空轨迹相似性计算,即计算不同轨迹间的相似程度,是诸多轨迹应用的基础.现有的轨迹相似性计算方法
                 主要可以分为两类:基于轨迹序列和基于表示向量.
                    传统的方法多是基于轨迹点序列,通过点对匹配(pairwise points-matching)的方法来计算相似性,即,按某种
                 方式累加轨迹点对之间的距离来作为度量轨迹间相似程度的依据.其中,全局匹配度量方法有欧式距离法                                     [56] 、
                 动态时间规整(DTW)     [57] 、编辑距离法(ERP)  [58] 等,局部匹配度量法主要有实序列编辑距离法(EDR)             [59] 、最长公
                 共子序列法(LCSS)    [60] 、k-最佳连接路径法(k-BCT)  [61] 和基于邻近点的轨迹互补法(CATS)       [62] 等.不过,基于点对匹
                 配方法的基本假设是轨迹数据具有一致的采样率,因此,此类方法容易受到轨迹采样率和轨迹噪声的影响.
                    针对轨迹数据采样率低、采样率不一致、采样过程存在噪声等问题,基于表示向量的方法试图通过将轨迹
                 数据转化成向量来克服轨迹序列的不足.文献[1]提出了一种针对低质量轨迹数据的稳健表示方法,并以此来计
                 算相似性.作者利用低采样率的轨迹去尽可能还原采样自同一轨迹的高采样率数据,从而学习出轨迹的潜在表
                 示.具体实现时,作者对同一条轨迹进行下采样(down sampling)和变形(distortion)得到低质量的轨迹数据,通过
                 这种方式,可以自行生成丰富的训练数据.对轨迹单元的表示依然采用了 Skip-gram 模型,利用 RNN 来学习从低
                 质量轨迹到高质量轨迹的嵌入.文献[2]在文献[1]的基础上进行了改进,其借鉴了文献[21]对时间、位置、语义
                 信息的处理,将上述 3 种信息的表示向量组合到一起作为轨迹的表示,并通过比较低采样率和高采样率轨迹的
                 表示向量来完成轨迹间的相似性度量.
                    通过轨迹相似性计算,我们可以从实验上较为直接地度量基于表示向量方法的效果.为此,首先需要定义相
                 似轨迹.例如,文献[1]假设若两条轨迹 S 和 S′均采样自同一条真实路径,则认为 S 和 S′属于相似轨迹.好的轨迹表
                 示方法应当在对相似的轨迹进行表示后,其表示结果依然满足相似关系.以此为依据,通过对比相似轨迹在不同
                 表示方法下表示结果的相似性,可以实现对不同轨迹表示方法效果的度量和评价.
                 2.4.3    轨迹聚类
                    在有了上述的轨迹相似性计算作为铺垫后,轨迹聚类就是在其基础上进一步将相似的轨迹段或轨迹划分
                 到一起.常见的轨迹聚类方法是将轨迹或轨迹段表示成向量,通过计算向量间的距离来完成聚类.
                    文献[3]通过人工设计特征的方式将轨迹段的位移、速度、角度信息表示成向量,然后将该向量输入到
                 Seq2Seq 模型中做特征提取,并将得到的定长向量作为轨迹段的表示,最后使用经典的聚类算法完成对轨迹段
                 的聚类.
                    然而文献[4]认为:将轨迹映射到特征空间会造成轨迹间的距离关系不再被保持,这不利于聚类这种依赖相
                 似性度量的应用.针对这一问题,文献[4]提出了一种完全基于几何变换的映射方法来保持轨迹间原有的距离关
                 系.作者首先基于划分网格的方法对轨迹所涉及区域的范围进行表示,通过计算不同轨迹间所占网格的交集与
                 并集的比值来度量轨迹间的相似性.映射过程主要基于勾股定理(Pythagorean theorem),保证了特征空间是正交
                 的.最后,使用改进后的 K-means 算法对轨迹进行聚类.

                 3    对整条轨迹的表示

                    接下来我们介绍针对整条轨迹的表示.从算法逻辑的角度来看,上述的基于轨迹序列单元的表示方法遵循
                 的是分治(divide and conquer)的思想.轨迹序列首先被分成若干个单元(即 divide),然后再对轨迹序列单元进行
                 表示,进而整条轨迹将会以新形式下的单元序列呈现出来(即 conquer).而有别于上述逻辑,针对整条轨迹的表示
                                                                             [4]
                 方法不再聚焦于序列单元的表示,而是将整条轨迹序列视为一个单元来表示 .
   241   242   243   244   245   246   247   248   249   250   251