Page 244 - 《软件学报》2021年第5期
P. 244
1468 Journal of Software 软件学报 Vol.32, No.5, May 2021
其中,W e 是一个 2×N 的权重矩阵(N>2).经过嵌入后,轨迹点的表示由原先的二维坐标向量(x i ,y i )升维成一个新的
N 维向量 e i ,并且嵌入层的参数会随着模型一起优化,这样就可以在数据驱动的方式下学到最有利于优化目标
的轨迹点表示.除此之外,利用前馈神经网络学习轨迹单元表示可以不受词袋容量的限制.这是因为轨迹单元的
表示过程是从空间坐标(二维向量空间)映射到 N 维向量空间,而非从词语映射到向量空间,因此可以有效地解
决基于 word2vec 方法的不足.但相应地,使用前馈神经网络的方法无法保证相邻的轨迹单元空间拥有相似的表
示向量.
2.2.4 基于图表示
我们上述的所有表示方法都是基于轨迹序列这一基本数据形式来演绎的,然而轨迹数据除了序列形式之
外,还可以转化成其他的数据形式,这极大地延展了轨迹表示领域的深度和广度.基于图表示的方法就是其中最
有代表性的一种.
此类方法的重点在于如何构建图,主要任务是对节点和边进行定义.一旦顺利将轨迹数据表示成图,那么剩
下的工作就是利用图表示方法将节点或边嵌入到低维空间中,使得图的结构信息和属性能够在最大程度上保
留.图表示的方法众多,且不同类别的方法有各自的优缺点 [29,30] .这里,我们参考了文献[17]对此类方法的分类,针
对轨迹表示,将常见的构建图的方法按照使用场景分为两类:交通路网场景和自由空间场景.
(1) 交通路网场景
交通路网本身就可以看作为一个有向图 G(V,E),其中,V 代表顶点(即十字路口)的集合,E 代表边(即路段)的
集合.每条边 r∈E 都对应于一条将一个顶点 v∈V 和另一个顶点 v′(≠v)∈V 连接起来的路段,其中,r.s=v 和 r.e=v′
分别表示路段的起始路口和终止路口.文献[10]在通过这种构建方法得到的图上,利用 word2vec 来学习边(即路
段)的表示.
(2) 自由空间场景
在自由空间中,由于缺少像交通路网那样既有的物理条件,往往需要利用其他信息来构建图,如时间信息、
语义信息等,这也使得此类方法在内容上更加丰富.常见的方法是将城市区域或兴趣点作为图的节点.之所以不
直接将轨迹坐标点作为图的节点,是因为除了要考虑原始数据稀疏的问题外,往往还会面临数据浮动(data
variation)的问题 [31] ,即产生于同一块区域或同一段时间内的轨迹点本可以被认为是属于同一类数据,但却由于
具体坐标值和时刻有些许差异而被分别对待.
文献[32]以兴趣点作为图的节点,在建立连边时,基于的假设是:1) 同类型的位置点有相似的语义;2) 距离
上相近的位置点,要比距离较远的位置点更相关.然后,按照一定的距离阈值将附近的节点和同类型的节点进行
连接,利用 node2vec 学习兴趣点的向量表示.为了解决静态图没有考虑不同时间对节点功能的影响问题,文献
[33]采用了时序图的形式,即同一节点按照不同时间段被拆分成多个节点.具体地,以城市中的行政区域为节点,
基于出租车的行驶数据构建了交通流时序图.处于相同时间段的节点位于同一层,层的数量等于时间段的数量.
例如,24 层意味着一天被划分成 24 个时间段.相邻层之间的节点根据交通流数据进行连接,然后在图中进行随
机游走,利用 Skip-gram 学习不同时间段的节点(即区域)表示.文献[34]使用基于位置的社交网络(LSBNs)数据构
建了 4 个相关联的二分图(bipartite graph):POI-POI 图、POI-Region 图、POI-Time 图、POI-Word 图,并将这 4
种不同的信息嵌入到同一个低维空间中来学习各自的向量表示.
2.3 基于轨迹段的表示
现在我们来看基于轨迹段的表示方法,这类方法的主要思想是,将轨迹段作为轨迹序列的基本单元进行表
示.所谓的轨迹段是指由若干个连续的轨迹点构成的集合,在形式上表现为轨迹序列的子序列.之所以使用轨迹
段作为序列单元,一方面是因为相比于整条轨迹,分段后不仅能够降低计算复杂度,而且能够帮助我们挖掘出更
丰富的信息,例如不同区间段的轨迹模式;另一方面是因为在一些场景中轨迹段更适合用来表示轨迹,例如城市
交通路网天然地由众多规整的路段组成,位于同一路段中的所有轨迹点都不妨用该路段的标识来表示.
除了文献[17]中总结的轨迹分段方法以外,另一类很常见的轨迹分段方法就是上述的依靠城市路网背景,
以路段作为天然的轨迹段.