Page 242 - 《软件学报》2021年第5期
P. 242
1466 Journal of Software 软件学报 Vol.32, No.5, May 2021
地图划分成等间距的网格,每个小网格都有各自的标识.落入同一网格所表示范围中的轨迹点都由该网格的标
识来表示.于是,原始的轨迹点序列被转化成为一系列网格构成的序列:
S→Z,z i =g i ,
其中,g i 是新序列中第 i 个网格的标识.
关于网格表示,最简单的做法是使用独热向量 [47] ,但独热向量无法体现出相邻网格之间的空间关系.因此,
近年来有越来越多的工作都借鉴了自然语言处理领域中的 word2vec 方法 [48] 来对网格进行表示学习,并取得了
非常好的效果.这部分内容将会在第 2.2.3 节中详细介绍.
划分网格的方法主要解决了原始轨迹数据分布稀疏的问题,此外,还可以缓解轨迹采样率不一致和采样率
低的问题 [49−51] .这是因为划分网格相当于将轨迹数据空间中的最小单元从无限小的实值点放大为自定义大小
的网格,于是数据空间得以压缩,数据分布稀疏的问题得以缓解.有趣的是:如果从兴趣点的角度考虑,我们不妨
将每一个网格看作是一个自定义的兴趣点,从而划分网格的方法也可以被看作是划分兴趣点的方法在自由空
间中的推广.相比于基于兴趣点的表示方法,划分网格不依赖额外的地理信息,因此,该类方法更适合应用于缺
少外部信息的自由空间场景.不过,基于划分网格的轨迹表示方法需要先验地确定网格的大小,且轨迹表示的效
果会受到网格大小的直接影响.例如,网格尺寸过大会导致划分过于粗糙从而缺少相应的轨迹模式细节,而网格
尺寸过小又会降低缓解稀疏性的能力.因此在实际应用中,往往需要选择合适的网格大小.文献[19]分别使用边
长为 200m,400m,800m,1600m 和 3200m 的网格来划分区域,通过不同层级的分辨率来捕获不同粒度下的轨迹特
征;文献[20]则是采用自适应的参数调整方法.在将轨迹分段后,通过保证每个网格内轨迹段的平均数量 Num avg
来设置网格的尺寸,并通过大量的实验,经验地总结出:当参数 Num avg =2 时,能够获得最好的轨迹聚类效果.
2.2.2 基于人工设计特征
早期的轨迹表示方法大多使用人工设计的特征来表示轨迹,因此这类方法也常被称为轨迹特征提取.之所
以可以进行特征提取,是因为原始的轨迹点序列中包含了丰富的空间和时间信息.这类方法的核心思想是:利用
已有的时空信息来挖掘新的特征,将原始的轨迹点序列转化为特征序列.
S→Z,z i =f i ,
[22] [13]
其中,f i 是根据若干个轨迹点数据提取到的特征.例如,通过下列公式可以计算出移动主体的位移 L i 、速度 V i
[6]
和加速度 a i .
L = Dist (,P P i+ 1 ),
i
i
ΔT = P ⋅− P i , T ⋅
T
1
i+
i
V = L i /Δ ,T i
i
a = (V − V )/Δ .T
i i+ 1 i i
郑宇等人在文献[23]中先对轨迹进行分段,然后在各个轨迹段内计算位移、最大速度、最大加速度、平均
速度等物理量作为该段轨迹的特征,并用特征的序列取代原有的轨迹点序列作为模型的输入数据,进而对轨迹
的交通模式进行分类;他们还在文献[24]中设计了更为复杂的特征,包括速度变化率(VCR)、停止率(SR)以及转
向率(HCR),从而实现了更准确的分类效果.除了设计不同的物理量,文献[3]进一步将这些物理量的统计量作为
特征,如均值、最值、分位数,使得轨迹的特征更加精细化.
然而,基于人工设计特征的轨迹表示方法有如下局限:1) 特征的设计高度依赖专家知识,而且针对不同的
轨迹应用场景,往往需要重新选择和优化特征,这增加了此类方法的应用难度;2) 人能够从轨迹数据中抽象出
来的特征种类是有限的,随着特征工程的深入,新特征的获取会越来越难,导致基于人工设计特征的方法所带来
的增益趋于平缓.
2.2.3 基于词袋
近年来,自然语言处理领域的研究取得了长足的进展 [48,52] ,其中涌现出的一些新方法也被轨迹表示领域的
工作所借鉴.之所以可以借鉴,是因为轨迹序列数据和文本数据有诸多共通之处:一条轨迹类似于文本数据中的
一个句子,轨迹序列单元则可以被视为构成句子的词语.此外,轨迹数据中轨迹点还服从幂律分布 [15] .