Page 251 - 《软件学报》2021年第5期
P. 251
曹翰林 等:轨迹表示学习技术研究进展 1475
轨迹表示也会更加稳健.文献[72]提出了一种叫做 trajGANs 的框架,该框架可作为“隐私保护层”加入到轨迹数
据处理的过程中,通过生成可以满足分析任务的轨迹数据来达到保护隐私的目的.文献[73]受该框架所启发,结
合了 LSTM 和 GAN 来生成用于发布的轨迹数据,并在轨迹-用户链接任务上验证了生成轨迹的有效性,为轨迹
隐私保护提供一种全新的视角.文献[1]提出一种学习轨迹深度表示的模型,该模型基于 seq2seq 结构,利用人工
加噪得到的低质量轨迹去生成未经加噪处理的原始轨迹,使得模型在面对低采样率、噪声等问题时具有一定的
稳健性.作者使用轨迹的嵌入表示作为轨迹表示向量,在轨迹相似性计算问题上取得了超越传统方法的效果.但
需要指出的是,由于轨迹数据具有天然的序列形式,现有的轨迹生成模型大多是基于 RNN,通过最大化目标位置
概率的方式来依次生成轨迹点.然而基于 RNN 的生成模型极易在测试阶段造成累积误差 [74] ,即模型根据之前预
测得到的轨迹点来预测下一个轨迹点,而预测的轨迹点本身可能存在误差,并在之后的预测过程中造成误差的
累积传递.因此,探索更加多元的轨迹生成方法值得在未来进一步研究.
4.3 语义轨迹表示
现有的轨迹表示方法大多只聚焦于轨迹数据本身,很少考虑潜在的语义信息,从而影响了轨迹建模的准确
性.如在轨迹异常检测领域,根据出租车辆的绕路等行为模式,可以将一些轨迹判定为异常.然而,如果考虑轨迹
的语境,比如途经某正在举办大型体育赛事的拥堵路段,那么这些“异常”轨迹在当前语境下实际上应当是正常
的.因此,随着语义信息的获取越来越方便,例如大型活动、天气、景点和突发事件等,轨迹表示不应仅局限于轨
迹本身,还应充分利用从其他信息源获得的语义信息,以得到表达能力更强的语义轨迹表示.使用语义轨迹表示
有助于丰富轨迹数据挖掘的内容.例如,将 POI 等信息作为轨迹的位置语义,可以在度量时空相邻的同时增加对
轨迹语义相似的度量和判断,从而实现对人群更细粒度的识别和分类.因此,近年来,对语义轨迹的研究逐渐成
为了一个新的研究热点,其主要任务是通过借助外部语义信息来对轨迹数据的语义信息进行推断、匹配和挖
掘,从而将无语义的轨迹数据转化成带有语义信息的轨迹表示.目前,针对语义轨迹表示的探索主要集中在以下
两类方法上.
• 第 1 类方法主要是通过引入地理位置的语义注释(例如兴趣点、兴趣区域和路径的语义注释)或借助已
知语义信息的数据(例如地图、文本),为轨迹单元匹配或生成语义标签.文献[75]对地理位置语义理解
的技术做了详细的归纳.现有的工作大多集中在挖掘分析轨迹的语义标签来得到语义轨迹,进而基于
语义理解进行诸如地理位置推荐 [76−78] 、预测 [79−81] 等任务.这类方法的优点是轨迹单元拥有明确的语
义,但关于如何进一步对语义轨迹进行表示并没有过多探究.此外,在融合语义信息与时空信息这一方
面,也会面临第 4.1 节中提到的难点.
• 第 2 类方法主要是在缺少外部语义信息的条件下,通过融合先验知识和轨迹数据的自身属性来挖掘轨
迹单元之间的隐含语义联系.其中最有代表性的一类工作是借鉴分布式词向量表示的思路,将轨迹单
元视为词语,利用无监督学习的方式将轨迹单元映射到连续的向量空间中,以此来挖掘邻近轨迹单元
的上下文关系,进而得到轨迹的语义表示 [1,2,48,82] .这类方法的特点是其向量表示能够较好地体现轨迹
单元之间的潜在语义联系,但不足之处是缺少关于轨迹单元本身的语义理解.
现有的相关工作依然有很多挑战未解决.1) 当前的研究往往假设语义信息是确定的,而实际环境中,轨迹
位置的语义数据通常是繁多且模糊的.例如,同一个位置附近可能有多个重复的兴趣点,从而造成语境上的冗
余;此外,尽管重要事件可以显著地影响轨迹的语义解释,但用户可能是因为相关事件而前往某场所,也有可能
只是经过该场所.因此,轨迹数据与语义信息的相关程度度量、个性化的轨迹语义信息过滤等,也是重要的研究
问题.2) 现有对语义轨迹表示的研究主要侧重于局部语义,很少对轨迹的全局语义进行表征.而不同粒度的语
义单元也会对轨迹表示的质量带来影响.因此,如何选择恰当的语义单元粒度,以及如何构建可靠的语义轨迹距
离度量方法来支撑有效的轨迹表示等,都值得进一步深入研究.
5 总 结
定位设备的普及和基于位置信息应用的发展,为轨迹数据挖掘提供了海量的数据支持和应用需求.轨迹数