Page 241 - 《软件学报》2021年第5期
P. 241
曹翰林 等:轨迹表示学习技术研究进展 1465
其中,Z={z 1 ,z 2 ,…,z k′ }是经过表示后得到的新的序列,z i 是新序列中的数据点,EMB 是表示过程.不同表示方法的
区别,主要体现在不同的表示过程上.
2.2 基于轨迹点的表示
我们首先讨论轨迹序列中基于轨迹点的表示.由于数据采样的特性,轨迹点是原始轨迹序列数据中最基本
的单元,在形式上由坐标点和时间戳组成.
2.2.1 基于划分
在处理真实轨迹的过程中,我们经常会面临轨迹长度过长和轨迹分布稀疏的问题,这两者都会导致数据空
间的激增.具体来说,前者会因为轨迹点过多,导致轨迹数据的处理时间增加;后者会造成轨迹点的坐标值值域
过大,导致坐标取值稀疏,进而影响表示效果,如图 2 所示(其中,不同的轨迹位于坐标空间中的各处,坐标的值域
极易受其影响).
Fig.2 An illustration of sparse distribution of trajectory sequences
图 2 轨迹序列分布稀疏示意图
基于划分的方法的主要思想就是将一些相互邻近的轨迹点看作一个集合,转而用该集合的标识来代表集
合中的轨迹点,进而由多个集合的标识所构成的序列来表示轨迹.这既是一种近似,也是一种抽象.在实际工作
中,通常使用兴趣点(point of interest)和网格(grid)来作为集合的基本单元.
(1) 划分兴趣点
借助兴趣点信息来划分轨迹,是解决单条轨迹过长问题的一种有效方法.其基本假设是:轨迹的产生是基于
一系列兴趣点,从而可以将轨迹点序列转化为兴趣点序列.例如,一个人日常上班的轨迹可以用家、车站、公司、
餐馆等兴趣点来表示.对应到序列-序列框架中,新序列的数据点就是轨迹中的兴趣点,它是部分原始轨迹点的
集合:
S→Z,z i ={(l h+1 ,t h+1 ),…,(l h+w ,t h+w )},
其中,z i 表示兴趣点,w 是隶属于该兴趣点的轨迹点的数量.
具体实现时,通常是以兴趣点为圆心、以一定的长度为半径在地图中划出一个圆形区域,凡是落在该区域
内的轨迹点都由该兴趣点来表示.轨迹则按照从一个兴趣点到下一个兴趣点的顺序依次表示出来.
划分兴趣点不仅可以大大简化轨迹数据的复杂程度,而且还可以在一定程度上得到轨迹的语义信息,因为
每个兴趣点通常都具有相应的语义,例如“公司”的语义信息和工作高度相关.这类方法常常被用于轨迹分类问
题.不过,基于兴趣点的划分方法的局限之处在于对额外地理位置信息的依赖.例如,在城市中确定兴趣点需要
依赖建筑、街区的功能信息.而在一些大范围场景中,例如候鸟迁徙、台风移动等,往往会由于缺少额外信息而
难以提取出有效的兴趣点;即使存在一些兴趣点,也会由于轨迹空间过于广阔,使得轨迹的兴趣点序列显得十分
稀疏,难以有实际用处.
(2) 划分网格
近年来,轨迹数据挖掘领域中许多有代表性的工作都采用了划分网格这一方法对轨迹进行处理.该方法将