Page 239 - 《软件学报》2021年第5期
P. 239
曹翰林 等:轨迹表示学习技术研究进展 1463
掘的最终效果.随着物联网等相关技术的发展,我们相信:在未来,基于轨迹数据的应用必将成为与人们日常生
活关系最为密切的应用之一,同时也一定会涌现出更多形式多样、含义丰富的轨迹数据.因此,研究对轨迹数据
的有效表示有着十分重要的现实意义.
轨迹表示一直以来都是轨迹数据挖掘的重要研究内容之一.在长期的研究和实践过程中,研究人员相继总
结了有关轨迹数据处理的技术,其中不乏一些针对轨迹表示方法的整理工作.郑宇等人 [17] 对轨迹数据挖掘领域
的问题和方法做了全面且系统的梳理,但文中关于轨迹表示的内容只总结了 3 种轨迹表示的形式,这对于轨迹
表示来说仅占其中的一小部分.文献[18]主要总结了深度学习在时空数据表示领域的工作,其中虽然有少部分
内容涉及到轨迹表示,但仅局限于基于深度学习的方法,且篇幅较短,未能展现该问题的全貌.因此就目前来说,
轨迹表示领域缺少一篇较为全面和详细的综述文章.本文通过广泛整理轨迹表示相关的文献,针对轨迹表示的
研究成果和关键技术进行了系统的归纳和总结,并对轨迹表示方法按照研究对象的不同尺度和方法的不同原
理进行了详细分类,同时还给出了不同类别的方法所适用的应用场景.此外,本文还对轨迹表示领域存在的一些
开放性问题和未来的研究方向进行了探讨和展望.
本文第 1 节对轨迹表示的定义、轨迹表示的难点以及轨迹表示方法的分类作一概述.第 2 节和第 3 节分别
介绍对轨迹单元和对整条轨迹的表示方法.第 4 节讨论轨迹表示领域的未来研究方向.最后,在第 5 节对全文进
行总结.
1 轨迹表示概述
1.1 轨迹与轨迹表示的定义
定义 1. 轨迹是指物体在地理空间中移动的真实路径,是从时间(时刻)到空间(二维坐标)的连续函数.
定义 2. 轨迹的离散采样是最基本的轨迹数据类型,具体形式为离散点序列 S={(l 0 ,t 0 ),…,(l k ,t k )}.其中,l i 表示
移动主体所在的地理位置(如经度和纬度),t i 则表示移动主体通过该位置的时刻.
由于 GPS 等定位技术通常不会连续地记录位置信息,因此在实际中,我们收集到的轨迹数据通常都是在真
实轨迹上采样后得到的.为了便于表述,如无特别说明,下文中涉及到轨迹之处均是指轨迹的离散采样.
定义 3(轨迹表示), 给定一条轨迹离散采样数据 S,轨迹表示的目的是找到一个映射 f 将轨迹数据转化为 d
d
维空间中的向量 v∈R ,同时要求该向量能够尽可能地保留原始轨迹数据的时空属性.
1.2 轨迹表示的难点
对轨迹进行表示面临着诸多挑战 [17] :首先,不同的轨迹有着不同的属性,例如长度、形状、采样率、轨迹点
数量等等,这对表示方法的稳健性提出了挑战;其次,轨迹数据属于时空数据,采用传统方法难以捕获其时空相
关性.尽管人们在轨迹数据挖掘领域进行了广泛的研究,但专门针对轨迹表示的工作依然有限.对于如何将不同
类型的轨迹数据转化为相应的高效表示形式、使其有利于进行模式识别,一直以来都还没有一套成体系的解决
方案.
传统的轨迹表示方法多是基于人工设计特征,例如从原始轨迹数据中提取出速度、加速度、角度等信息,
再将这些信息组合到一起来表示轨迹.但这类方法受限于特征提取能力,通常仅将轨迹表示作为数据预处理的
一部分.随着深度学习逐渐流行起来,利用卷积神经网络(CNN)和循环神经网络(RNN)来学习轨迹表示的方法
取得了长足的进展,其核心思想是,通过数据驱动的方式来学习从原始轨迹到表示向量的映射过程.这类方法虽
然在特征提取能力方面有较大的提升,但也易受端到端训练框架的限制.这部分会在第 3.2 节中详细说明.
1.3 轨迹表示方法的分类
近年来,有越来越多的工作在众多前人研究成果的基础上,对轨迹数据混用了多种不同类型的表示方法,导
致轨迹表示环节更加难以直观地体现出来.这对轨迹表示方法的整理工作提出了一定的挑战.
在已有的涉及到轨迹表示的文献中,通常是按照轨迹表示所使用的模型对轨迹表示方法进行分类,例如
CNN、RNN、LSTM、Seq2Seq 等.而我们认为:轨迹数据本身就有着非常丰富的表现形式,轨迹数据应当是轨迹