深度学习在红外目标跟踪中的应用展望

    庄旭阳 陈宝国 张景山

    摘要:近年来,深度学习算法研究持续升温,已经在自动驾驶、工业检测以及医疗等领域占据了主要地位。红外目标跟踪是红外导引的一项关键技术,然而,对于复杂的红外场景,已有的跟踪算法很难适用所有情况,跟踪效果遭遇瓶颈。本文通过介绍红外目标跟踪算法发展现状、基于深度学习的目标跟踪算法最新发展,分析了目前主流深度学习算法的优缺点,结合红外目标跟踪的特点和深度学习方法的工作思路,展望了深度学习方法在红外领域的应用前景及未来的工作方向。

    关键词:目标跟踪;深度学习;红外导引技术;弱小目标

    中图分类号:TJ760;TP391文献标识码:A文章编号:1673-5048(2019)01-0047-06[SQ0]

    0引言

    红外目标跟踪是红外导引的一项关键技术。其基本研究内容是从红外图像序列或视频流中确定感兴趣的目标区域,在之后的连续帧中定位该目标在红外场景中的位置,形成目标的运动轨迹。红外场景的目标跟踪可以全天时工作,在导弹制导、战场侦察等航空航天领域具有重要的地位。

    在实际应用中,红外目标跟踪面临着诸多难题,如成像分辨率低、目标的尺度及外观变化、复杂的背景杂波、干扰以及遮挡。然而,传统的跟踪算法主要采用的特征有尺度不变特征(SIFT)、方向梯度直方图(HOG)、局部二值模式算子(LBP)、压缩感知(CS)和仿射不变特征(MSA)等[1],但这些特征本质上是一种手工设计特征,根据不同的场景而特别设计。对于复杂的红外场景,已有算法很难适用所有情况,跟踪能力提升遭遇瓶颈[2]。

    2006年,Hinton等人提出深度学习的概念,引起了业界的广泛关注,迅速成为全球研究热点[3]。深度学习在学术界和工业界持续升温,首先在语音识别的问题上取得了突破性进展,之后在2012年基于卷积神经网络的深度学习模型进军图像分类领域,取得了非常大的性能提升。在CVPR2016中,基于卷积神经网络的目标跟踪方法已占据主要地位,基于卷积神经网络的目标跟踪系统是当前性能最好的系统之一。相较于传统特征提取方法,包含更多层隐藏层的卷积神经网络拥有更强大的特征学习和表征能力。对于分辨率不高、对比度低、噪声大的红外目标跟踪问题有很好的应用前景。

    1红外目标跟踪算法发展现状

    由于军事需求,红外目标跟踪的研究主要集中在对弱小目标的跟踪,其算法是与目标检测相辅相成的。红外弱小目标的跟踪算法一般分为两类:第一种是基于单帧图像的跟踪前检测算法(DBT),第二种是基于图像序列的检测前跟踪算法(TBD)[4-5]。

    1.1红外弱小目标的跟踪前检测算法

    跟踪前检测的基本思路是:首先将输入图像进行预处理和分割,并根据目标灰度或纹理特征等,利用先验知识确认真实目标。这种方法思路清

    晰,且容易实现。但是,对于真实目标信噪比较低的场景,容易将真实目标遗漏。

    在红外场景下,DBT算法主要利用滤波算法对图像进行预处理,滤除缓慢变化的背景,然后分割出所有疑似目标,再根据序列图像确定真实目标并跟踪。目前,预处理算法主要分为两类:频域滤波法和空域滤波法,两类算法都是利用高通滤波抑制红外图像中的低频背景信号。主流的空域滤波算法有:高通模板滤波法、中值滤波法、最大中值(均值)滤波法和形态学方法等。频域滤波算法有:经典频域高通滤波法和小波滤波法[6]。

    1.2红外弱小目标的检测前跟踪算法

    检测前跟踪的基本思路是:红外场景下,在不确定真实目标的情况时,对所有的疑似目标进行跟踪,然后根据序列图像中各目标的运动、形态等信息,判断出真实目标的轨迹。相比之下,TBD算法更加复杂,能有效提高在复杂红外场景下检测出低信噪比目标的可能性。主流的检测前跟踪算法有:管道滤波法、多假设检验法、动态规划法、贝叶斯估计及粒子滤波法、高阶相关法和投影变换法等[6]。

    1.3两种目标跟踪算法的比较

    DBT算法和TBD算法基于不同的思路设计。DBT算法难以处理背景复杂、目标信噪比低的场景,容易遗漏目标;而TBD算法设计复杂、实时性不好。

    但是DBT算法简单,容易实现,在红外目标跟踪领域是不可或缺的一部分;而TBD算法善于处理背景复杂、目标信噪比较低的跟踪任务。两种算法的性能对比如表1所示。

    2深度学习方法在目標跟踪中的应用

    自2006年Hinton等人提出深度置信网络以来[7],深度学习在计算机视觉领域大显身手,解决了许多重要问题。深度学习首先在语音识别领域取得突破性进展。2012年,基于卷积神经网络的深度学习模型进军图像分类领域,并取得了非常大的性能提升。目前深度学习算法已经在图像分类、语音识别、自动翻译等领域处于绝对领先的地位,已有数种学习框架,如卷积神经网络[8]、递归神经网络[9]和孪生神经网络[10]。

    航空兵器2019年第26卷第1期

    庄旭阳,等:深度学习在红外目标跟踪中的应用展望2013年,深度学习开始进军目标跟踪领域,一系列优秀算法逐渐在跟踪精度上取得绝对优势。2016年,由Held[11]提出的GOTURN网络完全抛弃线上的模型更新,在NVIDIATitian上可以达到165fps,是首个做到100fps的深度学习算法。从目前的研究成果来看,深度学习算法已然成为目标跟踪领域的重要组成部分,算法设计主要分为两个思路:

    (1)追求跟踪精度。在测试阶段,继续进行网络的训练微调:跟踪的同时,在线提取目标区域的正负样本,每一帧跟踪都对网络进行一次训练,防止目标变化造成的跟踪框漂移,最大化深度学习算法的跟踪精度。

    (2)兼顾速度精度。割弃在线的模型更新,损失一定精度,保证跟踪速度:一般通过巧妙的模型设计,尽可能让离线训练替代在线更新,保证算法可观的跟踪精度,并拥有可以比拟传统算法的跟踪速度。

    本文将从这两个发展方向,对基于深度学习的目标跟踪算法进行介绍。

    2.1利用在线训练的深度学习网络

    在深度学习进军目标跟踪领域伊始,算法仍是利用目标分类网络进行跟踪,如SO-DLT[12]和FCNT[13]。近年来,研究者们设计出更加轻量级的、精度更好的专用于目标跟踪的网络模型。

    2.1.1基于多域卷积神经网络的目标跟踪

    多域卷积神经网络(MDNet)[14]是VOT2015(VisualObjectTracking)[15]的冠军,該方法设计了专门针对跟踪任务的网络模型。该网络模型直接利用不同场景的视频序列进行训练,并为不同视频设计各自的全连接层,以此来学习运动目标普遍的特征表示,增强跟踪效果。MDNet在两个公共数据集OTB[16]和VOT2014上进行了充分验证,跟踪精度达到90%以上。MDNet的训练流程如图1所示。

    MDNet将跟踪看作二分类问题,缺乏应对误差累积效应的机制。同时,由于在线微调模块生成正负样本数据量大,在线训练十分耗时,使得MDNet虽然取得了傲人的跟踪精度却在实时性上很糟糕,速度只有1~2fps。

    2.1.2基于树型卷积神经网络的目标跟踪

    为了更好地应对跟踪过程中的误差累积效应,MDNet的研发团队又提出了树型卷积神经网络(TCNN)[17],是VOT2016的冠军。TCNN认为在目标被遮挡或跟丢的情况下,更新模型已经被污染,不能再根据此模型继续进行后续的跟踪。用多个CNN跟踪器组成一个树型结构,每个CNN跟踪器对结果估计的权重不同,通过计算所有CNN跟踪器对目标估计的加权平均得到每个候选框得分,得分最高的视为目标。TCNN的结构如图2所示。

    TCNN在解决遮挡、突变和跟丢的问题上更具优势,但是其算法耗时仍然是难以回避的问题,速度只有1.5fps。

    2.2兼顾精度与速度的深度学习网络

    在线训练模块虽然保证了深度学习模型高精度的跟踪,但是无法完全满足视频跟踪的实时性要求,近年来,越来越多的研究者开始尝试设计能够实时跟踪的深度学习跟踪算法。

    2.2.1基于全卷积孪生网络的目标跟踪

    基于全卷积孪生网络的目标跟踪算法(SiameseFC)[10]是VOT2017跟踪速度最快的深度学习算法,平均跟踪速度可以达到86fps,同时具有一流的跟踪精度。SiameseFC利用CNN分别对真实目标框位置以及生成的目标周围区域进行特征的映射,将真实目标框映射得到的特征作为卷积核对目标周围搜索区域特征映射得到的特征卷积,相当于对得到的两个特征进行了互相关,得到的结果中数值最高的点,即对应下一帧目标位置中心。SiameseFC网络结构如图3所示。

    模型中用于特征映射的两个CNN是完全相同的,是一种典型的孪生网络,且该模型中只有卷积层和池化层,因此也是一种典型的全卷积(Fully-Convolutional)神经网络。

    但是SiameseFC并不能区分不同的物体,只是通过高斯窗的平滑,很快抑制了较远的物体。总的来说,SiameseFC并不适合背景嘈杂以及抖动剧烈的场景。

    2.2.2孪生网络启发下的新发展

    SiameseFC网络虽然存在缺陷和不足,但基于网络简单、算法速度快的特点,迅速成为研究热点,在保证高速跟踪的前提下,基于孪生网络的算法的跟踪精度正在逼近现有方法的先进水平。

    在CVPR2018(IEEEConferenceonComputerVisionandPatternRecognition)中,HeAnfeng等人[18]提出的双倍孪生网络在50fps的速度下,在OTB2013/50/100数据集上精度优于所有实时跟踪算法;WangQiang等人[19]使用三个attention机制对SiameseFC特征的空间和channal进行加权,分解特征提取和判别性分析的耦合,提升网络判别能力,其算法在80fps的跟踪速度下,在最新的OTB2015和VOT2017数据集上跟踪精度达到了行业领先水平;LiBo等人[20]利用孪生网络和区域候选网络,构建出一种高速高精度的单目标跟踪模型,该模型在160fps的速度下,在VOT2015和VOT2016数据集上跟踪精度可以达到目前先进水平。

    3深度学习算法在红外目标跟踪中的应用探索

    为了初步探索深度学习算法在红外目标跟踪中的应用前景,选择目前主流的MDNet和SiameseFC跟踪算法,对其做简单的迁移和优化,测试其红外目标跟踪任务中的表现。测试视频序列仿真了空中目标投放干扰的过程,视频长度为900帧,测试使用GPU为NvidiaTeslaP100。

    根据实测情况,MDNet跟踪效果更好,可以保证对整个视频序列的准确跟踪,抗干扰能力强,没有目标丢失的情况出现,但其跟踪速度很慢,在TeslaP100GPU速度仅为2~3fps,跟踪结果如图4所示。

    而对于SiameseFC,可以完成对单目标的实时跟踪,但其抗干扰能力很弱。在未投放干扰阶段,SiameseFC可以很好地跟踪目标,但当投放干扰时,SiameseFC便会跟上错误目标。SiameseFC的算法速度很快,在TeslaP100GPU上可以达到80fps,跟踪结果如图5所示。

    4深度学习算法在红外目标跟踪中面临的挑战

    作为红外导引技术的重要子领域,红外目标跟踪是一个极具挑战性的研究课题,经过数十年的努力,对一些简单的红外场景已经可以很好地处理,但是面对场景复杂且干扰严重的情况,跟踪效果并不理想。针对红外场景图像分辨率低、目标像素信息匮乏、目标边沿轮廓模糊的特点,深度学习应用于红外目标跟踪领域面临的挑战主要集中在以下几个方面:

    (1)红外目标成像面积小,像素对比度低,远距目标通常只有几个像素。而目前基于深度学习的目标跟踪算法需要足够的像素输入来提取语义信息,跟踪的目标尺度都在10×10以上,无法适应红外场景下小目标的跟踪。如何搭建针对小目标跟踪的深度网络是一个需要进一步开展工作的方向。

    (2)缺乏红外序列的数据集,没有大数据的支撑,深度学习的优势很难发挥。目前,深度学习的研究大部分是基于通过网络搜集的超大数据集。在红外跟踪领域还没有系统的视频数据集,对深度学习工作的开展极其不利。如何根据红外目标跟踪的特点,建立具有代表性、结合深度学习特点、测试方法严谨的大规模数据集是一个亟待解决的问题。同时,作为军事应用,对立双方都会采取保密措施,这使得红外图像集合中的绝大部分其实是己方的图像,如何训练和测试网络,使得网络能够满足对对方目标的跟踪也是军事项目中特有的问题。

    (3)红外目标跟踪过程中存在干扰遮挡及长时间遮挡目标的情况。目前基于深度学习的目标跟踪算法还局限于可见光波段的生活物体跟踪,场景中出现相似干扰或长时间遮挡的情况很少。然而,红外场景十分复杂,目标与干扰往往很难区分,遮挡过程可能会持续很久。在应对红外目标跟踪领域这些全新的挑战时,如何防止深度学习算法发生漂移,也将是一个很大的难题。

    5思考及展望

    深度学习方法在视觉目标跟踪领域的巨大成功,为移植或搭建适用于红外目标跟踪的深度学习模型提供了可能。但跟踪场景的差异性,注定了深度学习应用于红外目标跟踪领域时,需要进行算法的优化以及思路的转换。若要在红外目标跟踪领域达到兼具鲁棒性、准确性和实时性的跟踪要求,还需要开展大量的研究工作。针对深度学习方法在红外目标跟踪应用中可能遇到的困难,提出以下几点思考:

    (1)递归神经网络的应用。递归神经网络很重要的一个用途是处理和预测序列数据,可能在红外场景下有所作为。对于缺乏形状和纹理特征的红外目标,可以尝试利用红外目标的时间维度上的信息,通过递归神经网络进行轨迹预测,赋予跟踪算法记忆能力,有望减少跟踪过程的漂移。同时,递归神经网络的记忆能力和轨迹预测能力一定程度上可以增强跟踪过程中抗干扰遮挡的能力。如何利用递归神经网络做好目标跟踪,将是一个很好的探索方向。

    (2)减少深度网络的池化层。在卷积神经网络中池化层的作用是降低网络参数的维度,减少特征的冗余,一定程度上防止过拟合。这样的设定是源于视觉目标跟踪图像的高分辨率,而对于红外场景下的小目标跟踪,可以尽可能地减少池化层的数量,保留特征信息,减小可跟踪目标的尺度。

    (3)摆脱线上对网络的训练。目前视觉目标跟踪领域主要在解决对非特定目標的普适跟踪,测试的目标很可能与训练样本不是一个类别,这使得跟踪算法很难摆脱线上对网络的训练微调,从而大大增加计算成本,算法实时性难以保证。红外目标跟踪更偏向工程化应用,大多跟踪任务面向的是特定目标的跟踪,这为网络设计摆脱线上训练,提高算法实时性提供了可能。

    (4)设计专用于红外目标跟踪的深度学习模型。红外目标跟踪拥有自身的特点和难点,尝试搭建适合红外目标跟踪的深度学习模型也是一个工作方向。红外图像是单通道图像,且分辨率低,不需要很深的网络架构。同时,如果能够利用红外图像数据量小的特点,还可以为算法加速提供便利,进一步增强实时性。

    6结束语

    在研究者们的不懈努力下,深度学习算法正在一步步占领视觉目标跟踪领域,继传统算法在精度上被超越之后,其速度领先也逐渐被缩小、抹平。深度学习在视觉目标跟踪领域的巨大成功为红外目标跟踪任务提供了新的解决思路。尽管目前的算法可能不完全适用于红外目标跟踪领域,但可以预见,深度学习进军红外目标跟踪的号角即将吹响,这将是红外目标跟踪领域的研究方向之一。

    参考文献:

    [1]张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报,2017,43(8):1289-1305.

    ZhangHui,WangKunfeng,WangFeiyue.AdvancesandPerspectivesonApplicationsofDeepLearninginVisualObjectDetection[J].ActaAutomaticaSinica,2017,43(8):1289-1305.(inChinese)

    [2]黄成,王红梅.干扰条件下的红外目标检测方法研究[J].航空兵器,2017(5):31-36.

    HuangCheng,WangHongmei.ResearchonInfraredTargetDetectionMethodunderJammingCondition[J].AeroWeaponry,2017(5):31-36.(inChinese)

    [3]HintonGE,SalakhutdinovRR.ReducingtheDimensionalityofDatawithNeuralNetworks[J].Science,2006,313(5786):504-507.

    [4]张惠娟,梁彦,程咏梅,等.运动弱小目标先跟踪后检测技术的研究进展[J].红外技术,2006,28(7):423-430.

    ZhangHuijuan,LiangYan,ChengYongmei,etal.AdvancesonTrackbeforeDetectforDimSmallMovingTargetDetection[J].InfraredTechnology,2006,28(7):423-430.(inChinese)

    [5]周冰,王永仲,应家驹.弱小目标检测技术浅析[J].红外技术,2007,29(1):30-33.

    ZhouBing,WangYongzhong,YingJiaju.ASimpleAnalysisofDimTargetDetectionTechnology[J].InfraredTechnology,2007,29(1):30-33.(inChinese)

    [6]侯旺,孫晓亮,尚洋,等.红外弱小目标检测技术研究现状与发展趋势[J].红外技术,2015,37(1):1-10.

    HouWang,SunXiaoliang,ShangYang,etal.PresentStateandPerspectivesofSmallInfraredTargetsDetectionTechnology[J].InfraredTechnology,2015,37(1):1-10.(inChinese)

    [7]HintonGE,OsinderoS,TehYW.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.

    [8]KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[C]∥InternationalConferenceonNeuralInformationProcessingSystems,2012,60(2):1097-1105.

    [9]CuiZhen,XiaoShengtao,FengJiashi,etal.RecurrentlyTargetAttendingTracking[C]∥IEEEConferenceonComputerVisionandPatternRecognition,LasVegas,2016:1449-1458.

    [10]BertinettoL,ValmadreJ,HenriquesJF,etal.FullyConvolutionalSiameseNetworksforObjectTracking[C]∥14thEuropeanConferenceonComputerVision,Amsterdam,2016:850-865.

    [11]HeldD,ThrunS,SavareseS.LearningtoTrackat100FPSwithDeepRegressionNetworks[C]∥14thEuropeanConferenceonComputerVision,Amsterdam,2016:749-765.

    [12]WangNY,LiSY,GuptaA,etal.TransferringRichFeatureHierarchiesforRobustVisualTracking[EB/OL].(2015-04-23)[2018-09-17].https:∥arxiv.org/pdf/1501.04587v2.pdf.

    [13]WangLijun,OuyangWanli,WangXiaogang,etal.VisualTrackingwithFullyConvolutionalNetworks[C]∥ProceedingsoftheIEEEInternationalConferenceonComputerVision,Santiago,2015:3119-3127.

    [14]NamH,HanB.LearningMultiDomainConvolutionalNeuralNetworksforVisualTracking[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,LasVegas,2016:4293-4302.

    [15]VOTChallenge.VOT2015Benchmark[EB/OL].[2018-09-17].http:∥www.votchallenge.net/vot2015/.

    [16]VisualTrackerBenchmark[EB/OL].[2018-09-17].http:∥cvlab.hanyang.ac.kr/tracker_benchmark/index.html.

    [17]NamH,BaekM,HanB.ModelingandPropagatingCNNsinaTreeStructureforVisualTracking[C]∥ProceedingsoftheIEEEComputerVisionandPatternRecognition,2016:1-10.

    [18]HeAnfeng,LuoChong,TianXinmei,etal.ATwofoldSiameseNetworkforRealTimeObjectTracking[C]∥ProceedingsoftheIEEEComputerVisionandPatternRecognition,2018.

    [19]WangQiang,TengZhu,XingJunliang,etal.LearningAttentions:ResidualAttentionalSiameseNetworkforHighPerformanceOnlineVisualTracking[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPattemRecognition,2018.

    [20]LiBo,YanJunjie,WuWei,etal.HighPerformanceVisualTrackingwithSiameseRegionProposalNetwork[C]∥ProceedingsoftheIEEEConferenceonComputerVisionandPattemRecognition,2018.