大小渐变目标检测与跟踪算法研究

2022.09.24

王敏敏+孙胜利+廖星星+张磊

摘要：针对快速压缩跟踪（FCT）算法難以适应复杂背景下大尺寸目标渐变成一个点目标的情况，提出一种改进的目标跟踪算法。首先采用FCT进行跟踪，并且计算当前帧跟踪框与初始跟踪框之间的余弦相似度。一旦余弦相似度小于设定的阈值，则立即切换到卡尔曼滤波器，并且采用基于最大连通域的方法检测目标位置及大小。当目标接近点目标，则将目标检测方法切换至基于高斯差分尺度空间的目标检测方法。实验结果表明该算法可以实现尺寸渐变目标的实时跟踪。
关键词：运动目标跟踪；压缩感知；卡尔曼滤波器；高斯差分尺度空间
中图分类号： TN911.73?34； TP391.4 文献标识码： A 文章编号： 1004?373X（2017）13?0048?05
Abstract： Since the fast compressive tracking （FCT） algorithm is difficult to adapt to the situation that the large?scale target shrinks to a point gradually in complex environment， an improved target tracking algorithm is proposed. The FCT algorithm is used to track the target， and calculate the cosine similarity between the tracking box of current frame and tracking box of initial frame. Once the cosine similarity is smaller than the setting threshold， the tracking algorithm is switched to the Kalman filter immediately， meanwhile the method based on biggest connected area is used to detect the location and size of the target. If the target is close to the point target， the target detection method is switched to the target detection method based on Gaussian differential scale space. The experimental results show that the proposed algorithm can track the variable?sized moving target in real time.
Keywords： moving target tracking； compressive sensing； Kalman filter； Gaussian differential scale space
0 引言
传统的跟踪算法一般都采用最近几帧的观测数据来更新模型，因而通常都面临两个问题：跟踪初始阶段数据不足；由于引入偏离的样本而导致目标漂移，而且许多算法的计算复杂度都相当高。快速压缩跟踪算法（Fast Compressive Tracking，FCT）[1]因其可以较好地解决由于引入偏离样本所导致的目标漂移问题而被广泛关注。文献[2]针对压缩感知跟踪算法特征单一的问题提出使用多个投影矩阵实现多特征联合跟踪。文献[3]采用梯度方向直方图特征替换Haar特征进行压缩感知跟踪。为了解决被遮挡区域特征缺失造成的位置偏移，文献[4]提出采用在线特征选择方法，从候选特征池中选择置信度较高的特征构造分类器。文献[5]采用随机蕨分类器进行特征分类并通过一种特征置信度度量策略进行在线更新及样本选择，同时提出一种针对目标遮挡的反馈机制。
由于FCT是基于目标特征的提取和判别进行跟踪的，因而对于基本没有形状和纹理特征的小目标并不适用。上述文献普遍都是针对大尺寸目标进行跟踪，对于目标大小渐变的情况未给出解决方法。特别是当目标跑远，在视场中表现为一个斑点且背景较为复杂时，使用FCT跟踪误差较大。
此外，即使目标变成小目标，其尺寸也不是固定不变的，若采用单一尺寸的滤波器检测容易丢失目标。因而考虑对小目标进行多尺度检测。对于目标检测的多尺度方法，文献[6]使用多尺度小波变换检测目标，但该方法没有提供目标的位置和大小信息且计算量大。文献[7]对目标进行建模，利用尺度规范化后的拉普拉斯尺度算子以及像素梯度关系获得可疑目标的中心位置及其尺寸大小。文献[8]通过寻找高斯差分空间中的极大值来获得可疑目标的位置及大小。目标的大小及位置信息对于之后的决策与处理具有重要的指导意义。
基于上述原因，本文提出一种针对不同目标大小可以自主切换的跟踪算法以适应不同环境的需要，当目标较大且具有一定的纹理信息时采用多尺度FCT，当跟踪框余弦相似度小于设定的阈值则迅速切换到卡尔曼滤波器进行跟踪，且根据目标尺寸采用不同的目标检测方法。
1 压缩感知跟踪算法
压缩感知理论（Compressive Sensing，CS）[9?10]表明，如果特征空间的维度足够高，那么这些特征就可以被投影到一个更小的空间，而且该空间包含了重构原特征空间所需的所有信息。因而通过压缩感知理论可以有效降低特征空间的维度，从而降低计算复杂度。实时压缩跟踪算法（Real?Time Compressive Tracking，RTCT）[11]对正负样本使用同一个满足Johnson?Lindenstrauss推论[12]的稀疏测量矩阵进行降维，然后通过一个朴素贝叶斯分类器[13]对压缩感知域中的特征进行分类：
式中：是一个二元样本标签。式中的条件概率都滿足高斯分布，且可通过在线学习更新分类器。
FCT在RTCT基础上做了一些改进。FCT采用一种粗略?精细采样方法，即在上一帧目标位置周围先进行粗略采样（大采样半径，大步长），将目标候选区域缩小到更小的范围，然后围绕该区域中心位置进行精细采样（小采样半径，小步长）。
FCT算法主要步骤：
输入：第帧图像
（1）在帧目标位置周围粗略采集图像块集合，采样半径为采样步长为
（2）计算所有样本的降维特征向量从中找出朴素贝叶斯分类器分值最大的特征，返回其位置
（3）在周围进行精细采样，采样半径为采样步长为
（4）计算该部分样本的降维特征向量并返回朴素贝叶斯分类器分值最大的特征的位置（对于多尺度跟踪，每5帧更新一次跟踪位置和尺度参数，
（5）分别在区域和中进行正采样和负采样，其中并计算这两个样本集合的降维特征向量；
（6）根据正负样本特征的统计特性更新朴素贝叶斯分类器参数：
式中：是一个学习参数；和是正样本特征的均值和标准差。
输出：跟踪位置（对于多尺度跟踪还需返回尺度参数）和分类器参数。
2 尺度空间理论
使用对二维高斯拉普拉斯算子（Laplacian of Gaussian，LoG）进行规范化，可以得到一个重要性质：其对角点和边缘的响应不会随着尺度的改变而改变，然而对于斑点的响应将会呈现先递增后递减的现象，也就是在某个尺度将达到一个极值，如图1所示。
而利用高斯差值方程（Difference of Gaussian， DoG）与图像卷积，构建DoG尺度空间并求取尺度空间极值[14]可以得到与尺度规范化的LoG算子类似的结果。根据该特性，可以采用DoG尺度空间算法检测小目标。
一幅图像的DoG尺度空间定义为：
式中：代表原始图像；代表尺度可变的二维高斯核。
将每一个点与同它在同一尺度的8个相邻点以及相邻尺度的对应的18个点进行比较。若为极值则作为候选目标点，并且保留该点坐标以及对应的尺度参数
3 卡尔曼滤波器
在大多数情况下，目标所做运动都是非线性的，但由于相邻两帧之间的时间间隔较短，可以简单地将这段时间内的运动当作线性运动。此时位移与速度满足下列关系：
式中：分别为目标在时刻的位置、速度和加速度；为相邻两帧的时间间隔。
可以用目标在某一时刻的位置和速度来描述目标在该时刻的运动状态。卡尔曼滤波器能够实现对目标状态序列的线性最小误差估计。首先在不考虑系统和观测噪声的前提下推算状态的先验估计，然后由状态先验估计和观测变量计算得到状态后验估计，当状态后验估计协方差取最小值时获得对状态的最优估计。
卡尔曼滤波器的主要步骤如下：
输入：第帧图像，第帧状态最优估计和最优估计误差协方差
（1）计算状态先验估计若初次使用卡尔曼滤波器，则初始化状态先验估计（本文将初始位置设定为跟踪框中心位置，将两个方向上的初始速度均设置为0）；否则，其中为状态转移矩阵；
（2）计算先验估计误差协方差其中为过程噪声协方差；
（3）计算卡尔曼增益其中为观测矩阵，为观测噪声协方差；
（4）检测目标位置用该值更新状态估计
（5）更新误差协方差
输出：第帧状态最优估计和最优估计误差协方差
4 本文方法
4.1 算法切换流程
本文实验对象为尺寸渐变目标，该目标由大尺寸目标渐变为一个点目标。类似于文献[1，11]，本文首帧图像中的目标位置是已知的，且使得跟踪框恰好包围要跟踪的目标。算法切换方法如图2所示。
采用FCT对大尺寸目标进行跟踪。若当前帧跟踪框与首帧图像跟踪框的余弦相似度则切换到卡尔曼滤波器进行跟踪，并将算法切换前的跟踪框中心位置作为卡尔曼滤波器的初始位置。同时，采用基于最大连通域的检测方法在该跟踪框内进行目标检测以更新卡尔曼滤波器参数。后面图像的跟踪框均为以预测位置为中心的矩形框。若目标最大连通域面积则继续使用卡尔曼滤波器进行跟踪，并且采用基于DoG尺度空间的方法检测目标位置以更新卡尔曼滤波器参数。其中为跟踪算法切换时余弦相似度的阈值。为目标检测方法切换时目标最大连通域面积的阈值。此外，卡尔曼滤波器跟踪过程中目标位置以及目标近似尺寸均由目标检测算法确定，且目标检测范围均限制在跟踪框内。同理可得，目标尺寸由小变大时算法的切换方式。
4.2 切换阈值设定
在FCT跟踪过程中跟踪框的大小始终不变。且随着目标由大变小，目标在跟踪框内所占的面积也在逐渐减小。本文通过计算当前帧跟踪框与初始跟踪框之间的余弦相似度确定FCT与Kalman滤波器切换的阈值。
定义当前帧跟踪框与初始跟踪框的余弦相似度[15]为：
式中：。图3为只使用FCT算法对“toyplane”图像序列进行跟踪时跟踪框余弦相似度的变化曲线。虽然在跟踪后期由于目标丢失导致跟踪框基本不动，从而使得余弦相似度在后期基本不变，但余弦相似度总体呈下降趋势。因而通过计算跟踪框之间的余弦相似度确定切换阈值是否可行。对于所有图像序列，本文设定为0.88，即当时，跟踪算法由FCT算法切换到Kalman滤波器。
当跟踪算法切换到Kalman滤波器后，目标仍具有一定面积，而且在目标由大变小的过程中，目标最大连通域与目标等比例缩小。本文假设背景总体变化较为缓慢，通过背景相减法可以消除背景中较大的连通域，从而显著降低背景的干扰。因而本文选取前景图像中面积最大的连通域代替目标，并且近似确定目标尺寸。本文采用四邻域进行连通域划分。
当目标缩小为点目标时，目标尺寸将只有几个像素点。而背景相减法可能会引入大量与目标尺寸差不多的噪声点。因而不再对跟踪框内图像进行减背景操作。又因为背景中可能包含大面积连通域，因而最大连通域法也不再适用，所以，本文对跟踪框内图像建立DoG尺度空间，找出所有的极值点，并利用极值点对应的尺度参数求取候选目标的尺寸大小。候选目标的直径近似于[8]。因为在使用卡尔曼滤波器进行跟踪时需要不断更新跟踪框的位置，使得预测的位置在跟踪框的中心，因而选取尺寸最大且离跟踪框中心最近的候选目标作为当前帧目标。
对于所有图像序列，本文设定为7，即目标最大连通域面积时，目标检测算法由基于最大连通域的检测方法切换为基于DoG尺度空间的检测方法。
5 实验结果与分析
5.1 参数设置
实验环境为IntelCoreTM i7?4770 3.40 GHz CPU 4 GB RAM，操作系统采用Windows 7旗舰版64位系统。所有程序都是在Matlab中运行。在使用FCT进行目标跟踪时，将正采样半径设置为4，负采样的内、外半径分别设置为8和18，且负采样模板数设置为50个。将粗略采样的半径设置为10，步长设置为4。将精细采样的半径设置为6，步长设置为1。尺度参数设置为0.01。学习参数设置为0.85。在计算图像的DoG尺度空间时，令相邻两层的尺度因子满足倍数关系其中且层数为8。对于“toyplane”和“woman”视频序列，设置对于“girl”视频序列，设置
5.2 跟踪结果对比
本文采用中心位置误差（Center Location Error， CLE）来评价跟踪结果：
式中：是目标的真实中心位置；是跟踪框的中心位置。每一帧都是独立计算的。
本文对下列四种情况下的跟踪效果进行对比：
（1）只使用FCT进行跟踪；
（2）联合FCT与基于最大连通域的卡尔曼滤波器（即采用基于最大连通域的方法检测目标以更新卡尔曼滤波器参数，用“maxCAkalman”表示）进行跟踪；
（3）联合FCT与基于DoG尺度空间的卡尔曼滤波器（即采用基于DoG尺度空间的方法检测目标以更新卡尔曼滤波器参数，用“DoGkalman”表示）进行跟踪；
（4）使用本文方法联合FCT，maxCAkalman以及DoGkalman进行跟踪。
图4为“toyplane”，“woman”和“girl”图像序列部分帧的跟踪结果。说明：“toyplane”图像序列光照条件较差，因而目标纹理不明显；“woman”图像序列中存在多个运动目标；“girl”图像序列中只有一个运动目标。
图5（a）为“toyplane”图像序列在四种情况下的中心位置误差。可以看到，当只使用FCT进行跟踪时，跟踪误差在100多帧之后急剧增加。这是由于随着目标尺寸逐渐变小，相对地，背景的影响逐渐增加，背景的特征逐渐占优势。目标一旦跑出跟踪框，跟踪框将不再向前移动。若在跟踪框余弦相似度小于阈值时，将跟踪算法切换到卡尔曼滤波器，可以有效抑制跟踪误差。可以看到跟踪算法切换到卡尔曼滤波器后，maxCAkalman在前半部分的跟踪误差较小，而DoGkalman在后半部分的跟踪误差较小。由四种情况下的误差比较，可以看到本文方法跟踪效果最为理想。
图5（b）为“woman”图像序列在四种情况下的中心位置误差。可以看到只使用FCT进行跟踪时，跟踪误差在中间段呈现一个递增趋势。若在跟踪框余弦相似度小于阈值时直接切换至DoGkalman，跟踪误差呈现一个递减且趋于平稳的趋势。但是很明显，若直接切换为maxCAkalman，前期跟踪效果更好。同样地，在四种情况下本文方法的总体跟踪效果最好。
图5（c）为“girl”圖像序列在四种情况下的中心位置误差。当只使用FCT进行跟踪时，跟踪后期由于背景特征占优势，跟踪框不再移动，中心位置误差逐渐增加。若在跟踪框余弦相似度小于阈值时直接切换为DoGkalman，目标逐渐丢失。若切换为maxCAkalman，切换后出现短暂的波动，之后很长一段时间误差都保持在较低的水平，但是在跟踪后期误差增大。若在目标最大连通域面积小于阈值时，由maxCAkalman切换至DoGkalman，虽然出现轻微抖动，但跟踪效果得到改善。
6 结语
对于大尺寸目标跟踪，FCT可以很好地解决跟踪初始阶段数据不足以及由于引入偏离的样本而导致的目标漂移问题。但当目标尺寸由大变小时，FCT就容易受到背景影响而丢失目标。针对尺寸渐变的目标跟踪问题，本文提出将FCT与卡尔曼滤波器结合，通过跟踪算法切换以及检测算法切换使得跟踪误差保持在一个较低的水平。而且对于1 280 pixel×720 pixel大小的图像序列，FCT跟踪速度可以达到23 f/s，而基于最大连通域的卡尔曼滤波器和基于DoG尺度空间的卡尔曼滤波器分别可以达到42 f/s和25 f/s，因而可以满足实时性要求。
参考文献
[1] ZHANG K H， ZHANG L， YANG M H. Fast compressive tracking [J]. IEEE transactions on pattern analysis and machine intelligence， 2014， 36（10）： 2002?2015.
[2] 朱秋平，颜佳，张虎，等.基于压缩感知的多特征实时跟踪[J].光学精密工程，2013，21（2）：437?444.
[3] 孙晓燕，常发亮.梯度特征稀疏表示目标跟踪[J].光学精密工程，2013，21（12）：3191?3197.
[4] 毛征，袁建建，吴珍荣，等.基于在线特征选择的实时压缩跟踪[J].光学精密工程，2014，22（3）：730?736.
[5] 刘威，赵文杰，李成.一种基于压缩感知的在线学习跟踪算法[J].光学学报，2015，35（9）：184?191.
[6] GREGORIS D J， YU S K W， TRITCHEW S. Detection of dim targets in FLIR imagery using multiscale transforms [J]. Proceedings of SPIE， 1994， 2269： 62?71.
[7] 龚俊亮，何昕，魏仲慧，等.采用尺度空间理论的红外弱小目标检测方法[J].红外与激光工程，2013，42（9）：2566?2573.
[8] 程塨，郭雷，韩军伟，等.基于最大连通域带通滤波和尺度空间理论的红外弱小目标检测[J].光学学报，2012，32（10）：1?8.
[9] CANDES E， TAO T. Near?optimal signal recovery from random projections： Universal encoding strategies [J]. IEEE transactions on information theory， 2006， 52（12）： 5406?5425.
[10] CANDES E， TAO T. Decoding by linear programming [J]. IEEE transactions on information theory， 2005， 51（12）： 4203?4215.
[11] ZHANG K H， ZHANG L， YANG M H. Real?time compressive tracking [C]// Proceedings of 2012 European Conference on Computer Vision. [S.l.]： Springer， 2012： 864?877.
[12] HENRIQUES J， CASEIRO R， MARTINS P， et al. Exploiting the circulant structure of tracking?by?detection with kernels [C]//Proceedings of 2012 European Conference on Computer Vision. [S.l.]： Springer， 2012： 702?715.
[13] NG A， JORDAN M. On discriminative vs. generative classifiers： a comparison of logistic regression and naive Bayes [J]. Proceedings of advances in neural information processing， 2002， 28（3）： 841?848.
[14] HUMMEL R A. Representation based on zero?crossings in scale?space [C]// Proceedings of 1986 IEEE Conference on Computer Vision and Pattern Recognition. New York： IEEE， 1986： 204?209.
[15] JENKINS M D， BARRIE P， BUGGY T， et al. Extended fast compressive tracking with weighted multi?frame template matching for fast motion tracking [J]. Pattern recognition letters， 2016， 69： 82?87.