基于图像识别的武术动作分解方法研究

2022.09.20

王俊峰
摘要：提出以图像识别为基础分解识别人体武术动作的方法。首先，通过形态学梯度操作使大部分噪声背景可以消除，进而取得人体轮廓边缘，将视频中每帧图像轮廓边缘提取出来并在同一幅图像中实现累积，利用累积边缘图像计算出以网格为基础的HOG，获取图像动作特征向量；其次，运用改良动态时间规整理论结合动作时间序列下各关节角度变化的特征，即可识别出各类武术动作间关节变化序列的相似性，再设计分类器并向其输入图像中人体动作时变特征数据，从而实现基于图像识别的武术动作分解过程。实验结果表明，利用图像识别可有效分解武术动作。
关键词：人体动作；图像识别；动作时间序列；动作分解
中图分类号： TN911.73?34； TP391 文献标识码： A 文章编号： 1004?373X（2017）15?0033?04
Abstract： A method based on image recognition to identify and decompose the human?body Wushu action is proposed. The operation of morphological gradient is used to eliminate most of background noise to obtain the edge of the human?body contour. The contour edge of each frame image is extracted in the image， and accumulated in the same image. The cumulative edge image is used to calculate the HOG based on grid， and acquire the action feature vector of the image. The improved dynamic characteristics of time warping theory is combined with the change characteristic of the angle of each joint under movement time series to recognize the similarity of joint change sequence among various Wushu movements. The classifier was designed， and the time?varying characteristic data of human?body movement in the image is input into it to realize the Wushu movement decomposition based on image recognition. The experimental results show that the image recognition can decompose the Wushu movement effectively.
Keywords： human?body movement； image recognition； movement time series； movement decomposition
0 引言
文献[1]中提到使计算机拥有与人类相同的视觉感知功能，并像人类一样可以识别外界事物、感知场景、解析周围事物活动情况是计算机视觉研究的最终目标。运用计算机分析和理解人体动作具有挑战性，这一课题涉及多个学科领域，包括认知科学、模式识别、机器学习等，具有一定学术研究价值。该技术应用会使计算机具备观察外部世界的能力，然后通过图像信息的自动分析和理解做出决策响应，计算机将具备更优秀的适应环境能力[2?4]。
文献[5]指出分析与理解视频中人的动作可以总结为：通过在视频中提取运动及表现特征，对动作类别以及动作发生方位给出合理判断，细致分析出与动作相对应的语义信息，最终确定人的行为意图。动作表示、动作分割、动作识别和动作定位是人体动作分析与理解过程中最为重要的几项研究。动作表示指的是通过提取输入视频中表现运动和结构等信息，获得描述该视频的特征向量。文献[6]中定义动作分割是通过分割连续视频流，使其成为若干组只包含一个动作事例的子视频段。通过建立视频内容与动作类别之间的关联实现人体动作识别。
因此文中运用此项技术，提出以图像识别为基础实现分解识别人体武术动作的方法。首先，利用形态学梯度操作去除掉大部分噪声背景，获取人体轮廓边缘界限，在视频中获得每帧图像的形状边缘同时累积在一幅图像中，通过累积边缘图像计算出以网格为基础的HOG，得出图像动作特征向量；其次，结合动作时间序列下各关节角度的变化特征，运用改进动态时间规整理论对各类武术动作间关节变化序列的相似性进行识别，通过设计分类器并将图像中人体动作时变特征数据输入其中，最终完成基于图像识别的武术动作分解过程[7?8]。
1 基于图像的武术动作分解识别过程
1.1 基于累积边缘图像的动作特征提取
利用组合形态学操作能够消除视频图像上部分背景，形态特征能够完好保留，获得人体侧影轮廓图像，其与背景相减技术的作用非常相似。则组合形态学操作公式可表述为：
式中：表示通过组合形态学操作处理完成的图像；表示原视频中一帧图像；表示结构元素；表示闭合操作。通过式（1）闭合操作可将原始图像中比背景暗，且尺寸比结果元素尺寸小的区域去除，选择合适的结构元素，通过闭合操作得到剩余背景图像，使其与原始图像相减就能够完成目标提取。
人体武术动作视频图像中一帧图像并不能充分表述一个动作，一般都需要提取多帧图像特征才能完整展示一个人体动作。由于存在动作速率差异，即便是同一动作，每个视频图像的帧数也可能不同。为了处理这两种速率的变化，考虑到速率变化特征，文中将同一时间窗口上每一帧边缘图像灰度特征累积到同一幅图像当中，利用建立的累积边缘图像提取出其特征，用于表示人体武术动作。
累积边缘图像操作流程为：视频图像中通过形态学梯度操作处理后的一帧图像用表示；运用边缘检测算子在上獲取的边缘检测图像用表示，此图像是二值图像；通过和在每个像素点上相乘得到的边缘图像即为，灰度图像由表示，灰度信息处在边缘点上，若像素点处于边缘之外，则灰度值为0；累积边缘图像用表示，其尺度与大小一致，获取是为了累积视频图像中所有处于某一时间窗口上的到一幅图像上。
针对进行初始化，设置所有像素为0，时间条件为=0；基于边缘检测能够在视频时间窗口的第一帧形态学梯度图像上得出边缘图像；灰度图像通过梯度图像和边缘图像相乘获得；在全部像素点上比较和上一帧取得的累积边缘图像，灰度值较大的像素点其灰度值将作为的新值；重复边缘检测步骤，直至全部图像操作完成。
本文方法的主要思想是压缩视频序列中的信息成为一帧图像来表达动作，累积边缘图像中信息含量巨大，时刻在点上累积边缘图像的公式可描述为：
累积边缘图像是在每个像素点让二值图像和形态学梯度图像相乘，获得具有灰度信息的边缘图像后，累积全部边缘图像到一幅图像中，并不是累积每一帧二值图像到一幅图像中。0和1是二值图像像素灰度值仅有的两个值，若边缘图像所对应的二值图像中像素值为1，则该点处灰度值范围相比二值图像信息更多。
针对目标图像进行累积边缘图像，则图像信息中心已包含了较多帧图像的边缘信息，因此不需再提取边缘特征，可在累积边缘图像的每一点上直接求解方向梯度直方图。
计算以网格为基础的方向梯度直方图就是求解在累积边缘图像上所有点的方向梯度。将累积边缘图像分为个空间网格，计算每个网格上的直方图向量，将其中一个尺度特征向量提取出来并作为动作特征，统计该目标获取的局部形状，进而获得累积边缘图像的特征向量。
1.2 基于动态时间规整的人体武术动作识别
动作表达具有时间上的持续性，即动作可在某一时段上是一系列静态动作的集合。人体运动过程可以通过关节角度曲线变化反映出动作的变化趋势，随着时间变化关节产生角度变化曲线可称之为关节角度时间序列。人体运动特征利用关节角度时间序列描述，若某一武术动作持续时间设为则可定义运动特征为：
式中：某一关节角度时间序列由行向量表示；运动特征数量为时的行向量由表示；运动特征数量由表示，且范围为。
行向量可理解为时变一维信号，则演化成以简单动作识别归类为时变特征数据的分类问题。由先验数据能够看出，当测试者自由展示武术动作时，相同动作具有不同的波形和幅值，无法排除与相近的可能性。因此，动作识别利用对比时间序列的相似度来实现，即武术动作分解判断通过比较不同长度向量之间的距离来实现。
曲线之间相似度的比较是时间序列变化趋势关注的重点，因为视频反馈系统与测试者等都存在不确定性因素，会导致数据的偏差与波动，所以利用下式对序列完成光滑处理：
式中：序列中第个时间点的关节角度值由表示；分别为及阶时关节角度值；为大于0的整数。
基于动态规划思想的动态时间规整理论，其目的是找出2个不同长度的测试样本与参考模板间的最优匹配路径以及最短距离。参考时间序列设为测试样本设为。时间的关节角度值分别用和表示；与表示向量长度，若向量和非线性匹配，则可描述累计距离矩阵为：
若要使时间序列上的点和具有不同的关节角度轴值，需要基于点和构建一个三维向量重新定义替代原来的欧氏距离，即和，下面依次描述参考序列一阶导数与参考序列二阶导数：
式中：表示第个时间点关节角度值；表示第个时间点关节角度值。由于构造了上述向量有利于映射的准确性，则可定义为：
式中：表示测试样本序列关节角度一阶导数值；表示测试样本序列关节角度二阶导数值；分别表示调节关节角度值最短距离的权值、调节关节角度一阶导数值最短距离权值及调节关节角度二阶导数值最短距离权值。
根据式（4），存在运动模板特征矩阵和待测样本若为与的改进距离，则与的距离可描述为：
式中：表示样本间的改进距离；表示改进距离的运动特征数量；是运动特征数量为时与的改进距离。
计算期望距离值为：
式中：为期望距离的权重值。给定一个武术动作图像测试样本，使期望距离ED获得最小值的模板对应的武术动作即为识别结果：
式中表示参考库中的已知模板。
综上所述，通过累积边缘图像对视频图像中的武术动作特征进行特征向量提取，然后运用动态时间规整理论对武术动作时间序列进行计算，对待识别的武术动作与参考时间序列样本进行匹配后，完成武术动作分解识别过程。
2 仿真实验与结果分析
为准确分解武术动作，文中利用基于累积边缘图像的动态时间规整方法对武术动作进行识别，通过仿真实验验证本文方法的可行性。
实验1：文中给出两幅武术动作图像为实验对象，为将目标轮廓从图像中有效提取出来，利用文中的形态学操作及活动轮廓模型法对图像目标轮廓进行提取，具体图像处理效果如图1～图6所示。
由第一组图像（图1～图3）可以看出，图1为原图像，图2为利用文中形态学操作对图像进行轮廓提取后的效果图，通过观察图2形态学操作，首先是将图像变换为二值图像后进行武术动作轮廓提取，从图2中可清晰地识别出动作的边缘图像；将图2与图3进行比较后，可以看出，图3是运用活动轮廓模型法对武术动作轮廓实现提取，但该方法对轮廓边缘提取并不准确，不能清楚地识别出动作的轮廓。
由第二组实验的图像（图4～图6）同样可以证明运用本文形态学操作对图像进行处理时，可有效地提取武术动作轮廓边缘，表明文中形态学操作是提取图像轮廓边缘的有效方法。
实验给出5组图像，运用本文形态学操作及活动轮廓模型法对5组图像实现轮廓提取处理，比较图像轮廓提取耗时及清晰度，具体数据如表1所示。
通过观察表1可以看出，通过给定图像数量运用本文形态学操作及活动轮模型法对5组图像实现轮廓边缘特征提取，采用本文方法对5组图像进行处理，平均图像轮廓提取时间在1.2 s；而利用活动轮廓模型法对图像进行处理，平均图像轮廓提取时间耗时严重，都在10 s以上。比较图像输出清晰度可以看出，本文形态学操作处理后的图像清晰度明显要比活动轮廓模型法处理后的图像清晰度高出很多，显示本文形态学操作的性能优越。
实验2：实验给出一组不同武术动作样本集，每组样本集中包括4个动作，通过运用本文动态时间规整法及运动历史图像识别法对武术动作样本进行动作识别，对比两种方法识别动作的成功率，具体数据如表2所示。
通过运用本文动态时间规整法及运动历史图像法对武术动作集中的动作进行识别，从表2可以看出，采用本文方法识别动作的成功率为95%以上，而利用运动历史图像法识别动作的成功率为50%以下，表明本文动态时间规整法可以有效地对武术分解动作进行识别。
3 结论
由于人体动作识别技术可广泛地应用于很多领域，因此本文提出基于图像识别对武术分解动作实现有效识别。利用基于累积边缘图像的形态学梯度操作对武术图像进行轮廓边缘图像特征提取，累积成为一幅图像，计算该图像的方向梯度直方图，获取图像特征向量；运用动态时间规整法，计算出不同武术动作的关节动作变化序列，形成参考样本集；最后将待测样本与参考样本进行比照，实现武术分解动作的图像识别。
参考文献
[1] 李荣，徐燕华.基于视觉信息的图像特征提取算法研究[J].电子设计工程，2016，24（9）：188?190.
[2] 许丽娟，刘大龙.公交车危险动作视觉图像识别仿真[J].计算机仿真，2015，32（6）：150?153.
[3] 王明良，孙怀江.基于分层运动姿态协方差的人体动作识别[J].计算机应用研究，2015，32（12）：3794?3797.
[4] 白琛，孙军华.基于局域性约束线性编码的人体动作识别[J].北京航空航天大学学报，2015，41（6）：1122?1127.
[5] 万剑锋，黎洪松.基于图像识别的生产线零件分拣系统[J].现代电子技术，2016，39（12）：62?65.
[6] 余萍，赵继生，张洁.基于非线性修正函数的卷积神经网络图像识别研究[J].科学技术与工程，2015，15（34）：221?225.
[7] 林涛，柳孝云，张相芬，等.基于新的形态学梯度参数的DTI图像分割算法[J].电视技术，2015，39（6）：5?7.
[8] 汪成峰，陈洪，张瑞萱，等.带有关节权重的DTW动作识别算法研究[J].图学学报，2016，37（4）：537?544.
[9] 黄菲菲，曹江涛，姬晓飞.基于多通道信息融合的双人交互动作识别算法[J].计算机技术与发展，2016，26（3）：58?62.
[10] 宋健明，张桦，高赞，等.基于深度稠密时空兴趣点的人体动作描述算法[J].模式识别与人工智能，2015，28（10）：939?945.