论文部分内容阅读
随着多媒体设备的广泛使用以及视频和图像应用开发的普及,视频和图像数据呈现了爆炸式增长,数据的有效存储和从这些数据中自动挖掘出有用的信息帮助我们更好地生活变得尤为重要。作为这些数据的中心内容——人体活动的分析研究自然是成为了重中之重。
本文主要针对人体交互动作的检测和识别进行研究。区别于大多数单人动作,交互动作的研究在监控安全等应用领域有更大的研究意义,并且从技术难度上给任务带来更大的挑战。本文将从两个角度来验证姿态信息对动作,尤其是交互动作识别起到了至关重要的作用。
第一,基于姿态估计的人体交互动作识别任务。近些年,应用在人体动作识别领域的基于时空兴趣点和词袋模型的空间结构的学习方法层出不穷,这类方法由于局部特征本身的稠密性,其统计的空间结构并不具有语义信息,因此在判别力上大打折扣。鉴于人体姿态估计技术的日益成熟,本文将人体交互动作识别任务建模在其之上,利用定位得到的关节点信息,提取有效的姿态信息用于动作识别任务。考虑到本文研究目标是交互动作,我们提取了交互姿态信息。实验结果表明交互姿态信息对于分类交互动作具有更强的判别力。同时,效仿人类视觉信息处理机制,本文将姿态特征和表征特征进行融合,在UT-Interaction数据集上的实验结果验证了这两种特征的互补关系并极大地提高了识别精度。实验中本文算法对比了当前最好的词袋方法以及基于底层特征的空间关系特征的方法,验证了本文方法的有效性。
第二,基于排序建模的人体交互动作检测任务。现有的绝大多数识别算法都是基于动作发生的时空范围已知的前提下设计的,但是这种假设在现实系统中往往没有有效的办法得到。尽管已经有少量的学者已经开始注意这个问题,并且采用基于局部兴趣点的时空搜索的办法来确定动作的时空位置,但是该问题仍未得到很好的解决。本文提出了一种新的交互动作的检测算法,该算法基于姿态随时间变化的判别力分布先验设计,通过学习型排序算法实现了这种分布先验的建模,并且提出了基于该先验的检测动作序列的起始和终止的有效的检测算法,结合之前提出的识别框架,对检测到的片段进行了类别分类。本文同样在UT-Interaction数据集上对该检测算法做了验证,结果显示了该算法的有效性。