论文部分内容阅读
人类的视觉是一套复杂而精密的系统,具有察觉、分辨物体的能力,并能分析和判断物体的结构、姿态及运动,从而在复杂环境中自由、安全地行走和活动。随着现代科技的发展,特别是计算机技术的迅猛进步,如何使机器实现人类的这种视觉功能已成为科学家面临的一个极富挑战的研究课题,并形成计算机视觉学科。计算机视觉的总体研究目标是从可视媒体(包括图像及视频)中创建或恢复世界模型,然后认知现实世界。而在这个世界上,人的运动携带了大量对于对人类社会而言非常重要的信息,人与人、人与物体及人与环境之间的交互构成了可视媒体的主要内容。因此,研究可视媒体中的人体运动信息,对其进行有效的表示、分析和理解,具有着重要的意义。姿态及运动估计问题,作为计算机视觉研究中的一个重要类别,也经历了研究目标从刚体过渡到连接刚体,以至于人体的发展过程。这其中的每一步发展,都伴随着新理论的提出及新方法的实践,也带来了更广泛的应用前景和经济、社会价值。例如,在虚拟现实领域,通过基于视觉的人体运动姿态估计来捕捉人的动作,生成动画,可以代替价格昂贵的基于传感器的捕获设备。通过人体运动模型和关节运动的规律合成新的运动,自动生成复杂的人体运动场景,可以取代那些手工的费时费力的动画合成方法。在人机交互和高级用户接口应用领域中,我们希望未来的机器能像人一样与我们更加容易和便捷地交流,如手势驱动控制、手语翻译等。面向聋哑人的自动售货机将能识别哑语,体现对残疾人更多的关心。在智能安全监控中,利用基于人体姿态的运动分析可以在预防和减少犯罪方面发挥重要作用。这种智能监控系统可以在无人值守的情况下,自动理解人的行为,并及时发出警报,减少损失。分割图像中的人体部分并在图像序列中提取出人体的骨架,估计并分析感兴趣的关节运动姿态,对于建立人体的几何模型、解释人体的运动行为机制从而提高它的运动性能有着积极的推动作用,这可以应用于体育运动、舞蹈等训练中。针对连接刚体及人体姿态估计中所存在的一些问题,本文对一些关键问题进行了研究,主要包括图像序列中人体前景部分的自动化提取、基于切圆不变性的旋转曲面姿态估计、基于随机树的低分辨率图像中的头部姿态估计、基于粒子置信传播算法的二维人体姿态估计、改进的生成式三维人体姿态估计和结合生成式算法与判别式算法的三维人体姿态估计。主要研究内容和成果如下:提出了一种自动提取图像序列中前景部分的算法框架。首先,利用运动估计算法根据相邻帧的图像得到帧间的运动矢量(光流)。然后可以通过挖去所有发生运动的区域来得到一个背景的不完整图像。再利用具有缺失数据的主成份分析,可以从这些不完整图像中恢复出完整的背景图像。最后,一个简单的背景减除即可分割出前景部分来。该算法框架的优点在于能够根据运动信息自动产生背景模型,因此无需单独提供背景图像(或视频)作为分割依据,可用于处理那些已经存在并无法重现的视频。通过实验比较,该方法可获得比通常使用的混合高斯模型算法更好的结果。对于旋转曲面刚体或连接刚体的运动图像序列,我们在其外轮廓上发现了一种切圆不变性。该不变性能够为求解其姿态提供约束,从而使得我们可以仅从一个旋转曲面物体的两幅不同姿态的图像中求解出其姿态。该求解算法与之前同类算法相比,所需的条件更少(不需要物体具有可辨识的纹理、不需要图像中存在对象的圆形切面),因此是一种更为通用的算法。通过模拟实验、在旋转曲面的刚体及连接刚体上的实验,证明了这种算法的可行性和有效性。提出了一种利用霍夫森林在低分辨率图像中进行头部姿态估计的算法。姿态估计是通过一种类似霍夫变换的投票过程完成,图像中所有位于头部区域的固定大小的图像块就头部的位置和姿态进行投票。这样做的根据是我们认为这些例如眼部、头发或颈部的图像块包含了关于头部姿态的大量信息。投票过程最终通过随机森林完成,这是一种高效且鲁棒的分类工具。利用头部姿态的真值与估计结果的比较,验证了所提出算法的有效性。提出了一种基于运动的时空连续性的2D连接刚体姿态估计算法,该算法用图模型中的节点(Node)表示连接刚体的每一部分的姿态,用边(Edge)表示连接刚体间的姿态关联及前后帧图像间的姿态连续,采用粒子置信转播来推断最大后验概率的状态。由于粒子置信传播算法仅考虑具有潜在可能性的状态,使得在状态空间巨大时依然能够得到推断结果。这种估计算法的优点在于不需要初始姿态,也不需要训练数据。我们通过实验验证了该算法。对两种典型的生成式人体姿态估计算法,模拟退火的粒子滤波和非参数置信传播算法,在HumanEva和PEAR两个人体动作数据库上进行了实验及算法评估与比较。随后提出了两种对生产式算法的改进:第一种根据对APF和NBP算的比较及评估所提供的结论,提出了一种同时利用两者优点的姿态估计算法。第二种改进通过将生成式算法得到的人体各部位姿态作为生成式算法的输入,综合得到整体姿态。