基于时延补偿和空间栅格匹配的双耳定位系统

来源 :北京大学 | 被引量 : 0次 | 上传用户:lshel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用听觉系统在彼此之间以及与周围环境进行实时的交互是人和其他哺乳动物所具备的一种最自然、最有效的交互方式之一。因此要想实现友好的人机交互,机器人的听觉系统便是一个不得不研究的领域之一。随着公共安全与社会治安问题逐渐地成为影响人们日常生活的重要因素,越来越多的面向高危险与高强度工作环境的仿人机器人应运而生。然而随着机器人视觉、触觉与运动规划在仿人机器人领域中逐步走向市场化的过程中,机器人的听觉,尤其是机器人声源定位并没有得到相匹配的进步。如何实现快速而精确地定位空间中未知声源的位置一直都是这个领域中的重点与难点。  本课题针对声源定位在实际应用的机器人定位实时性差,正确率低的问题,对人体人头、双耳、耳廓等在人体定位声源过程中所起到的作用进行了系统深入的研究,并对目前一般性的解决方案和技术路线进行了探索性的改进。  简而言之,本文所做的工作可概括如下:  1)将双层定位结构应用于声源定位中。在双耳声源定位中最经常用来进行空间定位的特征为ITD与IID,众多学者的思路也都是将二者融合来进行有效的声源定位。早在2003年的国际会议ICRA中,Li等人就曾经使用三层结构进行声源定位。然而他的算法在噪声环境下并不理想,而且他引入的频谱差的特征对俯仰角定位的有效性也不好。本文使用双层结构对声源进行定位,其最大的优势在于能够较大的减少时间与空间的需求,提高定位的实时性。此外,定位精度精确与否是由所提取的特征来决定的。  2)在定位结构的第一层使用谱加权修正的广义互相关来求取双耳时间差。这一算法并非是本人首创,在2012年的interspeech会议中,Li等人将这一算法引入声源定位中,证实其对于平稳的噪声具有很好的鲁棒性。本文在他的基础上对其进行补充,将经常出错的方向分配出现概率,建立声源候选区间,以备后续特征进一步验证。此算法在本文中起到的作用是它能够有效地降低平稳噪声的影响。  3)在定位的第二层,本文提出了将第一层计算所得的时延估计对第二层进行补偿的方法,并称之为CIID。它的灵感来源于Willert在2006年提出的概率模型,它的提出克服了时间差与电平差的相互影响,在能保证定位误差不至较大下滑的基础上尽量减少计算时间与存储空间,同时对噪声也具有较好的抵抗能力。  4)在最终决策阶段,本文引入了空间栅格匹配的算法。空间栅格算法本是李晓飞师兄用来定位二维面上的声源位置的一种方法。鉴于空间中的声音位置也具有空间栅格的特性,因此本文将其引入三维空间声源定位中,将第一层中的候选区间继续栅格划分,并进行逐级匹配,匹配的最佳结果将视为最终的定位结果。这种方法能够在一定程度上减少匹配时间,提高计算速度。  为了证实本课题研究内容的正确性,本文在MATLAB平台上对U.C.Davis录制的CIPIC数据库中45个人头模型中的25个轴向角,50个俯仰角,共计1250个方向进行了多次大量实验。试验结果显示在相似的精确度下,本文中的方法确实能减少计算时间和存储时间,并且对噪声具有较好的鲁棒性。最后将本课题中的双层结构中的第一层部分在本实验室SES系统上进行了实际验证,实验结果也达到了很好的效果。  
其他文献
知识工程是人工智能的一个应用分支,指的是运用人工智能的原理、方法和技术,以知识为处理对象,去挖掘、构建和完善一个知识系统的学科。知识工程的主要研究内容包括知识的表示、
人体检测是计算机视觉领域一个重要的研究方向,随着智能化的不断发展,人体检测已经开始逐渐渗透到各行各业以及我们生活中的方方面面。而作为一种新的感知媒体,深度图像序列具有
RTEMS(Real Time Executive for Multiprocessor Systems)实时核常被应用到控制系统中,它和普通操作系统的区别在于,不仅关注系统能否正确处理外部信息,同时更加注重系统是否在
视觉决策涉及对眼前既定对象的选择,是感观信号联结以达成合适反应的过程。它是人们日常生活中进行最频繁的决策,也是用户与Web交互时进行最多的活动之一。在人-Web交互环境中
随着信息技术的不断发展,计算机软件功能更加齐全,并在各领域得到了广泛的应用。同时软件研发过程也面临着诸多新的挑战:软件结构复杂,需要多个团队一起协作研发,而不同研发团队
随着云计算服务的广泛使用,云平台可信性已经受到了国内外的广泛关注。云用户与云服务商之间遵循SLA协议,执行服务与被服务的关系,一方面,云服务商在提供服务的同时,担心自己的企
随着计算机、网络通信等技术飞速发展,人类社会进入全球数字化和信息化的高科技时代。如何保证信息的安全,成为一个现代社会极其关注的问题。秘密共享理论广泛应用于信息安全领
图像的稀疏表示是当前图像处理领域的热点问题,研究图像的稀疏表示及其在图像处理中的应用,具有极为重要的理论价值和实际意义。本文围绕图像的稀疏表示,以字典学习为重点,同时对
Linux内核代码量大、逻辑关系复杂,因此对内核中的错误进行追溯和调试一直以来都是一件既耗费时间又耗费精力的事情。已有的错误追溯方法和技术种类繁多、效果各异,但几乎都
最小独立支配集问题是图论中经典的NP完全问题之一,要求在给定的图中找到一组顶点D,D的顶点互不相邻(独立),且D之外的每个顶点都有相邻的顶点包含于D(支配)。最小独立支配集问题在很