论文部分内容阅读
用听觉系统在彼此之间以及与周围环境进行实时的交互是人和其他哺乳动物所具备的一种最自然、最有效的交互方式之一。因此要想实现友好的人机交互,机器人的听觉系统便是一个不得不研究的领域之一。随着公共安全与社会治安问题逐渐地成为影响人们日常生活的重要因素,越来越多的面向高危险与高强度工作环境的仿人机器人应运而生。然而随着机器人视觉、触觉与运动规划在仿人机器人领域中逐步走向市场化的过程中,机器人的听觉,尤其是机器人声源定位并没有得到相匹配的进步。如何实现快速而精确地定位空间中未知声源的位置一直都是这个领域中的重点与难点。 本课题针对声源定位在实际应用的机器人定位实时性差,正确率低的问题,对人体人头、双耳、耳廓等在人体定位声源过程中所起到的作用进行了系统深入的研究,并对目前一般性的解决方案和技术路线进行了探索性的改进。 简而言之,本文所做的工作可概括如下: 1)将双层定位结构应用于声源定位中。在双耳声源定位中最经常用来进行空间定位的特征为ITD与IID,众多学者的思路也都是将二者融合来进行有效的声源定位。早在2003年的国际会议ICRA中,Li等人就曾经使用三层结构进行声源定位。然而他的算法在噪声环境下并不理想,而且他引入的频谱差的特征对俯仰角定位的有效性也不好。本文使用双层结构对声源进行定位,其最大的优势在于能够较大的减少时间与空间的需求,提高定位的实时性。此外,定位精度精确与否是由所提取的特征来决定的。 2)在定位结构的第一层使用谱加权修正的广义互相关来求取双耳时间差。这一算法并非是本人首创,在2012年的interspeech会议中,Li等人将这一算法引入声源定位中,证实其对于平稳的噪声具有很好的鲁棒性。本文在他的基础上对其进行补充,将经常出错的方向分配出现概率,建立声源候选区间,以备后续特征进一步验证。此算法在本文中起到的作用是它能够有效地降低平稳噪声的影响。 3)在定位的第二层,本文提出了将第一层计算所得的时延估计对第二层进行补偿的方法,并称之为CIID。它的灵感来源于Willert在2006年提出的概率模型,它的提出克服了时间差与电平差的相互影响,在能保证定位误差不至较大下滑的基础上尽量减少计算时间与存储空间,同时对噪声也具有较好的抵抗能力。 4)在最终决策阶段,本文引入了空间栅格匹配的算法。空间栅格算法本是李晓飞师兄用来定位二维面上的声源位置的一种方法。鉴于空间中的声音位置也具有空间栅格的特性,因此本文将其引入三维空间声源定位中,将第一层中的候选区间继续栅格划分,并进行逐级匹配,匹配的最佳结果将视为最终的定位结果。这种方法能够在一定程度上减少匹配时间,提高计算速度。 为了证实本课题研究内容的正确性,本文在MATLAB平台上对U.C.Davis录制的CIPIC数据库中45个人头模型中的25个轴向角,50个俯仰角,共计1250个方向进行了多次大量实验。试验结果显示在相似的精确度下,本文中的方法确实能减少计算时间和存储时间,并且对噪声具有较好的鲁棒性。最后将本课题中的双层结构中的第一层部分在本实验室SES系统上进行了实际验证,实验结果也达到了很好的效果。