论文部分内容阅读
在鸡尾酒会,有很多人在同时讲话,但人们总是能够轻松地和某个特定的人交谈而不受别人影响,这由于人耳能够辨别声音的空间位置以采取不同的处理方式,并且大脑对接收到的信号进行处理,提取出感兴趣的成分。基于人类的听觉系统在鸡尾酒会中的作用原理,引发了多通道信号处理中的两个关键技术:三维声场重构和语音盲盲分离。论文对这两个技术分别进行了深入研究。三维声场重构(三维音频),是根据人耳对声音信号感知的特点,使用信号处理的方法对到达两耳的声信号进行模拟,以达到重建复杂三维虚拟空间声场的目的。通常,将空间某点发出的声音传递到人耳的过程看作是线性滤波系统,其传递函数称为头相关传递函数(HRTF),HRTF包含了人耳定位所需的一些必要信息。将声源信号与HRTF相卷积后进行播放,可以使听者感觉到声音是从HRTF所对应的空间位置发出,从而实现三维的听觉感知效果,这构成了三维音频技术的理论基础。论文对三维音频技术研究的主要成果如下。(1)由于每个人的HRTF互不相同,通用HRTF合成的双耳声音会产生较大的定位误差,为此,本文提出了近似个性HRTF的主观选择方法。该方法从多组非个性HRTF集合中快速选择出最适合听者本人的HRTF,将其作为近似个性HRTF,从而提高了三维声场的听觉定位准确度。(2)为了降低三维音频系统的计算复杂度和存储量,使用共声学极点/零点(CAPZ)模型逼近HRTF,提出了一种基于对数幅度误差最小化的CAPZ模型参数估计方法,以更好地逼近人的听觉感知系统。此外,将三维音频和人工混响技术相结合,实现了具有“头外定位”效果的声场增强系统。(3)为了减小HRTF数据的存储量,尤其是多个测量者的HRTF数据,提出了一种混合压缩方法,联合使用主元分析、矢量量化和曲面拟合技术对HRTF数据进行压缩。与主元分析法相比,混合压缩方法能够更有效地压缩HRTF数据。(4)在处理头部或声源移动问题时,需要对HRTF进行插值,以获得任意方位的HRTF数据。针对全零点HRTF模型,提出了一种基于主元分析的插值方法。该方法将主元权值的空间变化拟合为空间角度的二元函数,同时使用分区域优化方法提高拟合精度,具有良好的插值性能。此外,针对极零点HRTF模型,提出了一种基于全零点模型插值的间接插值方法。(5)研究了立体声扬声器系统的串声消除问题。为了减少计算复杂度,提出了一种基于共极点/零点(CAPZ)模型的串声消除方法。该方法首先使用CAPZ模型对扬声器至人耳的电声传递路径进行建模,然后基于CAPZ传递函数设计串声消除滤波器。与传统的串声消除方法相比,该方法能够大幅度减小计算量。信号盲分离技术是数字信号处理领域中的一种新兴技术,它在对源信号及混合过程知之甚少的情况下,仅利用观测到的多源混合信号分离并恢复出源信号。语音信号盲分离,就是从多路混合语音信号中分离出某个说话人的声音。在实际应用中,由于房间混响的存在,混合语音的分离均为卷积混合盲分离问题。论文对语音卷积盲分离研究的主要内容如下。(1)研究了频域卷积盲源分离问题,提出了一种基于分离信号功率频域相关性的排序方法。该方法使用类似区域增长的排序方式,能够有效解决频域卷积盲源分离的排序问题,且该方法具有较低计算量。(2)针对盲源分离算法在强混响条件下性能较差的问题,提出了一种结合盲源分离和波束形成的联合分离方法。该方法首先使用波束形成对混合信号解混并增强;然后对信号作盲分离。由于波束形成具有噪声抑制和去混响的功能,将它作为盲源分离的预处理步骤有助于提高混响环境下的分离性能。此外,模拟人耳听觉原理,将该联合分离方法应用于嘈杂的鸡尾酒会环境中的目标信号提取。