论文部分内容阅读
盲源分离是指源信号及其混合方式未知的情况下,仅仅根据观测到的混合信号来恢复源信号的过程。盲源分离技术在无线电通信、雷达与声纳信号处理、医学图像分析、图像信号处理以及语音识别等领域具有广泛和潜在的应用价值。在实际应用中,由于条件限制,源信号的个数往往大于麦克风的个数,也就是源信号个数大于观测信号个数,此时盲源分离为欠定混合信号的盲源分离问题。对于欠定混合信号的盲分离,由于其混合矩阵的不可逆性,使得常用的盲源分离技术,如独立分量分析,不能直接用于欠定盲源分离。而且,现有的盲源分离算法大多是采用单模式的盲源分离方法,也就是只利用了听觉信息来估计语音信号。而近年来研究表明,人类对语音信号的感知通常是双模式的,也就是利用人类的视觉信息来辅助对语音信号的感知,提高人类对语音信号的感知能力。为了提高机器听觉的感知能力,本文主要研究双模式条件下的欠定混合信号的盲源分离问题,也就是利用机器视觉信息来辅助提高机器对语音信号的感知能力。本文的主要工作为:1、针对无回响欠定混合模型,提出了一种基于DUET (Degenerate Un-mixingEstimation Technique)的高斯势函数算法来恢复源信号。该算法利用语音信号在时频域的稀疏特性,利用两路观测信号在时频域的比值来估计两路观测信号之间的延时和衰减,然后采用高斯势函数法来估计混合参数;最后利用估计出的混合参数来估计各个源信号所对应的时频掩码从而得到源信号的估计。2、针对混合参数的初值选取问题,提出了一种基于视听觉信息融合的势函数法来实现欠定混合信号的盲分离。该算法首先利用视觉信息估计出声源的位置,利用位置信息再计算出到达两个声音传感器的时间差和声级差,利用时间差和声级差来设置混合参数的初始值;然后采用高斯势函数法来估计混合参数;最后利用二进制时频掩码方法来重构源信号。该算法与一般的随机赋初值的聚类算法相比提高了混合参数的精度。