基于视听觉信息融合的欠定语音混合信号盲分离

来源 :南昌大学 | 被引量 : 0次 | 上传用户:Y13622229444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
盲源分离是指源信号及其混合方式未知的情况下,仅仅根据观测到的混合信号来恢复源信号的过程。盲源分离技术在无线电通信、雷达与声纳信号处理、医学图像分析、图像信号处理以及语音识别等领域具有广泛和潜在的应用价值。在实际应用中,由于条件限制,源信号的个数往往大于麦克风的个数,也就是源信号个数大于观测信号个数,此时盲源分离为欠定混合信号的盲源分离问题。对于欠定混合信号的盲分离,由于其混合矩阵的不可逆性,使得常用的盲源分离技术,如独立分量分析,不能直接用于欠定盲源分离。而且,现有的盲源分离算法大多是采用单模式的盲源分离方法,也就是只利用了听觉信息来估计语音信号。而近年来研究表明,人类对语音信号的感知通常是双模式的,也就是利用人类的视觉信息来辅助对语音信号的感知,提高人类对语音信号的感知能力。为了提高机器听觉的感知能力,本文主要研究双模式条件下的欠定混合信号的盲源分离问题,也就是利用机器视觉信息来辅助提高机器对语音信号的感知能力。本文的主要工作为:1、针对无回响欠定混合模型,提出了一种基于DUET (Degenerate Un-mixingEstimation Technique)的高斯势函数算法来恢复源信号。该算法利用语音信号在时频域的稀疏特性,利用两路观测信号在时频域的比值来估计两路观测信号之间的延时和衰减,然后采用高斯势函数法来估计混合参数;最后利用估计出的混合参数来估计各个源信号所对应的时频掩码从而得到源信号的估计。2、针对混合参数的初值选取问题,提出了一种基于视听觉信息融合的势函数法来实现欠定混合信号的盲分离。该算法首先利用视觉信息估计出声源的位置,利用位置信息再计算出到达两个声音传感器的时间差和声级差,利用时间差和声级差来设置混合参数的初始值;然后采用高斯势函数法来估计混合参数;最后利用二进制时频掩码方法来重构源信号。该算法与一般的随机赋初值的聚类算法相比提高了混合参数的精度。
其他文献
随着经济的发展和劳动者数量的日益增多,职业病危害已成为我国一个重大的公共卫生问题和社会问题。由于国内各区域经济发展极不平衡,职业病防控水平也参差不齐。为了最大限度地
声音定向传播技术是一种控制声音传播方向的新技术,它通过将声频信号转换为调幅超声波信号,并利用空气在声音传播过程中的非线性作用还原出原声频信号,进而产生出具有较强方
图像分割是由图像处理到图像分析的关键步骤,在实际中有着广泛的应用。将数学形态学的思想用于图像分割是近年来图像处理研究的热点之一。目前基于形态学图像分割方法的研究主
无线mesh网是基于IP协议的无线网络技术,从网络拓扑结构上来讲,无线mesh网可以看作是无线版、缩微版的互联网。无线mesh网具有自组网、自管理、自动修复、自我平衡和节点自我管
本文介绍了一个基于VXI(VMEbus extension for instrumentation)总线的500MSPS的高速数据采集模块的设计。电路的设计是基于高速的A/D变换和FPGA技术,实现高速数据采集、数据
H.264视频编解码标准是2003年5月获得批准的新一代视频编解码国际标准。同以往标准相比,它采用了许多新技术,例如1/4,1/8精度的子像素运动估计,多参考帧技术,去块滤波,加强的熵编