论文部分内容阅读
声源定位与语音增强系统广泛应用于音视频通信、军事安保、人工智能、工业生产等等领域,基于麦克风阵列的嵌入式系统向大计算量、高集成度、高分辨率、低复杂性方向发展。在此趋势下,设计了声源定位和语音增强的SOPC系统。在单FPGA芯片架构下,完成了声源定位与语音增强系统的设计与实现。研究并选择了声源定位算法。分析了相位加权法(PHAT)对广义互相关函数(GCC)性能的大幅度改进,验证了联合功率可控波束-相位加权法(SRP-PHAT)的优异时延估计性能。利用SRP-PHAT法不仅可以获得相当凸显的峰值,还可以高分辨率估计声源位置,并在多声源情况下表现也很突出。选用了CFRC算法,大大降低了声源定位的计算量。研究了语音增强算法。在平衡性能和复杂度的基础上,选用自适应波束形成法作为麦克风阵列语音增强的算法。分析了自适应波束形成的通用模型-广义旁瓣消除器(GSC)的性能,发现GSC在消除相干噪声方面性能很好,而在消除非相关噪声方面表现不佳。在非自适应支路添加维纳频域滤波后的GSC,对相干噪声和非相关噪声都有很好的抑制效果。为提高GSC自适应算法的收敛速度,进行两个方面的设计:1)采用NLMS自适应算法,2)采用子带滤波器组。仿真证明,子带GSC比全带GSC,信噪比提高了约3dB。为进一步验证算法的工程表现,进行浮点数仿真的同时,还进行了定点数仿真和工程实现过程中的折中处理仿真,结果表明,算法具有现实应用性能。在Xilinx XCV5LX110T FPGA内部,设计并实现了整个系统算法,包括数据缓存模块、端点检测模块、子带GSC语音增强模块、Codec控制器、嵌入式CPU,其中嵌入式CPU内部的软件实现了对整个系统的初始化、人机交互和声源定位算法。子带GSC模块中包括时延补偿、子带滤波器组、维纳滤波、NLMS滤波等。以上各模块都经设计、优化、硬件编程、多级仿真直至板级调试。设计了系统的硬件平台。实现了满足麦克阵列信号采集要求的高精度、多通道、同步数据采集器,与Xilinx V5-LXT FPGA ML505评估平台相连,构建了系统的实现平台。ML505上,使用LCD作为定位结果显示,语音输出由音频Codec外接耳机完成。参考三维声探系统,麦克风阵列采用空间五元阵。在实验室环境下,对系统进行了测试,结果证明了系统的有效性。