【摘 要】
:
语音是我们生活中使用最为普遍和方便的交流方式,而且每个人由于生理特征和行为的差异,导致所发出的声音特征也不尽相同。从理论上来说,任何两个人的声纹信息都各不相同。声纹识别就是根据该理论,通过对比分析不同说话人之间的声纹特征差异,从而识别出说话人真实身份的一种新型生物认证技术。SOPC,是一种基于FPGA的片上可编程系统。基于SOPC的声纹识别系统,具有体积小、稳定性好且开发成本低的优势,其应用前景非
论文部分内容阅读
语音是我们生活中使用最为普遍和方便的交流方式,而且每个人由于生理特征和行为的差异,导致所发出的声音特征也不尽相同。从理论上来说,任何两个人的声纹信息都各不相同。声纹识别就是根据该理论,通过对比分析不同说话人之间的声纹特征差异,从而识别出说话人真实身份的一种新型生物认证技术。SOPC,是一种基于FPGA的片上可编程系统。基于SOPC的声纹识别系统,具有体积小、稳定性好且开发成本低的优势,其应用前景非常广阔。在声纹识别系统中,声纹识别模型和算法的好坏直接影响着系统的性能。矢量量化模型,其计算简单、响应速度快、识别精度高,非常适合在SOPC这种资源有限的平台上实现,所以本文选用矢量量化作为声纹识别模型。针对K-Means算法对初始聚类中心选取依赖性强的缺点,本文研究与实现了基于K-Means算法和自组织映射神经网络(SOM)的组合算法,即SOM-KMeans算法,并将SOMKMeans算法作为本文的声纹识别算法用于模型训练。然后利用自行录制的语音数据库,在PC机上使用SOM-KMeans算法和基于SOPC的声纹识别系统中常用的LBG、GA-K-VQ算法进行了仿真对比实验。通过实验证明,SOM-KMeans算法在声纹识别方面的性能要优于LBG算法和GA-K-VQ算法。为了验证SOM-KMeans算法在基于SOPC的声纹识别系统中的性能,本文根据SOPC系统的设计流程搭建了SOPC平台,然后在该SOPC平台上对SOMKMeans算法与LBG、GA-K-VQ算法进行了声纹识别对比实验。通过实验证明,SOM-KMeans算法在基于SOPC的声纹识别系统中同样具有优势。
其他文献
内蒙古自治区是全国五大牧区之一,在全国畜牧业中占据重要的地位。自治区的发展战略目标中提到,要逐步推进新型的信息科技在畜牧业中深层次的融合应用。其中,牛的个体识别技术对智慧牧场建设和畜牧业保险有着重要意义。三维识别方法比二维识别能提供更丰富的空间信息,可以更精准地进行个体识别。而在三维识别中,牛面部的三维重建是至关重要的一环,对畜牧业的智慧管理具有一定的应用价值。本文针对牛面部三维图像重建的主要研究
随着互联网的兴起和普及,我们进入了一个人人都生产数据的时代,需要处理和存储的数据呈指数式的增长,但传统的数据处理和存储技术却遭遇了瓶颈。而云计算作为海量数据处理和存储的主流平台应运而生。Hadoop则是云计算开源的分布式并行计算框架之一,由Apache旗下基金会发布,被广泛地应用于众多大公司,例如雅虎、脸书、亚马逊、谷歌、微软等。因此,Hadoop渐渐地成为了云计算平台海量数据处理和存储的主流框架
近年来深度学习广泛应用于图像分类、目标检测、图像分割、语音识别等众多领域中.图像修复是计算机视觉领域中的一个重要课题,常见于影视娱乐、医疗影像、公共安全、文物修复等日常生活的方方面面,其主要任务是利用图像整体结构纹理重绘缺失部分的细节,使修复完成的图像内容和谐一致.深度学习很好地解决了传统图像修复的局限,提高了修复模型的学习能力,显著改善了修复效果.时至今日,人们针对不同问题提出了众多图像修复的方
ARINC429是航空电子设备中广泛使用的一种总线协议。近年来,随着我国航空航天技术不断发展,对航空通讯设备的需求越来越大。国内航空通讯设备所用集成电路芯片长期依赖进口,经常面临各种限制问题,因此我国迫切需要拥有自主研发的航空通讯设备。本论文旨在研制一款基于CPCI总线的国产化ARINC429通讯模块,该模块可以提供4路ARINC429接收通道和2路ARINC429发送通道,采用国内先进的集成电路
自旋转移矩磁随机存储器(Spin-Transfer Torque Magnetoresistance random access memory,STT-MRAM)有望代替传统存储器,其高效,非易失性,存储时间长等优点引起了人们的关注。随着科技的不断进步,存储器也不断面临新的挑战。近年来,随着MRAM的存储密度不断增加,尺寸不断减小;同时,还要通过增强磁各向异性来提升存储器的热稳定性。如何可以更好地
面向汉语、英语等大语种的语音交互系统已经应用于科技和生活的各个方面,极大地提高了信息获取效率。而蒙古族人民也对语音交互系统有广泛的需求,希望使用蒙古语与智能设备交互。因此本文设计并实现了面向蒙古语的语音交互系统,本系统由蒙古语语音识别、问答系统、语音合成三部分组成。其中问答系统是语音交互系统的核心部分,问答模型性能的好坏直接影响语音交互系统生成回答的语言质量。目前还没有公开的高质量蒙古文问答语料库
语音增强的目标是抑制噪声,增强期望的语音信号。基于信号处理的传统语音增强方法为了简化计算或获得解析解做了许多假设,在低信噪比与包含非平稳噪声的场景下会出现严重的性能下降。基于深度学习的语音增强方法具有强大的非线性映射能力,在拥有大量训练数据的前提下有望超过传统方法。目前,基于深度学习的主流增强方法通常将语音增强任务建模为全频带谱映射问题,间接忽视了语音增强领域过去几十年的经验积累。基于信号处理的传
语音增强旨在利用信号处理技术及各种算法提高语音的质量与可懂度。作为语音识别系统的前端模块,它在语音交互、电话会议、听力辅助以及军事窃听等场景中发挥重要作用,得到了学术界和工业界的广泛关注。与传统方法相比,基于深度学习的语音增强方法在应对低信噪比以及非平稳噪声方面表现突出,但在一些方面仍然存在不足。深度学习框架下的语音增强方法,通常使用均方误差(MSE)作为优化模型参数的目标函数。但一些研究表明,具
随着物联网的发展和移动设备的普及,室内位置感知服务需求与日俱增。基于位置指纹的无线室内定位技术因原理较为简单、成本相对较低和普适性强的特征受到了学术界和工业界的广泛关注。现有研究表明,通过优化室内环境中Wi-Fi接入点和低功耗蓝牙(Bluetooth Low Energy,BLE)基站的部署位置可提升定位精度,但仍然存在以下问题:(1)采用启发式搜索算法易得到局部最优解,并且解决大场景问题时,需耗
随着研究人员对英文语音识别和语音合成技术的深入研究,英文发音词典作为这两项技术中连接声学模型和语音模型的重要一环,其构造方法也有了很大的发展。但是,现有的英文发音词典构造方法仍然存在着例如依赖于语音和文本平行语料、数据采集困难、专家标注成本高等一系列的问题,因此需要研究更有效的方法提升发音词典构造效率。为解决上述问题,本文开展了基于非平行语料的英文发音词典构造方法的研究,主要内容如下:首先,本文针