说话人识别系统研究及其DSP实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:luoyanxiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动网络技术的迅速发展,基于嵌入式平台开发实时的说话人识别系统,实现移动终端设备上的身份验证,成为当前信息安全技术的研究热点之一。本文主要针对主流的GMM-UBM特征模型的特征分类情况进行了分析,提出了基于动词相似度的分类方法和基于网格密度的分类方法,在不增加计算复杂度的前提下降低说话人确认的等错误率,提高识别性能。进一步,基于ADI公司的ADSP-BFS48开发平台,进行了软件的优化,实现了高效率的说话人识别嵌入式系统,有利于应用在语音检索、司法鉴定和金融信息验证等安全认证应用方案中。   本文解决的关键问题有以下几个方面:   1.提出了一种基于计算动词相似度(Computational Verb Similarity)理论的特征分类方法。本文在梅尔倒谱域中引入基于距离和趋势联合相似度的评估模型,对原始的特征向量进行了距离-趋势联合相似度聚类。通过实验分析,其聚类效果要优于基本的LBG聚类方法。该相似度聚类方法应用于GMM-UBM构建的说话人识别系统,其获得的等错误率比基于LBG分类方法的说话人确认系统降低了12%。   2.提出了基于网格密度理论的特征分类方法。在Mel倒谱域中,不经过任何域的变换,只考虑语音特征参数在Mel倒谱空间的密度分布,将其按照每一维进行等距离划分,在Mel倒谱空间中形成不同的数据子空间,然后根据不同数据子空间的密度分布,选择最大密度所在的子空间,并对所获得的密度中心进行搜索合并,直到搜索条件达到所设定的阈值即为分类结束。该网格密度聚类方法应用于GMM-UBM的说话人识别系统,其获得的等错误率优于基于LBG分类方法的说话人识别系统,约降低了14%。   3.基于ADI公司的BLACKFIN系列ADSP-BF548评估板实现了一个基于计算动词相似度优化的说话人识别系统,外接LCD液晶板,通过AUDIO接口进行人性化的人机对话。同时,通过对FFT算法、DCT算法以及部分乘法运算进行优化,使其运算量减少为原来算法的4%至25%,提高了系统的运算速度。实验结果表明,在ADSP-BF548硬件平台上使用动词相似度分类算法的GMM-UBM说话人确认系统,其获得的等错误率优于基于K-MEANS分类方法的说话人识别系统,约降低了14%。
其他文献
嵌入式可视检测系统(英文名称:Integrated Vision Unit,以下简称:IVU)是一种新型光电检测系统,可被安装在电火花加工机床上,并嵌入阿奇夏米尔公司的数控系统以用来实时观测放大
本文通过对荣华二采区10
期刊
高光谱图像数据包含数百个具有极高光谱分辨率的谱段,运用高光谱图像中丰富的光谱信息可以进行精确的地物分类。但是其高维的数据形式、信息的高度冗余也给后续的数据处理带来巨大挑战。因此,如何最大程度地保留高光谱数据的有用信息,同时又降低数据维度成为了高光谱图像处理的重要技术问题之一。波段选择是一种常用的高光谱降维方式,通过在原始波段集合中挑选出部分波段,并没有对数据做任何改变,因此保留了波段所对应的物理含
研究和利用小麦的早熟性,对于充分利用光热资源、提高复种指数以及提高粮食的周年产量具有重要意义。另外,选育早熟品种对于避开小麦生长后期的病害流行,减轻其的危害也是行之有效的途径之一。因此,国内外许多学者对小麦的早熟性从阶段发育、早熟性遗传、品种分类、相关性分析等诸多方面进行了大量研究,有效地指导了小麦早熟性育种工作。在传统遗传学方法的基础上,结合现代分子生物学技术,从核酸、蛋白分子水平对小麦早熟性进
传统的低压差线性稳压器LDO,需要在其输出端添加输出电容,以保证系统的稳定性。但这会存在两个主要的问题:一方面,输出端产生的极点位置并不是固定不变的,而是随着负载变化的,LDO的频率补偿很大程度上取决于负载。因此,对输出电容的数值及类型提出了严格的要求;另一方面,增加了成本及PCB板的面积。因此,研究无片外电容LDO是非常有必要的。本论文首先对电源管理芯片及LDO的研究现状及发展前景做了介绍,重点