多维语音信息识别技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:jijiaweiaics
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能需求的不断增加以及机器学习技术的飞速发展,语音交互技术俨然已经成为下一代智能家居等诸多应用领域的发展趋势。语音识别、说话人身份识别和语音情感识别等识别技术受到了越来越多研究者的广泛关注与高度重视。目前,国内外对语音识别的研究都是单维信息或内容的单独识别。然而,在日常生活中,人们采集到的语音信号本质上是混合信号,主要包括三个大的方面的信息:语音中包含的内容信息,语音中含有与说话人特征有关的信息(如性别、年龄以及情感状态等)和与语音混杂在一起的背景环境声音信息,且我们人类对话时能够同时识别出上述各种声音信息。而各种信息的分开识别会产生语义理解的歧义性,降低语音识别的鲁棒性,阻碍语音对话系统的发展。若机器能够像人一般同时识别出说话人所讲的内容、其身份、年龄、性别、情感状态甚至背景声等多维信息,就能极大地提高人机对话的效率,解决单维识别系统存在的瓶颈问题。因此,本团队提出了一种全新的多维语音信息同时识别的研究课题。当然,上述三个大的方面信息涉及到的识别对象有近十种,同时识别难度很大,课题涉及的研究范围十分宽泛,因此作为开创性的尝试,本文将先研究其中与说话人有关的多维信息识别技术。本文的主要研究工作和创新点如下:基于现有的性别相关的情感识别、情感环境下的性别和身份分别识别的技术研究与发展,针对仅有单维信息识别系统框图的情况,本文分析了传统单维说话人信息识别的共性和特性,重点研究了实现多维说话人信息同时识别的两个关键技术:特征提取和模型训练。(1)分析发现不同的语音特征参数能够代表不同的语音相关信息,且同样的特征向量也能用于不同的单维语音识别任务中。目前,常用的声学特征参数分别是韵律特征、声音质量特征和基于谱的特征。而本文涉及到与说话人有关的三方面信息识别,因此考虑运用上述三种声学特征的组合特征作为本文多维说话人信息识别的特征参数。相较于单类别的特征,它包含更丰富的语音信息。本文采用两种方法分别获得融合特征,一种是Matlab仿真平台提取的低维特征,另一种是OpenSMILE工具箱提取的高维特征。(2)针对多维信息识别缺乏成熟的参考文献和理论知识的情况,本文首先创造性地构建出基于性别相关的多维信息识别基线系统,作为多维识别的参照模型。然后,通过将基线系统与传统的情感、性别和身份单独识别的系统进行对比,得知多维识别系统的平均识别率高出11.37%,从而证明了基线系统方案的可行性和有效性,并且证明了多维信息同时识别还能带来提高其中单维信息的识别率这一优点,本身也成为一种新的识别方法。(3)因为多维说话人信息识别任务本质上是一个多标记学习问题。因此考虑运用解决现实世界对象具有多义性的多示例多标记学习算法进行多维语音识别技术研究。本文首次将多示例多标记支持向量机算法用于说话人识别领域,并利用不同标记之间的相互制约关系,改进了判决机制,实现基于性别的双重判决。实验表明,除了性别识别,无论采用哪种特征参数,基于改进的MIMLSVM系统的识别率都比基线系统的识别率高。其中,采用高维特征、改进MIMLSVM系统的准确率比采用低维特征、基线系统的高1.97%左右。可见,恰当的参数选择和模型匹配能显著提高多维系统的识别率。但是,随着标记数量的增加,系统的运行时间和计算复杂度也相应的增加。即实现多维说话人信息的同时识别是以付出一定的系统复杂性为代价。
其他文献
点模式匹配的目的是从两个相关点集中找出对应的匹配点,其研究成果可以广泛地应用于计算机视觉、计算生物和化学等众多领域。由于待匹配点集间常常存在着较大的差异,增加了点
随着通信技术的不断发展、用户需求的不断增加,无线通信系统能耗不断上升,绿色无线通信成为重要的研究课题。基于此,本文研究中继网络架构下的能效优先的中继部署问题。在确保用
3G通信业务的蓬勃发展,要求运营商不断提高自己对网络维护和优化的能力;传统网络测试产品自动化程度不高,使用定制不便,且升级费用昂贵,在当前网络测试需求大量增加的情况下,越来越
本文针对标准多频带UWB-OFDM无线通信系统,提出了适用于该系统的基带系统设计方案以及基于FPGA的基带系统硬件实现方案。由于多频带UWB-OFDM系统是将跳频技术使用在普通OFDM系
基因微阵列(又称基因芯片)可应用对于不同发展阶段,不同人体组织,不同临床条件以及不同生物体等条件下的基因表达水平的测量。基因芯片的出现正在给生命科学研究、疾病诊断、新药
随着车联网在智能交通上的逐步应用,路车互联网作为车联网的一个重要分支,已经引起了国内外相关研究机构的高度重视。IEEE802.11p/1609系列协议作为路车互联网上的代表性协议,旨
人类进入信息社会,各种科学技术日新月异,使人们的生活方式、思想观念发生了巨大变化。其中网络技术和多媒体技术的发展使“千里眼”、“顺风耳”成为了现实,人们可以与千里之外
随着移动通信技术的快速发展,针对用户对业务带宽、传输时延等多方面的需求,新的移动通信系统就必须提供更快的传输速率、更稳定的传输过程和更小的传输时延。3GPP推出了新的演
近年来,多输入多输出技术(MIMO)由于能较大幅度地提高频谱效率成为无线通信领域研究的热点之一,而空时编码作为MIMO系统中的一项重要技术,引起了人们的广泛关注,它可以同时提供分
随着无线通信技术的飞速发展,无线通信业务的不断拓展使得有限的频谱资源变得越来越紧张,如何解决频谱分配与频谱利用之间的矛盾是无线通信领域重点关注的问题。认知无线电CR