基于计算听觉场景分析的双说话人混合语音分离研究

被引量 : 0次 | 上传用户:s8583527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,语音信号处理与搜索引擎和人工智能等领域联系紧密,而基于计算听觉场景分析的语音信号分离在多媒体检索和机器人研究等方向上具有广阔的应用前景,也逐渐成为研究人员的研究重点。目前基于计算听觉场景分析的语音分离系统中,针对多个说话人混合语音的分离难以取得令人满意的效果,原因在于大部分计算听觉场景分析系统在提取基音阶段不能准确得到多个基音的轨迹,进而影响到语音的分离,另一方面许多分离系统在组织阶段采用训练模型,需要依赖样本训练的有效性以及说话人的先验知识。在现有研究基础上,本文提出一种双说话人混合语音分离方法,主要研究内容包括:(1)提出基于隐马尔科夫模型的多基音跟踪方法。首先通过外围处理模块将语音信号分解成时频单元。其次,在基音跟踪阶段利用语音信号的统计特性,通过基于隐马尔科夫模型的多基音跟踪算法计算出混合语音中多个基音轨迹,并设计出能在多个基音存在情况下完成时频标记的方法,得到同时语音流。实验表明该方法在提取多说话人语音材料基音轨迹的有效性。(2)提出基于聚类的序列组合方法。首先提取混合语音材料中的gammatone倒谱系数,提出基于类内散布矩阵与类间散布矩阵的目标函数,然后通过最大化类内散布矩阵与类间散布矩阵的迹,搜索同时语音流的最佳分类,最终完成对双说话人的语音分离。实验表明该方法在分离双说话人混合语音的有效性。
其他文献
<正>艾滋病是由艾滋病病毒(Human Immunodeficiency Virus,HIV)引起的危害性极大的一种传染病,HIV以T淋巴细胞作为主要靶细胞进行攻击,使人体丧失免疫功能,病死率较高,艾滋病
工业遗产作为文化遗产中的重要组成部分,是一种特殊的文化资源。但随着国内产业结构的调整和城市化进程的加快,各地许多具有代表性的工业遗存面临着被拆除、废弃或者不恰当利
鸦片战争爆发后,西方侵略者们一手执枪,一手执《圣经》,用炮火强行轰开了中国的大门,给中国人民带来了近百年的屈辱与贫困。在不平等条约的庇护下,西方传教士们肆意宣传基督
院士工作站作为院士及其团队与建站主体合作的创新平台,是政产学研用协同创新的有效模式。在对其建设与运行中存在的主要问题及其成因进行剖析的基础上,就如何更有效地发挥其
<正>教学目标1.能设计实验并利用已有器材将盐"变"来"变"去(溶解和提取食盐),能整理制作出盐的变化过程示意图并由此引申,建立可逆变化过程的概念。2.研究切开和嚼烂的苹果能
<正>一、引言当前我国金融体系改革如火如荼,以国有银行上市、信用社及中小银行的改造为主体,越来越关注股东价值是一个重要改变。所以实现股东价值最大化便成为了管理体系的
<正>自2008年以来,扬州市科协认真贯彻中国、省科协关于切实加强企业科协工作、引导和支持创新要素向企业集聚的战略部署,紧密围绕扬州发展创新型经济、建设创新型城市的目标
目的:采用临床随机对照试验,以符合诊断标准及纳入标准的失眠症患者为研究对象,采用参麦注射液穴位注射结合针刺治疗该病,并与单纯针刺治疗的对照组进行比较,以研究参麦注射液
针对包裹在棉包中的异性纤维进行检测与计量存在的难题,本文以皮棉开松设备和皮棉异性纤维检测、识别设备为重点研究对象,利用机械学、光学、电学、气力输送技术、机器视觉技术
近几年来,随着社会改革的推进,政府不断进行职能转变。与此同时社会组织发展迅猛,政府购买社会组织公共服务作为改革的新举措取得了一定的成就。但是当前我国政府购买社会组织公