复杂场景下的音频序列切分方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kyoukini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂场景下的音频序列切分是对音频做深度处理的基础和前提,对音频后续处理工作具有重要的影响。在许多实际应用的场景中,如语音识别系统、说话人识别系统和语音自动标注系统等,首要任务是对输入语音信号进行精确检测,找出语音段的起始和终止点。目前很多音频分割的研究工作面向纯净的语音信号展开,但是对于含有背景噪音的音频无法做出准确的分割。针对研究工作的需要,构建了复杂场景下的音频序列数据集。通过对采集到的复杂场景下的中小学教学音频数据进行数据预处理和规范化标注等工作,完成构建了共计时长62.32小时的语音语料,为复杂场景的音频序列切分任务的研究奠定了数据基础。针对复杂场景下的音频序列切分问题,完成了两种音频切分模型的构建,分别是基于深度学习的单一模型以及基于深度学习和贝叶斯信息选择的混合模型。单一模型以深度残差网络(Res Net)为模型结构,由于声学特征以语谱图的形式呈现,考虑到深度残差网络在图像处理中的优异性能,我们将深度残差网络引入语音的切分任务中,并在已有的复杂场景数据集和纯净的公开数据集上分别开展实验,通过三种深度学习模型和两种机器学习模型的对比实验结果验证了深度残差网络在该任务上的优越性。混合模型结合了双向长短时记忆网络(Bi LSTM)、深度残差网络(Res Net)和贝叶斯信息选择(BIC)三种模型方法各自的优势,弥补了单一模型的不足,对语音信号做了更精确的切分,并且对比分析了单一模型和混合模型各自的优劣势和适用场景。根据上述两种模型的预测结果,实现了对于给定音频输入文件给出切分后的多个音频片段的复杂场景下的音频序列自动切分系统。
其他文献
目前,仿真应用越来越向分布式、网络化发展。随着仿真应用规模的增长,系统中的节点数量、节点交互数据的规模和频率也迅速增加。网络作为仿真系统各个资源的连接器,其数据传
近年来,随着人工智能、虚拟现实等智能科技的迅速发展,基于视觉的手势识别因其简单、自然、直观和非侵犯性等特性已成为人机交互的重要组成部分和研究热点。手势分割作为手势
随着大数据时代的来临,互联网网络规模的日益扩大和承载业务种类的逐渐繁多,网络流量呈现惊人的快速增长。如何有效地对网络应用流量类型进行快速且准确的识别分类,成为一个
光纤陀螺惯性导航系统以高精度、低功耗、高可靠性的优势越来越多地被应用于空间卫星的姿态控制中,光纤陀螺应用在空间中其误差会受到辐射效应的影响,进而使光纤陀螺的性能发
近些年来,数字信息呈喷薄式地增长发展,逐渐被广泛地应用到科技发展的各个领域当中。数字彩色图像由于具有特殊的颜色、纹理和形状等特点,从而成为了多媒体数字信息中应用最
随着大数据与人工智能时代的到来,数据与智能在我们的生活与工作中扮演着举足轻重角色。数据挖掘作为大数据与人工智能应用最为广泛的一条技术分支,其中的数据挖掘算法的性能
大数据时代到来,数据规模的快速增长和应用的高时效处理需求对处理器结构和并行计算机系统结构提出了新的巨大挑战。图搜索问题是大数据研究的热点问题,被广泛应用于科学研究
重识别技术旨在从不同的拍摄场景中识别出相同的目标,是智慧城市以及智能视频监控研究领域的重要分支。视频监控中车辆重识别是重识别技术需要解决的问题之一,其中通过车辆的
语言是我们最重要的交流工具,而词语是语言的建筑材料、载体,词语教学又是组成小学语文教学的重要部分之一,所以我们要对词语教学重视起来。词语教学作为学生进行阅读、口语交际、写作等活动的基石,在小学语文当中所占的位置是非常重要的,对学生语文素养的提高以及听、说、读、写等各个方面能力的培养和发展都有着至关重要的影响,尤其是对于低年级的小学生来讲,建好这座基础的桥梁显得格外重要。然而当前的词语教学中还存在着
学位
伴随生物信息科学在近些年来的飞速发展,生物特征识别技术迅速融入到当今人类社会活动的方方面面。当今常用的生物信息包括,掌纹、指纹、虹膜、人脸、步态等。其中,人脸信息