基于支持向量机的音频分类技术研究与应用

来源 :北京邮电大学 | 被引量 : 10次 | 上传用户:hhlovels
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的发展,多媒体数据已成为信息处理领域中主要的媒体形式。其中,音频信息在多媒体信息中占有非常重要的地位。音频数据是一种非语义符号表示和非结构化的二进制数据流,缺乏对内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频内容的语义信息是音频信息深度处理、基于内容的检索和特定音频类别处理的关键问题。音频分类技术是解决这一问题的有效方法,是音频内容结构化的基础。本文主要研究如何选择与提取能够准确区分各种类别音频的特征参数,并选择一种有效的分类器对各种音频类别进行分类。本文对现有的音频分类技术及其应用进行充分研究,设计与实现了基于支持向量机的音频分类模块,应用于多个多媒体应用系统中。首先,本文对现有的短时音频信号处理方法进行分析;其次,研究了音频特征集构造方法,在已有的音频时域和频域特征的基础上使用PCA-LDA的方法构造音频特征集;然后,采用基于SVM的分类器,设计与实现音频分类模块;最后,将该音频分类模块嵌入到现有的自动字幕生成系统、色情信息过滤系统中。实验表明,引入PCA-LDA特征集构造方法的音频分类模块能够对音频信息进行有效分类。
其他文献
随着网络信息技术的发展,人们在日常工作中需要处理越来越多的文本信息,文本分类作为这一领域的关键技术近年来日益受到关注,传统的文本分类方法需要大量的已知类别文本来帮
由于XML是一种简单、开放、描述性的语言,随着信息技术的不断发展,XML不仅成为Internet上数据表达与集成的标准,更是被用于搜索引擎、电子商务、应用集成等多个方面,受到广泛
在“三网合一”的发展趋势下,西南交通大学四川省网络通信技术重点实验室提出了以“面向以太网的物理帧时槽交换技术”(EPFTS-Ethernet-oriented Physical Frame Timeslot)为
设计初期的错误,严重的影响着实现阶段的代码验证、测试、及运行维护期的成本和工作量。在应用建模阶段尽量减少错误,对提高整个软件开发的效率和质量,具有重要的理论研究意
因特网显著改变了人们的工作和生活方式,因此人们对因特网的研究和应用投入了很大的热情。为了解因特网的现状并预测它的发展趋势,研究人员越来越重视对因特网的拓扑结构和拓
智能客户端适用于多种终端设备,是针对移动应用的主流解决方案之一,集成了胖客户端和瘦客户端应用的优点,开辟了新的应用模式,提供内容丰富且响应迅速的用户体验、脱机工作能
模型拟合是计算机视觉中一个重要的研究领域,是鲁棒统计学、机器学习和图像处理等多个学科的交叉研究方向。模型拟合的主要任务是能够有效地拟合观测数据中所蕴含的所有模型实
语义问题一直是自然语言处理领域的一个难点。近年来,随着深度学习技术的逐渐兴起,越来越多的研究采用深度神经网络对语义相关的问题进行建模。在语义层面上开展研究,能更为有效
服务注册中心是SOA的重要组成部分,它负责服务的注册、发现和管理等功能,是维护SOA计算模式正常运行的基础。传统的服务注册中心采用集中式结构。随着服务数量不断增加,集中
随着计算机技术的发展及互联网的广泛应用,各行各业积累了大量的应用数据。如何对这样海量的数据进行高效而精准的学习成为亟待解决的难题,引起了学术界和工业界的广泛关注。面