基于动静态多源特征选取、对齐与融合的唇读方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hu1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇读、唇动技术作为一种新兴的智能人机交互技术,近年来正逐渐走向实用化。对唇动技术的研究,主要集中在唇动身份识别和说话人内容识别(即,唇读)两大应用上。本文主要致力于改进后者的识别性能。用简单的唇部区域视频序列反映复杂的发音过程、语言过程,必然要求研究人员能够提出有效的、全面的反映唇区视频序列信息的特征提取方法。然而,视频序列中包含有许多身份相关信息。这些信息的表达不仅对唇读问题没有改善,而且很容易就会影响到唇读问题解决的鲁棒性和准确性,而且即使是视频序列中包含的唇读信息也存在易混淆、不统一、遍布于图像结构的各个层次中的问题。如何将唇区视频序列所包含的语言信息全面、准确的提取出来,就是本文的研究出发点。针对唇读信息的复杂性,本文提出使用不同种类、不同性质的多源特征来解决唇读信息描述的问题。本文引入了LBP、HOG、Gabor等静态特征对于图像不同层次上的静态信息加以描述。相比于其他模式识别问题,唇读包含有更丰富的动态信息。本文提出了富信息帧的概念,通过富信息帧度量视频序列片段的动态信息积累,并在此基础上引入光流的方法,提取视频中的动态信息。然而,多源特征的结构复杂,量纲不同,表示信息的方式与结构各不相同。为了使多源特征能协同工作,必须进行特征对齐。本文提出了多源特征对齐的两条准则,并在此基础上以二源特征为例介绍了多源特征对齐的方法,进而提出了多源特征对齐与融合的框架,以及两种使用LBP、HOG、Gabor和光流等特征的特征融合策略。最后,将本文提出的多源特征提取方法与目前主流的特征提取方法进行了实验对比,并对实验结果进行了分析。本文提出的多源特征对齐、融合的方法是一个可扩展的框架,对使用的多源特征特征种类和特征数量没有限制,是为多源特征协同工作提出了一种新的思路。而且,只要对特征的种类和特征的数量加以选择,就可以很容易地推广到模式识别领域的不同应用中。
其他文献
随着网络技术的迅速发展,P2P网络技术得到了广泛的应用。P2P技术不断发展的同时,各种P2P业务应用产生的网络流量成为网络带宽的最大消费者,占用网络绝大部分资源,给管理和控制P2P
进入后基因时代,利用计算模型模拟几体心脏的生理活动,研究心脏的作用机制已成为一个新兴的热门研究领域。研究者利用计算模型,模拟从离子通道到几体心脏的生理活动,建立了心肌细
基于内容的多媒体检索目前是多媒体检索中的研究热点。其中在音乐检索中,哼唱检索是基于内容的检索方式之一,同时也是最为直接的音乐检索方式。哼唱检索由三大模块组成,即哼
随着互联网上金融信息的供给量和需求量的大幅度提升,如何准确满足用户对金融信息的需求成为一个亟待解决的问题。金融相关网站提供信息服务主要通过两种方式:人工编辑和基于
生物特征识别技术已广泛地应用在公共安全、智能系统、医学、军事等多个领域,内容包括人脸识别、指纹识别、虹膜识别、语音识别等。人脸识别具有不需要主动配合、直观、方便等
随着医学影像技术的迅速发展,CT、核磁共振和超声等成像方式在计算机辅助诊断,手术规划与仿真和放射治疗规划等方面已经得到了广泛地应用。通过对医学图像序列中的器官进行三
本文针对原有电厂现场采集控制系统传输速率低,双机切换耗时、任务接替丢失数据,实时性差等缺点,设计了基于PROFIBUS现场总线的双模热备份容错系统。本文在电厂采集控制系统中,创
目前,国内仪表校准和检定工作主要还是由人工完成的,这种人工读取数据的方式,存在着工作效率低,检测精度难以保证等缺陷。如何解决这些问题已越来越引起仪表生产厂商和计量检测部
软件测试是软件开发过程中控制软件质量必不可少的一种手段,随着新的开发语言和应用平台的不断出现,软件质量和可靠性保证面临着新的挑战。目前,针对面向对象软件的各种测试
早在公元前,利用脉象诊断人体疾病的脉诊就已经在许多传统医学中得到了详细的描述和记载,如中国医学(2500BC)、印度Ayurveda医学(1600BC)等等,并且有着广泛的应用。  然而,由于