唇读技术的研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:csfyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多模态融合识别技术的飞速发展,唇读技术作为模式识别领域中的热点问题得以关注。唇读技术与指纹识别、虹膜识别、视网膜识别等相比,具有更加直接、便捷、适时的特点。唇读技术是新的人机交互模式的发展方向,是具有挑战性的研究课题。   本文在充分地了解唇读技术发展现状的基础上,构造了一个完整的唇读识别框架。具体内容是:将获取的视频文件转换成帧图像序列;对每幅静态帧图像进行预处理操作,即进行人脸检测和定位,实现唇部与人脸的分离;对唇形图像进行特征提取生成唇形识别特征向量;然后,使用模板匹配分类器和k近邻分类器实现唇形识别;最后,根据唇形识别结果,获得连续唇形所表述的语音内容,从而实现唇读。本文着眼于解决唇读识别过程中遇到的若干关键问题,从视频图像获取到实现唇读的整个过程进行了研究。在特征提取阶段,使用弹性模板参数为特征,曲线拟合算法为手段,生成唇形模式特征矢量。在唇形分类阶段,使用聚类可视化趋势方法确定聚类数目,解决了传统聚类算法缺少启发式知识的问题;同时,首次提出用卷积神经网络完成静态唇形图像的识别,降低了唇形特征提取过程带来的信息损失和计算代价;最后借鉴文本处理研究中广泛使用的“词袋”方法,将词频直方图作为唇读特征,实现了元音字母的唇读特征描述和识别。相关实验结果表明,本文提出的唇读识别框架和实现获得了很好的识别效果。
其他文献
增强现实是将计算机生成的虚拟信息与真实世界的叠加,而全景视频是将拍摄到的视频拼接后可任意角度拖动观看的动态视频。在一些受到保护且不便让用户进入的场景(如文物古迹、
一直以来,自动语义分析是自然语言理解的主要目标之一,然而由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化的语义分析形式,它只分析与句子中谓词有关成分的
数据质量已被公认为是数据管理的首要问题之一。针对数据质量管理领域的数据记录不匹配及不一致问题,本文分别从记录匹配检测及不一致修复两个角度出发,提出了基于CON模型的
由于有着标准化、简洁、结构严谨和可高度扩展等优点,可扩展标记语言XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档,这些文档
序列数据库搜索是生物信息学中的重要应用,具有计算密集型和可并行性的特点。由于生物技术的发展,序列数据库以指数增加,使得搜索越来越耗时,传统的计算机已经难以满足计算需求。
随着人民生活水平的不断提高,城市化进程的不断加快,现代城市各类公共场所人口和资源不断集中,各种风险和非常规突发事件的威胁日益凸现。非常规突发事件引起的行人疏散过程
在不影响意思表达的情况下,为了语言的简洁明了通常会省略部分语言成分,这种现象称为缺省。缺省是一种常见的语言现象,在汉语中更加普遍。国内外对于中文缺省的研究起步比较早,但
关联规则分析是数据挖掘中最主要的分支,其主要目的就是为了挖掘存在于事务数据库中隐藏的关系或者联系。随着大数据的普及,传统的关联规则挖掘算法暴露出的问题越来越明显,
数字多媒体数据极易在网络上复制、伪造、传播,数据的版权验证保护问题随之凸显出来。数字水印技术因成为解决这一问题的有效方案而受到广泛关注。但是目前大多数水印算法是嵌
当前,数据量的爆炸式增长使得对于存储的需求越来越大,而同时被存储的数据内部存在大量的冗余(例如数据备份系统生成的数据),造成系统存储空间的浪费。重复数据删除技术的出现缓