基于3D卷积的唇语识别的研究与设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:yxx1314521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的日渐成熟,可以应用到的场景也就越来越广阔。因为唇语识别需要从讲话者运动中的唇部提取所需要的信息来获取讲话者所想要表达的内容。但是由于语言种类的多样性以及唇部运动变化的微妙性,使得唇语识别的发展一直以来都不是像有的技术那样可以飞速发展。不像其他的仅仅只是由字母组成的语言,汉字更加的复杂,汉语拼音有超过1000多个的发音,而汉字的个数也超过了9000多个,这些就使得中文唇语识别更加地困难。在本文唇语识别的研究过程中,将网络模型分解为两个部分,图像模型和语言模型,这种分解的做法有助于本文实验的进行。在图像方面本文首先采用3D卷积神经网络来提取包含有时空信息的图片特征。第二个部分本文采用基于语言模型的Encoder-Decoder神经网络模型来处理。在第一个部分当中,本文使用经过改造的3D卷积网络来提取输入图片序列的时空信息,接着本文将3D ConvNet的输出输入到一层结构的GRU当中,在拼音序列识别网络的最后本文使用CTC来作为本文网络的损失函数来对网络进行训练,上面的这一个网络的构建过程就构成了本文的汉语拼音序列识别网络PTP(Pictures to Pin Ying)网络模型。之后,本文使用Encoder-Decoder编码模块,使用这样的语言模型来处理本文上个网络所输出的数据,输入的汉语拼音序列先经过Encoder编码模块的处置,然后再是经过Decoder解码模块进行解码,最终才会输出输入图片所对应的汉字序列,上面所述的网络构建步骤就是本文网络的汉字序列识别模块PTC(Pin Yin to Chinese Characters)网络模块。在研究当中本文使用了数据较为丰富的自制中文唇语数据集,数据集的大小为20.95GB,并且对该数据集进行了处理,对其中的每一个样本都增加了其梯度图和光流图。实验结果表明本文使用3D卷积实验所得句子准确率为47.3%,而原有的基于2D卷积实验得到44.9%句子准确率,系统模型整体准确率有了较为显著的提高。根据我们的实验结果,我们的方式不仅能够加快网络的训练,也能够在一定程度上避免过拟合,并且为后续的相关研究提供了一个最基本的衡量标准。
其他文献
道德哲学在抹去哲学的“神秘性”之后所澄明的道德世界观和思维方式激发了道德哲学的“生长点”,道德与利益的奠基地位得以确证,而利益均衡获得了道德哲学的社会价值精神之辅撑
【正】 经济、技术、社会协调发展是与现实联系非常密切的理论问题.从三者关系看,经济是基础,技术是关键,社会发展是目的.一切社会的发展,总是以经济发展为基础,只有生产力发
【正】 在当今时代,人的主体性与人类前景的关系问题获得了越来越普遍的社会关注,政治的、经济的、历史的、哲学的等等。在这种多元化的人学反思中,我们不能回避两个最为基本
研究背景世界范围内,肺癌是致死率最高的癌症之一。肺癌可分为两种:小细胞肺癌(small cell lung cancer,SCLC)和非小细胞肺癌(non-small cell lung cancer,NSCLC)。其中,NSCL
耳廓外伤可由车祸、刀割、牙咬等各种原因造成。临床上如果不及时处理或处理不得当,很可能会导致患耳感染,造成不同程度的耳廓缺损及畸形。我院于2008年3月~2010年8月共收治耳
智能建筑技术的实施是一项复杂的系统工程,涉及到的方面很多。本文作者通过工程设计与工程组织实践,着重介绍了智能建筑技术实施过程中,参与合作的单位和部门应分担的工作以及作
汉英翻译与英语写作其实有着很大的联系,两者都是用英语进行表达,都需要考虑到英语中的选词、造句、组段等方面的问题。英语写作中的一些原则也是译者进行汉英翻译的基础,可以帮助减少中式思维下写出的中式英文。笔者比较“双一流”英译项目的初译与审校之后,总结了外籍审校对初译进行改动的一些规律,发现这些规律遵循了英语写作中的一些指导原则,主要是在清晰、衔接与连贯和表达简明这三个方面。这三个方面是汉英翻译与英语写
运用疏肝药物来疏调肝脏和肝经气滞,以维护肝主疏泄的正常生理功能的治疗方法称为疏肝法。现就本人在学习中的体会来谈谈疏肝法及其常用方药的临床运用。
【正】 自1983年以来,武钢以转换机制为突破口,锋芒直指人事、劳动、工资制度的管理体制,多次深入地进行了大胆改革,努力向以解放企业生产力为重点的多种运行机制转换,使企业
叙述了空调决策引用的资料。重点列出了风、水两个决算表。分析了决算表中的某些指标。