【摘 要】
:
随着信息社会的高速发展,人们的日常生活与各种信息技术息息相关。语言作为人类之间互相交流的载体为人们的生活带来了许多便利,然而在这个世界上还有很多人可能生来就无法享受
论文部分内容阅读
随着信息社会的高速发展,人们的日常生活与各种信息技术息息相关。语言作为人类之间互相交流的载体为人们的生活带来了许多便利,然而在这个世界上还有很多人可能生来就无法享受用听觉来感知语言的魅力,唇语作为视觉为基础的语言载体为他们带来了另一种可能性。与此同时,唇语对于拥有正常听力的人来说也有着极大的助益,在嘈杂的地方辅助交流,或者是在重要的侦查工作中,只能远距离通过视觉信息来了解对方表达的内容等。然而人类对于唇读并不擅长,这些因素综合决定了唇读的研究有着重要的价值。 目前,中文唇语方面已有的主要工作集中在改进唇部特征的提取上,使用的数据集一般为实验室环境下自行采集的限定唇形的数据。然而过于理想化的实验环境与限定的问题规模也导致唇读的研究始终无法走出实验室,真正应用到人们的日常生活中,很重要的原因在于真实环境中光照,人脸姿态,大小等变化极大,原本辛苦优化的唇部特征提取算法会在整个流程的第一步就无法进行下去。同时采集数据方式的费时费力也导致数据集的收集工作很难拓展到各种中文环境中。 本文从日常生活环境中的唇读场景出发,针对中文唇语数据集的构建困难问题以及任意长度唇部图片的识别问题提出了有效的解决方法。针对中文唇语数据集的构建,本文直接放弃了实验室限定下的数据采集与人工标定工作,而采用更具有可扩展性的互联网视频作为基础资源,通过足够稳定的人脸检测,唇部提取方法获取唇部序列图片,通过静音检测,语音识别等方法获取对应中文内容,自动的构建大规模的中文唇语数据集。针对任意长度的唇部图片的识别,我们第一次提出了端到端的神经网络,借鉴语音识别的思路,对变长的唇部序列图片进行编解码,来有效解决变长中文唇语的识别问题。 最终,我们构建出了可任意继续扩展的足量中文唇语数据集并通过其训练了对应的中文唇读模型,相较于以前的方法有着极强的可扩展性以及普适性。
其他文献
虚拟企业作为21世纪最有发展前景的商业策略之一,是由多个独立的、地理位置分散的企业或组织通过协同合作和资源共享组成的动态联盟,它们以最小的投资、最快的反应速度响应市
LTE(Long Term Evolution, LTE)项目是第三代移动合作伙伴计划(3rd Generation Partnership Project,3GPP)对通用移动通信系统(Universal Mobile Telecommunications System,
事件相关电位(Event related potentials, ERPs)是在给予人体视觉、听觉或感觉等刺激下产生的脑诱发电位,作为对人脑认知功能研究的重要手段,被广泛应用于认知神经科学和临床
车载网络(VANET)是应用于车辆之间的一种特殊的无线自组织网络,作为智能交通系统的重要组成部分,车载网络已经成为近年来热门的网络通信技术,有着巨大的发展潜力。借助车载网
新一代长期演进增强(Long Term Evolution Advanced, LTE-A)系统采用正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)技术进行信号传输。OFDM信号对频偏和
在科学技术蓬勃发展的基础上,全球信息化的建设不断深入和完善,网络给世界带来了巨大变化。现如今出现各种新型网络应用,网络用户也骤增,使得现有的网络资源异常紧张。怎么样
目前,新的移动通信系统在宽带化的过程中,所支持的数据数率不断提升,所能够提供的业务类型不断扩展。在业务量激增的情况下,小区内的业务分布会更加不均匀,在一些用户分布比
随着通信业务的急速发展,调制模式的多样性使得电磁环境日趋复杂。如何对调制信号进行有效的识别,无论在民用领域还是军事领域都具有相当重要的研究意义。针对现有算法在低信
频谱感知是认知无线电的关键技术之一。授权用户的信息大多都是保密的,因此获取先验信息有一定难度,同时认知无线电应该能运行在不同平台和通信标准中。因而有效的频谱感知方
光放大器在现代光通信系统中具有重要的作用,基于四波混频原理的光纤参量放大器具有工作波长范围灵活、宽带宽、高增益、噪声以及高相敏等优点,因而参量放大成为近几年的研究