【摘 要】
:
全球超过六千六百万的人遭受听觉受损的折磨,这一缺陷严重影响了他们对视频内容的理解。字幕标注技术在一定程度上能够帮助他们在观看影视作品时,同步理解画面内容、人物身份
论文部分内容阅读
全球超过六千六百万的人遭受听觉受损的折磨,这一缺陷严重影响了他们对视频内容的理解。字幕标注技术在一定程度上能够帮助他们在观看影视作品时,同步理解画面内容、人物身份、对白语意等。然而现存的大多数字幕标注技术远远不能满足听觉障碍者理解与欣赏视频的需求。本文介绍一种无需脚本的动态字幕生成技术,其中包含说话人分割与聚类、语音盲源分离、自动语音识别、人脸检测等关键技术。本文描述的动态字幕生成方法,是将生成的字幕动态地显示在说话人人脸附近,与传统的静态字幕标注技术相比,并非简单地放置于特定的位置,如屏幕底部等区域。听觉障碍者能够较为迅速地分辨出说话人的身份信息,并获取有益于理解故事情节的语言台词,无需在画面与对白之间不断切换而导致注意力的分散,从而更好地欣赏视频作品。本系统侧重脚本无关,拟在采用声音及视觉技术,将声音信息通过自动语音识别直接转化为文本信息,与已有的动态字幕标注技术相比,不再依赖字幕-脚本文件,从而可以广泛使用。无需脚本的动态字幕生成技术主要包含三大模块:1、人脸与字幕的匹配;2、字幕标注的放置;3、设计界面与校正错误。本文着重介绍第一模块,它是后续工作的基础,也是整个系统的核心,其正确率影响系统的可行性,同时直接影响第三模块中人工校正错误的工作量。在该模块中,通过说话人分割与聚类系统实验的改进、语音盲源分离方法的优化,从理论上阐明人脸与对应语音成功匹配的可行性,再通过较为成熟的语音识别技术,得到人脸与字幕的对应关系。
其他文献
全光场相机是一种基于光场成像的新型成像系统,它通过在主透镜与传感器之间加入微透镜阵列来获取场景的四维光场,即二维空间信息和二维角度信息,具有其它传统相机无法相比的
电子商务、电子政务及网络的普及使得信息安全变得越来越重要,同时,由于Web的广泛性和易用性等原因,基于Web的应用成为网络应用中最具有代表性的一个方面,为Web应用系统的提
1.前言 新型混凝土横孔连锁空心砌块(如图1.1)新研发的一种新型墙体材料,它弥补了目前国内外采用的竖孔空心砌块的不足。干砌的填充墙体内部方便布置横向管线,并可在墙体内布置水平横向钢筋混凝土带,墙体刚度大,整体性好。采用新型混凝土横孔连锁空心砌块干砌的填充墙体,符合国家墙体改革的宗旨和要求,更具有干砌、防渗、轻质、抗裂、节地、节材、保温、隔热、节能、环保等多种优点,克服工程建设通病、提高工程质量
环境噪声和竞争说话者的干扰是语音通信过程中常见的干扰情况。人的听觉系统可以在嘈杂的多个讲话者的环境中区分和跟踪自己感兴趣的语音信号,并分辨出自己所需要的声音,这种
作为短距离无线通信的关键技术之一,特别是室内通信领域,超宽带(Ultra-Wideband,UWB)一直受到广泛关注。这主要根植于超宽带信号的独特优点:以低占空比的冲激脉冲避免符号间
传统的固定视频业务已经难以满足媒体信息多元化的要求,随着全球移动数字电视广播网络的建立和完善,手机电视和DMB(Digital MultimediaBroadcasting)产品正在悄然兴起。2005
由于数字图像/视频的数据量巨大,对其进行压缩编码以便于存储和传输是普遍的做法。传统上衡量一种图像/视频编码算法的主要指标有两个:压缩效率和重建质量。怎样以最小的数据
图像/视频压缩编码是实现多媒体通信的关键。传统基于块的视频/立体视频压缩编码算法,因其平移的块运动/视差模型不能反映图像的真实运动/视差场,所以在甚低码率下,预测图像几乎
摘要:输变电,就是由不同电压等级电网组成的送点网络以及连接这些电压等级的变电站所组成的系统。输变电的建设工作当中,电网是最核心和最重要的部分,到目前为止,我国的电网建设覆盖率已经达到了百分之八十的水平,电网建设的问题解决了之后,就是在书店过程中产生的电磁辐射的影响问题。电磁辐射无论是对热闹的身体还是周边的环境都有加大影响,好在我国已经开始着手对电磁辐射周边环境的问题提出方案计划了。在本文当中会结合