基于视频与文本信息的说话者人脸标注

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tonycheungqd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于视频信息的说话者检测,就是不借助音频信息,单从说话者的嘴唇动作来判定谁在说话的检测方法。涉及到的相关技术有视频镜头分割、人脸检测与跟踪、嘴唇区域定位以及唇动判断。对于人名的标注,同时需要文本信息的辅助,考虑到字幕和剧本各自的特点,需要进行二者的融合。在字幕和剧本的融合中,本文引入了动态时间规整算法,采用这种算法的思想,以单词为特征进行融合,取得了不错的效果。对于人脸的监测与跟踪,考虑到检测的准确率、效率以及代码复用,本文采用OpenCV视觉库中的AdaBoost算法和MeanShift算法,这种组合方法经过相关研究的实验验证,取得了比较好的检测和跟踪效果,故而本文用这种方法进行人脸序列的提取。嘴部检测一直是唇读领域研究的内容,本文将其引入到说话者检测中的嘴唇区域定位过程中。考虑了相关文献中提出的方法,利用唇色这一天然特征来提取唇色相近区域,并在此基础上加以改进,进一步的确定嘴唇区域。经测试观察取得了良好的效果。之前的研究中,在说话者检测中采用的唇动判断方法,不像唇读中所使用的方法那么复杂,大都是对相邻帧的嘴部区域做帧间差,并设定阈值,以此来判断相邻帧之间是否有嘴唇的变化,判断为唇动。本文引入了机器学习的方法,通过提取嘴唇区域的多种特征,利用训练的分类器来进行唇动的判断。经实验验证,正确率及鲁棒性都有了很大提高。相关文献中采用的检测说话者的方法,是基于单帧图像来进行判断,即判断某一帧图像中人物是否在说话。对于在一个图像序列中,某个人脸序列只是唇动但没有说话的情况,这种方法无法进行区分。因而本文选择的判断方法是基于图像序列,即判断在一段时间内,视频中的人物有没有说话。本文提出的方法更符合实际情况,同时也取得了比较好的实验结果。
其他文献
在很多实际应用中,数据的类别之间存在一种自然的序关系。例如,我们用1~5星去评价一部电影,3星评价高于2星评价,而4星评价低于5星评价。和标称数据不同,我们称这样一类数据为
在多核单机系统上,多个共享资源的线程或进程间的交错执行是不确定的,导致并行软件难以开发、调试,存在安全隐患。为保证线程或进程交错执行的确定性,课题组已提出确定性生产
车牌识别技术在智能交通系统中占有非常重要的地位,车牌识别系统主要包括车牌定位、字符分割和字符识别三大部分。其中,车牌定位和分割的结果对后续的识别起决定性作用,所以
对于领域性的信息检索系统来说,准确率的要求往往是其最为关心的,因为目前通用的信息检索系统对于具有高度领域性的信息来说并不能展现出良好的效果,甚至远远达不到可用的程
随着因特网的发展,网络信息量正突飞猛进地增长,人们越来越依赖搜索引擎来准确地获取所需的信息。搜索引擎在为网民提供便捷的搜索服务的同时,也影响着网站的发展前景,所以搜
生物医学文本挖掘的目的是借助文本挖掘技术帮助生物医学研究者从海量文献中更有效地找到所需信息、发现隐藏的生物医学知识。通过对孟德尔人类遗传在线(Online Mendelian In
近年来,随着手机用户的不断增长,短信已经在人们的日常生活中发展成为一种非常重要的交流方式,同时,由于短信的高效,低成本和无时空限制等优势受到了越来越多企业的重视。然而,目前
目前,随着网络技术的发展和各种网络应用的普及,与传统的静态HTML页面相比,蕴含数据更加丰富,质量更高的网络数据库正引起研究人员的广泛关注。然而,在特定的应用领域,由于不
在企业管理软件中,业务构件可以通过参数化和配置技术被复用以适应业务需求的变化,这种构件粒度大、可变参数多、结构复杂,难以开发。业务构件是所要处理的业务对象(如业务单
现阶段搭载多核处理器的网络服务器平台越来越普及。而操作系统是在单核处理器时代开发,无法充分发挥多核处理器的强大处理能力,所以对串行协议栈进行并行优化具有重要意义。