【摘 要】
:
随着互联网的发展,视频、图像已经成为生活中主要的数据资源,其中文本信息具有高层的语义信息,是对视频内容最直接的阐述,可以用于视频的检索、分类、理解等多方面。图像文本识别在计算机视觉中引起了诸多关注,已经提出了很多可观的算法并达到了工业生产上的性能要求。相对于图像文本识别,视频文本读取研究比较少,但是工业上文本读取背景更多是使基于视频的,所以研究从连续的视频帧中读取文本更有意义。现有的视频文本提取的
论文部分内容阅读
随着互联网的发展,视频、图像已经成为生活中主要的数据资源,其中文本信息具有高层的语义信息,是对视频内容最直接的阐述,可以用于视频的检索、分类、理解等多方面。图像文本识别在计算机视觉中引起了诸多关注,已经提出了很多可观的算法并达到了工业生产上的性能要求。相对于图像文本识别,视频文本读取研究比较少,但是工业上文本读取背景更多是使基于视频的,所以研究从连续的视频帧中读取文本更有意义。现有的视频文本提取的流程多是首先在单帧图像上检测出文本区域,然后跟踪文本移动轨迹,最后对每个轨迹里的文本区域一一识别,同时可用多帧图像融合技术来进行文本图像增强,这些方法虽然在实践中证明了有效性,但还是存在几个不足:其一,基于单帧的文本检测没有充分利用视频文本的时空特性,而多帧图像融合依据关键帧的选取,且融合分辨率低的图像会导致图片模糊;其二,文本识别模通常使用RNN来构建语言模型,但是RNN特定结构限制了模型效率,且对文本区域一一识别导致高计算成本。本文针对这两个问题进行了研究,设计了视频文本读取框架,其中包括:文本检测、文本跟踪、文本识别,主要的研究内容如下:1.提出了基于多帧融合的视频文本检测模型,视频上的文本相对于背景在一段时间内具有不变性,如果每帧独立的处理可能会失去了帧间的联系。本文选取相邻的多帧图像首先经过特征提取网络,然后通过注意力机制网络自动选择并融合,提取更加有表达力的特征。2.设计了一个文本区域分类的算法,通过多任务方式与文本识别模型集成在在一起,使用文本识别的损失进行弱监督学习,从而避免了标签标注。对于跟踪生成的文本流,并不对每个文本区域进行识别,而是选择质量最好的进行识别,从而提高识别精度的同时减少计算花销。3.设计了一个全卷积的文本识别算法,保证了少量的精度损失的同时提升识别速度。在特征编码器中的网络中引入空间注意力和通道注意力模块,加强了网络对前景文本的关注和抑制背景噪声的干扰。
其他文献
通过研究表明,趣味物理小实验可以激发学生学习的兴趣和好奇心,不仅能够培养学生的观察能力和提问能力,而且能够培养学生的创新意识和创新能力。另外,集趣味性和知识性于一体
2018年,我国经济社会发展的主要预期目标完成较好,经济运行总体呈现稳中有进态势。导致部分指标放缓的因素已开始逐步改善,国内市场的空间仍然十分广阔。日前,中国宏观经济研究院
银屑病目前病因尚不明确,也没有彻底治愈的医疗方法和药物,仍然是一个世界性医疗难题。其在临床中有较多特征表现和变化,如何采用有针对性的治疗措施一直是医学界广泛探讨的
为了从深加工食品中提取高质量和数量的动物源性DNA片段,以优化后CTAB方法提取,用于PCR检测。根据鸭线粒体基因序列,设计合成检测鸭源性成分引物,进行PCR体系和反应条件的优
潘正炜是清代十三行商,著名的书画鉴藏家、书法家,听帆楼是其书斋室名。本文通过分析潘正炜的鉴藏活动,探讨了听帆楼的历史信息及其丰富的书画藏品,展示了其对岭南书画鉴藏文
铁不仅是宿主生长繁殖不可或缺的基本元素,也是绝大多数微生物必备的营养元素[1]。因此,铁已成宿主-病原体相互作用的关键决定因素,影响并调控多种胞内菌的生存和复制。已有
介绍了硅铁铁水包内衬原用耐火砖衬的结构及使用中存在的主要问题,论述了耐火浇注料的研制过程及浇注料包衬的施工工艺、结构和使用效果。
<正>新一轮课程改革的核心理念是:为了每位学生的发展.校本课程的开发已成为新一轮基础教育改革的一个亮点,越来越多的学校通过开发校本课程资源,凸显自己的办学特色.校本课
<正>信息化是当今世界经济和社会发展的大趋势,已经成为社会经济发展的主要推动力之一,正在改变着传统的生产和经营方式乃至生活方式。信息技术日新月异,它不仅是科技进步的
目的从中药苦参中快速分离纯化氧化苦参碱。方法采用反相C18柱色谱与正相低压干柱柱色谱从苦参的醇提物中分离纯化氧化苦参碱。结果经优化操作条件的反相柱色谱可去除非极性