基于LOF和波动阈值的古籍图像版面分析

来源 :河北大学 | 被引量 : 3次 | 上传用户:wa0002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国历史悠久,珍贵的古籍藏书丰富,随着计算机技术的高速发展,利用计算机辅助古籍研究是必由之路。古籍图像版面结构复杂,对其进行有效、准确的分析是实现古籍汉字识别与检索的前提和基础,本文从以下两个方面对古籍图像展开研究。(1)古籍图像非正文成分提取针对古籍图像中存在印章、批注等非正文成分,影响版面分析准确性的问题,分别设计了基于自适应Canny算子的印章定位方法和基于Mask R-CNN的批注提取方法。对于印章,利用改进的自适应Canny算子提取古籍版面印章区域边缘轮廓信息,选择形状参数提取印章特征,实现古籍印章与其周围汉字的分离。对于批注,首先,使用Labelme图像标注工具对古籍图像批注数据集进行标注;其次,利用Mask R-CNN模型实例分割古籍批注图像,得到预测结果Mask图;然后,对比不同深度ResNet网络对Mask R-CNN识别效果、速率的影响,选取最优网络架构;最后,采用二分K-means算法对Mask图进行聚类,实现古籍批注成分的提取。(2)基于LOF和波动阈值的古籍图像版面分析方法针对古籍版面成分多样、古籍汉字结构复杂且风格多变的特点,提出了基于LOF(Local Outlier Factor,局部离群因子)和波动阈值的古籍图像版面分析方法。在对古籍图像进行倾斜校正预处理的基础上,首先,通过对大量古籍图像的分析,归纳古籍图像的版面特征;其次,采用基于LOF的分类算法对古籍图像投影分割后的版面区域进行分类,确定存在分割问题的候选混合区域;最后,利用波动阈值对候选混合区域中的文字与框线粘连部分进行分割,确定古籍版面中的文字区域并输出。采用《文渊阁四库全书》、《杜工部集》和《传习录》等,古籍汉字研究主流文献所包含的11560幅古籍图像作为实验数据集,对所实现的古籍图像版面分析系统进行了实验,并与基于连通域分析的、基于神经网络的和基于特征值的版面分析方法进行比对。本文方法对古籍汉字图像检索的准确率和召回率分别为87.02%和81.31%,且效率较高,主要性能优于对比方法。表明所提出的古籍图像版面分析方法与同类方法相比,能够有效地对古籍图像进行分析,定位文字区域和非文字区域,从而为实现古籍汉字图像的检索与识别打下基础。
其他文献
水稻是我国最主要的粮食作物之一,种植面积和产量在我国粮食作物中位居首位。目前我国水稻育种研究方向由过往的高产追求逐步向优质高产并重过渡,同时,大力倡导“高产、高效、安全”的绿色栽培管理模式。本研究主要针对新选育的11个不同中稻品种产量和品质的差异进行比较,并初步探索了减量30%施肥对不同中稻品种在产量、品质、株高等方面的影响,以期为优良品种选育和节肥高效栽培技术研究提供理论依据。主要结果如下:(1
随着航空航天、汽车、电子、军工等领域的快速发展,具备结构功能一体化的B4CP/Al复合材料越来越受到研究人员们的广泛关注。传统高含量微米B4CP增强体在提高B4CP/Al复合材料
管道存在有几处压气站处管地电位(PSP)失常的现象,尤其在地磁扰动发生时,管道PSP失常幅度最为剧烈。这种现象使管道的寿命受到影响,同时也使得管道的正常运行受到干扰。本文
当前,我国正处于专利法第四次修改的背景之下,专利法第四次修改草案送审稿第一次规定了专利当然许可制度。引入专利当然许可制度其主要目的在于解决专利许可供需信息不对称、
海洋石油工业的发展逐步从浅水延伸到超深水,伴随着水下装备重量、尺寸、结构等的不断增加,滑轮安装法作为超深水安装水下装备的方法之一,因具有承载性能更好、适应性水深更
近些年以来,国内围绕着商标俗称的纠纷相继出现。从一系列典型案例中可以看出,当原商标权人将自身的产品投放到市场上之后,社会公众出于形象简捷表达之目的,针对原商标权人的
聚类算法是一种无监督的算法,它在没有教师信号的情况下对数据进行分类。支持向量聚类算法的优势是:对于任意形状和数目的数据集理论上可以通过调节核函数的参数识别任何形状的簇;它对噪声数据点不敏感,可以避免噪声数据对结果的影响;它利用核函数把数据映射到特征空间中,解决了线性不可分的问题。支持向量聚类算法的高耗费和低性能成为了它的短板。本文在原有支持向量聚类算法基础上在以下两部分进行改进:1、在目标函数训练
三元硫化物半导体纳米材料展现出丰富的组分、结构和性能以及多领域应用前景。目前针对此类材料的理性设计及可控合成,机遇与挑战并存,特别是一维线状、棒状纳米结构的制备难
光化学降解是地表水中有机污染物主要的消除途径,溶解性有机质(DOM)在水中有机污染物的光降解过程中发挥重要作用。DOM吸收太阳光能量可产生多种光活性中间物种(PPRIs),如:激发三
可持续的光催化技术以其直接利用太阳光、常温下高效降解有机污染物和无二次污染等优异的性能成为理想的环境污染治理新技术。但是,普遍使用的二氧化钛(Ti O2)光催化剂尽管具有