平面几何图像中实体信息的抽取与表示

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:chamlea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代教育技术和人工智能技术的迅速发展,对学科题目机器解答的研究再一次变得火热起来。相较于其他学科,数学是一门以数量和关系为基础的学科,研究数学题目的机器解答是研究机器解答技术的一个很好的切入点。本文为了帮助实现平面几何题目的机器解答,对题目平面几何图像中实体信息的抽取和表示问题进行了研究。针对几何实体检测过程中遇到的图形重叠结构、虚线等情况,根据平面几何图像的特点,有针对地测试了实体检测的相关算法,并提出了多种后期优化处理策略,实现了较为鲁棒的实体检测流程和较高的检测精度。并随后从检测结果中抽取出了几何实体的有用信息,这些信息既可以通过一致化表示作为结果直接展示,帮助学生理解并自主探索题目的解答,又可以和文本信息整合,得到题目更为完整的信息,帮助实现平面几何题目的机器解答。本文研究内容主要包括两个部分。第一个部分是几何实体的检测部分,主要包括图像预处理、几何实体检测和检测优化三个步骤。通过实验分析与比较,本文选取自适应高斯核二值化算法对平面几何图像进行二值化,并对二值化后的图像进行8-连通域标记,以分割出相应的平面几何图形区域和标识字符区域。对于其中的平面几何图形区域,首先利用RANSAC圆检测方法对圆实体进行检测,并在检测后消除图像中圆实体的相关像素点,然后用渐进概率霍夫变换进行线段实体的检测,最后再通过大量的后期优化处理以保证更为鲁棒的检测效果,包括连通域标记优化、虚线的检测与恢复等,得到所有几何实体基于坐标系统的原始信息。第二部分是几何实体信息的抽取与表示部分,主要包括标识字符的OCR、实体信息抽取、实体信息表示三个步骤。其中对标识字符区域的OCR过程使用BP神经网络进行训练识别,并把对应的标识字符结果整合到离当前字符区域中心距离最近的点实体的属性信息中。同时,总结了平面几何图像中有效的实体信息类型,并给出了基于坐标系统的对应抽取方法。最后,根据所抽取到的实体信息使用谓词扩展表示形式、方程系统表示形式、自然语言表示形式三种方式进行一致化表示。本文最终形成了一个鲁棒的几何实体信息抽取与表示的统一框架,并在收集的图像数据集上进行了大量实验,对该框架的合理性与鲁棒性进行了验证。
其他文献
目前,全球范围内的垃圾邮件问题日益严重,不仅严重占用网络资源,威胁网络安全,更对人们的日常生活造成了严重困扰,给传统反垃圾邮件过滤技术带来了巨大挑战。云计算的出现和发展,打
图像分割是图像处理与计算机视觉领域中的基本技术之一,图像分割是指利用图像的灰度、颜色、纹理、形状等将一幅图像分割成若干个独立的有共同像素属性的对象,其实质是一个按
随着科技的发展和人们生活水平的提高,旅行已经成为越来越多的人生活中至关重要的一环,虽然现在有关旅行的应用系统很多,但真正能够满足用户实际需求的却很少,例如通过搜索引
虚拟心脏利用数学模型对心脏功能进行系统的仿真,以揭示其内部的运行机制以及临床医学和实验中一些无法解释的生理现象本质。该研究是一个集心脏解剖学、生理学、分子生物学
随着计算机的快速发展,软件产品在人们的生活中扮演越来越重要的角色,软件质量的重要性不言而喻,软件测试作为确保软件产品质量的重要方法,在软件的开发流程中所占的比重逐渐
随着大幅面扫描仪在更多专业领域的应用,用户在扫描精度和扫描速度上对其的需求也越来越多,进而使得新一代大幅面扫描仪的研究和开发更具现实意义。本文所述的大幅面扫描仪采用
随着互联网技术的不断发展与普及,IPv4地址不足的缺陷日益明显,作为以解决地址问题为首要目标的IPv6技术,逐渐登上互联网的大舞台。邻居发现协议是IPv6协议族中一个较为重要
近年来,随着容错技术的发展,软件容错技术作为一种提高软件可靠性的重要方法越来越引起关注。软件容错的主要技术包括:基于重复指令的错误检测技术(EDDI),基于数字签名的控制流检测
随着互联网科技的发展,人工智能在教育领域得到了广泛的关注与应用。通过机器解答数学应用题从而帮助学生提高解决问题的能力也是当前研究的热点,从更大范围上讲,教育机器人
近年来,由于互联网及多媒体技术的飞速发展,使得人们所接受的大部分信息是图像或视频信息,但是由于图像的底层特征与高层语义之间存在着一条难以逾越的鸿沟,视频字幕提可以有效获