论文部分内容阅读
在公式搜索的特定领域,目前还没有完善的、针对具有非线性结构的公式进行检索的通用技术。SCOAP3系统中的高能物理领域科技文献中存在的大量公式,无疑是该领域学者研究和借鉴的重要内容,而现有的检索工具和系统还没有实现对这些公式的有效检索。 本文利用关系型数据库的检索技术,检索SCOAP3数据库中XML类型文档中包含的公式。实现了对包含在文档中的MathML格式和LaTeX格式公式的解析,提出了一种基于DOM(Document Objective Model文档对象模型)的公式索引及检索策略。论文开展的工作主要为:(1)分析公式表达格式MathML,针对MathML的特征及信息检索系统架构中公式检索的研究重点,确定了基于树形结构的索引生成策略。并采用关系型数据库进行公式的存储与检索。(2)提出了基于DOM树形结构的索引生成算法,将具有层级结构的DOM树形结构转换为关系型数据库中数据间的关系构建索引项。(3)基于构建的索引内容设计了公式检索算法。并通过实验对上述算法进行了实现,对该索引模型和方法进行了验证,表明该方法在对SCOAP3中的公式进行检索时的有效性。