论文部分内容阅读
随着电子信息技术的发展,人们获取信息的方式也逐渐呈现多样化的态势,在此背景下,传统出版业为了谋求更广阔的发展,将数字技术与出版流程进行融合,提出了数字出版这一理念。数字出版相对与传统的出版业,将计算机技术运用于整个出版流程之中,实现了出版技术和交付产品的创新,已成为了当今研究的热点问题。数字出版中内容重组技术可以有效地提高了出版物内容的重复利用率,提高了编辑效率,减少了资源的浪费,有极高的研究意义。本文着重于对内容重组领域关键技术的研究,主要包括了对XML文档基于关键字检索的优化,对XML文档查询返回结果的优化排序,并提出了基于XML语言的多样式重组模型。XML文档基于关键字检索的研究中,最常使用的语义为最小最低公共祖先(SLCA)语义。本文在对SLCA语义进行研究的基础上,提出了SLCA语义对单关键字查询效果不好以及SLCA语义返回结果粒度不精确这两项不足。针对SLCA语义的不足,本文在对XML文档的语义结构进行研究的基础上,提出了有意义节点的概念,并根据此概念提出了对于SLCA语义改进的算法,加入了对SLCA语义节点的筛选与处理。在本文的实验部分对SLCA语义和改进后的语义进行了结果准确率的比较,验证了改进后的算法返回的结果粒度更合理,更符合用户的需求。在研究XML文档基于关键字查询结果排序的问题上,本文首先分析了现有的查询结果排序模型和方法,分析了其不足之处,并对XML查询结果进行了语义特征分析,在此基础上提出了XML文档基于关键字查询结果语义结构的排序方法,该方法综合考虑了返回结果中节点的属性,相关程度和节点的属性,来对返回结果与关键字的相关程度进行评价。通过实验证明,该排序方法在查准率方面优于SLCA语义,提高了与关键字贴切返回结果的排序位置,使用户得到更准确,更符合需求的返回结果。在XML文档多样式重组模型中,通过分析XML文档内容片段的结构生成交付文档的语义结构映射表,再渲染该映射表生成最终的交付出版物。生成语义结构映射表的过程中,可确定最终交付文档的层级结构。在通过映射表进行渲染生成最终的交付出版物时,通过预处理将XML文档片段转化为具有固定格式的XML文档,根据需要选择生成交付出版物的样式,通过XSLT转换生成最终的交付出版物。