论文部分内容阅读
随着各种网页数据挖掘方式的发展,人们在Internet使用中能够更为快捷、精确地获取自己想要的信息。网页正文提取作为网络数据挖掘的研究热点,目前只能对网页的文本摘要进行提取,然而在人类接收的信息中,有80%来自于视觉,即图片信息,因此未来网页数据挖掘的发展趋势是人们不仅仅只需要文本摘要,也需要图片摘要。此外随着移动显示设备技术的发展,手机媒体传播信息成为了人们获取热点信息的一个重要途径,因此就更需要对网络数据进行摘要提取,以便使用手机媒体时,能够更为快捷、精准、直观地获取人们需要的信息。由此可见,未来对于网页正文提取研究的热点在于对网页的文字和图片进行摘要提取,让图片也能够像文字那样更形象化地表达出网页的重要信息。本文把这样一种新的摘要组合形式,定义为网页图文摘要。目前,与网页图文摘要提取的相关技术已在网易新闻手机客户端、今日头条手机客户端、Zake、Flipboard等移动应用产品上投入使用,这些产品对于新闻网页的处理大同小异。但手机客户端能阅读到的新闻内容,大多还停留在新闻信息人工输入阶段,由于人工处理的繁琐性,这就使得新闻的更新速度受到了限制。另外今日头条和Zaker等产品在以列表展示新闻时,只给出了新闻标题,没有新闻图片进行展示说明,然而有的新闻正文本身存在图片,这样的处理就局限了用户的阅读需求。而Flipboard的处理方式是当新闻正文存在多张图片时,新闻列表只默认显示第一张图片。网易新闻在进行摘要提取时,仅仅只对文本进行了处理,列表中展示的部分图片在原新闻网页中有时并不存在,这样的处理方式常常给读者带来不便。针对以上问题,本文提出了一种基于OWL本体构建的网页图文摘要算法(Extracting the Graphic-Text Abstract of Webpage Based on OWL,EGTAO)。本算法首先利用网络本体语言(Web Ontology Language,OWL)构建网页页面本体模型;然后根据该模型分别利用文本摘要算法和图片选择算法对文本和图片进行提取,在提取过程中,充分考虑文本、图片的语义特性,实现更为准确化、更为人性化的图文摘要提取。本文的研究工作主要包括以下三个方面:第一,本文使用网络本体语言(Web Ontology Language, OWL)构建OWL网页页面本体模型(Ontology Model of WebPage, OMW).在基于传统的DOM Tree表示网页结构的基础上,通过对网页各部分信息进行分类,建立各部分之间的属性关系ObjectProperty,然后通过这些属性关系将网页各部分关联起来,最终得到OWL网页页面本体模型。在此过程中使用了Protege本体构建工具,它能够清晰地展示出网页各部分之间的关联。第二,本文使用网页图片选择算法对网页文正文部分的图片进行图片选择。本图片选择算法在基于OWL页面本体模型的基础之上,通过遍历模型,提取图片的语义属性及图片在网页中的alt属性,将影响图片提取的多个影响因素都结合起来进行归一化处理,优化最终的影响因素,最终选取得到对网页正文最具代表性的图片。第三,本文使用网页文本摘要提取算法对网页正文部分的文本进行文本摘要的提取。本文本摘要算法在基于OWL页面本体模型的基础之上,结合传统的基于DOM Tree的网页正文提取算法,通过遍历模型,提取文本的主题关键词、主题标题、主题句等语义属性,将影响文本提取的多个影响因素都结合起来进行归一化处理,优化最终的影响因素,最终提取得到对网页正文最具代表性的文本。实验结果表明,与传统的方法相比,本文提出的基于OWL本体构建的网页图文摘要提取算法在图文摘要提取领域中,具有更好的准确性、代表性和提取内容相关性。本文所提到的图文摘要,特别是图片提取部分的研究,对未来移动应用的发展、移动设备的跨屏技术以及搜索引擎的搜索效率的提高具有一定的促进作用,同时对推进网页数据挖掘研究从理论层面过度到工业实现层面也具有较积极的意义。