论文部分内容阅读
随着信息技术的高速发展和因特网的普及,Web已经成为人们获取信息的一个重要途径,从网上获取各种各样的知识成为人们日常工作的重要组成部分。近些年来,人们尤为关注诸如煤矿爆炸、飞机坠毁、恐怖袭击等突发事件的发生,国家和各级地方政府有关部门迫切需要准确地、全面地掌握国内外各种突发事件的发生情况和发展趋势,为及时采取应急措施和指定防范规划、计划等提供科学决策依据。如何在这海量的信息中搜寻所需要的信息,获取信息的主旨,如何快速阅读每天涌现出来的新信息,已经是一个迫在眉睫的问题。如何查找和利用用户所需的各类信息成为学术界日益关注的焦点和迫切需要解决的问题。根据用户的兴趣和访问的模式,主动向用户推荐相关信息(个性化服务)已经成为热点。然而解决这些问题都需要首先研究所处理的资源。目前,个性化推荐系统所处理的资源大多属于文本范畴。所以有关文本处理的各种技术得到极大的促进和发展,他们为计算语言学的发展注入了新的活力,而这些领域与文本结构分析有着十分密切的关系,后者是前者的基础。本文研究的目的就是在深入分析突发事件新闻文档特点的基础上,给出一种基于概念的突发事件新闻的文档结构,该结构从语义方面对文本信息进行了分析,为以后研究个性化推荐技术提供一点依据。本文的主要工作如下:1.分析突发事件新闻文档的特点。包括用词特点、兼类词的使用特点以及词性搭配特点等。并对每一类特点做出了详细的实例说明。2.利用知网对已经经过分词和词性标注的突发事件新闻文档进行概念映射,通过对概念密度的计算对突发事件新闻文档进行层次的划分。3.在已经对突发事件新闻文档进行了基于概念层次的划分的基础上,对每层进行基于统计的机械摘要提取,给出了一种突发事件新闻文档的结构表示形式。