论文部分内容阅读
随着web技术的更新,互联网络迎来了新一轮的大发展,在日新月异的信息时代里,人们可以在网络上获得更多有效的知识和数据。然而随着信息的爆炸式堆积和增长,人们需要一种简单直接的方式查看大多数信息和检索大多数问题。而论坛的普及和发展成为网络发展的一个重要分支。人们对于很多许多信息的分享,问题的求解都是在各类论坛上完成的。因此有效的对论坛文章进行信息抽取,简化信息,提出重点是一个日益迫切的任务。对于论坛信息文本的抽取来说,摘要的抽取是一个首要的工作。本研究主要就论坛上的信息文本进行摘要抽取,并且根据论坛的特点,进行了针对论坛特别是BBS这一平台的实用性的改进,而不单单是一个传统的文本摘要提取。对于论坛来说,承担的功能主要有两大类,第一类是信息发布和评论,第二类是信息索取和问答。针对这两大功能,本研究分别进行了摘要和有效回复的抽取工作。研究对于第一类摘要的抽取,提出了一个基于最大冗余相关算法和子话题聚类分析,并且综合上下文特征的算法。对于较长的论坛文章,抽取其摘要的步骤是,首先,进行子主题的连续句子间聚类分析,采用改进的K值选取和初始点选取的K均值聚类算法;其次,基于句子和文章间的相似度对句子进行分区段或者分聚簇选取;最后,对每个聚类子集进行句子级别的上下文及相关特征综合打分排序,得到了最后的输出。对比结果显示,本文提出的方法结果要好于基本的最大冗余相关算法,且实用性强;对于第二类的回复抽取,改进的采用了基于语言模型的关联模型算法,主要在于对基于问答语料集的词语关联度获取,用于原文与回复间的相似度计算,与向量空间模型不同,语言模型采用词语级别的相似度的累加。在大语料集的基础上,此模型的效果比向量空间模型略好。