论文部分内容阅读
随着互联网的迅猛发展与普及,Web新闻信息呈爆炸式的增长。人们希望方便快捷地从海量的Web新闻中获取自己感兴趣的信息,并能了解某一突发的新闻事件或热点事件的前因后果和来龙去脉。应用主题检测与追踪技术、新闻来龙去脉生成技术,实现对新闻信息自动组织和专题生成,帮助用户有效地收集、检索和管理新闻信息,为用户提供高层次的信息服务,这在搜索引擎、信息监控、知识管理等应用领域具有极其重要的实用意义。本文首先分析新闻专题组织与生成系统的基本原理与结构,及其所面临的主要困难与相应的技术手段,然后分别就系统各主要模块的关键技术进行研究,主要做了如下五个方面工作:(1)研究了当前网页信息采集所遇到的困难,设计并实现了Web新闻信息采集器。该采集器对宽度采集优先策略进行改进,在采集过程中进行了网页类型判断。(2)详细地分析了Web中导航条、广告信息、版权信息等噪声内容使主题检测性能下降的问题,研究了Web噪声净化技术,并给出了一种基于向量空间模型的网页噪声净化方法。(3)研究了基于自适应重心的主题检测方法。新方法针对主题检测中事件动态发展可能会导致后继故事判断错误的现象,用命名实体作为特征项来表示主题重心,通过组合初始的主题重心以及每一次动态修正后的主题重心,构建用于检测后继故事的总主题检测器。。(4)研究了基于LS-SVM的新闻主题追踪方法。该方法利用隐含语义分析(Latent Semmantic Indexing,LSI)完成文本特征降维及语义表示,然后采用支持向量机(SVM)进行新闻主题追踪,从而实现语义层次的新闻主题追踪。(5)研究了基于NS-IMMC的新闻专题来龙去脉生成方法。该方法根据新闻结构特点(News Structure,NS)抽取文摘句;然后利用改进的最小最大聚类算法(Improve Min-Max Clustering,IMMC)对文摘句进行聚类,最后按照新闻文档的时间顺序输出文摘句生成多文档摘要,用来表示专题来龙去脉。