Web新闻专题组织与生成系统研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:hankeycncn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展与普及,Web新闻信息呈爆炸式的增长。人们希望方便快捷地从海量的Web新闻中获取自己感兴趣的信息,并能了解某一突发的新闻事件或热点事件的前因后果和来龙去脉。应用主题检测与追踪技术、新闻来龙去脉生成技术,实现对新闻信息自动组织和专题生成,帮助用户有效地收集、检索和管理新闻信息,为用户提供高层次的信息服务,这在搜索引擎、信息监控、知识管理等应用领域具有极其重要的实用意义。本文首先分析新闻专题组织与生成系统的基本原理与结构,及其所面临的主要困难与相应的技术手段,然后分别就系统各主要模块的关键技术进行研究,主要做了如下五个方面工作:(1)研究了当前网页信息采集所遇到的困难,设计并实现了Web新闻信息采集器。该采集器对宽度采集优先策略进行改进,在采集过程中进行了网页类型判断。(2)详细地分析了Web中导航条、广告信息、版权信息等噪声内容使主题检测性能下降的问题,研究了Web噪声净化技术,并给出了一种基于向量空间模型的网页噪声净化方法。(3)研究了基于自适应重心的主题检测方法。新方法针对主题检测中事件动态发展可能会导致后继故事判断错误的现象,用命名实体作为特征项来表示主题重心,通过组合初始的主题重心以及每一次动态修正后的主题重心,构建用于检测后继故事的总主题检测器。。(4)研究了基于LS-SVM的新闻主题追踪方法。该方法利用隐含语义分析(Latent Semmantic Indexing,LSI)完成文本特征降维及语义表示,然后采用支持向量机(SVM)进行新闻主题追踪,从而实现语义层次的新闻主题追踪。(5)研究了基于NS-IMMC的新闻专题来龙去脉生成方法。该方法根据新闻结构特点(News Structure,NS)抽取文摘句;然后利用改进的最小最大聚类算法(Improve Min-Max Clustering,IMMC)对文摘句进行聚类,最后按照新闻文档的时间顺序输出文摘句生成多文档摘要,用来表示专题来龙去脉。
其他文献
利用竹材加工的废弃物制取纯天然水溶性绿色素--叶绿素铁钠,并对制备该色素的两个主要工序--皂化、铁代的最优条件及该色素的稳定性进行了研究.试验表明,用5 %NaOH溶液,在70
分析高中英语写作教学存在的问题和写作教学在高中英语教学中的重要性。概述支架式教学的定义、理论基础以及教学流程。结合同课异构课探究在高中英语读写教学中如何运用支架
李清照是我国历史上一位非凡的女作家,她的诗、词无论在思想性、艺术性上,都是有很高的成就。在思想内容上反映时代,干预朝政;怀念故乡,热爱祖国。在艺术特色上清丽典雅,语言
目的:了解宫外孕影响因素,通过对53例腹腔镜治疗宫外孕患者采用针对性护理与观察,为促进为进一步对做好宫外孕腹腔镜治疗的护理工作提供科学依据。方法:对患者基本情况调查,
古史辨运动促进了中国考古学的发展 ,而作为领导者的顾颉刚也十分关注考古学的研究成果 ,尽管他的主要精力放在考辨古史、古书上 ,但对于推进考古学在中国的建立和发展 ,起了
共享单车押金是当前共享单车行业发展中对用户和公司均产生重大影响的一种金融行为,出于共享经济健康发展的需要、共享单车押金具有准公共属性以及为了规范共享单车公司经营
目的探讨摄食因素对SD大鼠肝脏相对重量及组织形态学影响。方法称量禁食/摄食条件下,不同性别无特定病原体(Specific pathogen Free,SPF)级SD大鼠体重及肝脏重量,计算相对重
目前,慢光和超光速的研究很热,并且取得了很大的进展,但有关光速的连续可调方面的研究并不成熟。为改变现状,利用CPO技术,设计了一个新型的光速连续可调实验系统,在掺饵光纤
对虎杖(Polygonum cuspidatum Sieb.et Zucc.)中的白藜芦醇进行了提取分离和含量测定.考察了浸提温度、浸提液浓度、浸提时间和次数、料液比等5个因素对白藜芦醇提取的影响,
近些年来,随着全国经济的发展,西藏地区的经济规模也发展迅速,GDP增速持续保持高位,连续十几年呈两位数增长,尤其最近几年持续快速的经济增长,为保险业的发展提供了巨大的动