在线网络中文本自动摘要系统研究和实现

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:xingjiena
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们已经越来越多的依靠互联网获取信息和资源,网络成为了人们生活中不可缺少的知识宝库。然而,由于网络中的资源太过丰富和庞大,为了使网络用户能够快速的找到对自己有用的信息,文本自动摘要技术应运而生。文本自动摘要技术利用计算机自动提取和生成文章的主题句,使用户能在最短的时间内掌握文章的主题思想,大大的减少了用户查找信息所用的时间,具有广泛的应用价值。近年来,文本自动摘要技术受到国内外学者们纷纷的的重视和研究,并且学者们也提出了很多优秀算法。本文结合数据挖掘、机器学习以及人工智能技术对文本自动摘要技术进行了深入研究,主要研究内容和工作如下:1)先前研究人员提出基于优化方法对文本进行自动摘要的研究,其思路主要是通过优化算法优化句子的特征属性权值,再根据权值计算每个句子的特征加权和。本文提出基于最优化问题的文本自动摘要算法,与前人的思路不同,主要体现在本文主要通过优化两个组合问题:摘要的特征权值和句子组合优化,算法的核心思想是:首先以摘要为单位,总结摘要的特征属性;接着利用遗传优化算法得到每个摘要特征属性的权值;最后再利用粒子群优化算法找出最优的句子组合即摘要。实验结果表明本文所提的算法在压缩率为20%和30%情况下,准确率、召回率和F-值分别达到0.4849、0.4843、0.4894和0.5998、0.8556、0.7052,可接受度分别达到0.75和0.8,其实验结果明显优于其他相关算法。2)本文从复杂网络的角度对文章句法特点进行分析与研究,发现句子与句子之间的复杂的关联度可以看作复杂网络的属性。与先前其他学者的研究思路不同,本文提出采用复杂网络的社团划分思想对文章进行主题划分,并给出五种不同的提取摘要的方法进行摘要的提取。在实验过程中,通过与先前学者的相关研究结果进行比较与分析,本文提出的算法在实验效果上更胜一筹,在压缩率为20%和30%的情况下,准确率、召回率和F-值分别达到0.5032、0.5365、0.5193和0.6503、0.8209、0.7257,可接受度分别达到0.8和0.85,在与其他相关算法比较来看,该算法在召回率上更有明显优势,这说明该算法提取的摘要更加全面的符合文章的主题。3)最后本文根据作者研究成果,开发了自动回帖系统,其中自动摘要技术是自动回帖系统中的核心技术,自动摘要的准确率越高,自动回帖系统越智能越有价值。
其他文献
近年来,由于拥有广泛的应用前景,无线传感器网络(WSN)得到了迅速发展。传感器网络由大量能够对外界环境变化作出反应的传感器结点组成,在典型的应用环境中,传感器结点散布在整个
在计算机、互联网和通信技术高速发展的今天,嵌入式系统取得了长足的进步。这不仅表现在从事嵌入式系统开发研究的人员队伍日益壮大,嵌入式处理器和实时操作系统的性能增强和产
近年来,工作流技术作为一种实现工作过程管理自动化、智能化的技术,已被广泛应用于医疗、办公、银行和制造等各个领域中。Petri网作为一种图形化和数学化的建模工具,可扩展性
本文的研究目标是实现在半导体蚀刻区通过自动化反馈控制系统来提高生产的自动化程度。半导体制造业是一个国家的高科技支柱产业,在国内半导体制造业处于一个蓬勃发展的地位
为了有效的支持决策分析,近几年人们提出了数据仓库的概念。数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。OLAP(联机分析处
随着网格技术的发展,网格研究持续深入,网格的安全问题开始凸显。作为网格技术事实标准的Globus工具集为了解决网格安全问题,采用多种关键技术实现了网格安全基础设施。 本文
随着IP技术的发展,IP网络中传输的不再仅仅是简单的数据,同时也包含音频、视频等多媒体信息流抽了支持多媒体业务,提供呼叫建立、会话控制、接纳控制等功能的信令协议必不可
企业利用信息系统的能力和企业自身的管理水平是支撑企业运营的两个重要基础。但是,现有的企业级系统的实施技术却存在着重大缺陷,无法满足企业管理的需要。本文以工作流技术
本课题以“江西消防远程服务网”为研究背景,以软件复用为研究目标,在仔细识别消防远程监控系统中软件复用机会、研究软件复用关键技术的基础上,使用UML(Unified Modeling Langua
医学图像三维重建是目前医学图像处理领域的研究热点。它从二维图像中获取三维结构信息,为用户提供具有真实感的三维图形。在诊断医学、手术规划及模拟仿真等方面有广泛的应