基于二维特征集合的文本计算方法

来源 :济南大学 | 被引量 : 1次 | 上传用户:dufuyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的快速普及和计算机各方面性能指数的不断提高,网络已经渗透到人类生活中的方方面面。网络迅速成为信息来源的主力军并且这些信息还在以指数级别在增长,挖掘出这些信息背后蕴藏的知识能够有效的帮助企业或者是个人做出最符合的实际的决策来实现利益最大化,因此互联网已经成为数据挖掘的主要应用领域。与此同时,人们通过网络接触到的信息绝大多数都是以文本的形式传递的,可以说,如何有效的处理文本是未来信息处理技术的一个关键性问题。这些年来,针对于文本的信息处理技术不断成熟,一些新的文本挖掘算法,文本特征提取算法或者是文本相似度计算方法被学者们不断提出,这些新思想的诞生不断完善了这一领域。但是,这些方法大都是笼统的并且是针对所有形式的文本来研究实现的,往往计算结果不尽如人意。实际上,不同形式的文本都有其特有的特点,也许一种算法在一种形式的文本上比较适合,但是在另一种形式的文本上适应性就比较差。针对目前文本处理算法存在的局限性,本文提出了基于二维特征集合的文本相似度计算方法。基于二维特征集合的文本相似度计算方法是在传统中文信息处理技术的基础上,通过提取文本词条的不同特征值,构建文本二维特征集合函数群,然后分析目前生活中人们经常接触到的文本的特点,根据这些文本各自具有的特点,构建文本风格库。最后针对不同类别文本的风格,以二维特征集合函数群为基础构造与之最为适合的特征选择函数进行文本间的相似度计算。本文首先研究了目前经典的文本特征提取算法和相似性计算模型,然后分析各个特征提取算法在文本相似度计算中的作用以及局限性。然后,本文对于文本风格这一文学范畴定义进行了数学量化定义,然后本文分析了主流文本他们各自具有的特点,构建了文本风格体系结构,然后针对不同风格文本具有的不同特点二维特征集合函数群为基础构建特征选择函数体系结构,这是本文研究的核心。同时,本文提出了ITC和段落分布熵两种新的特征选择方法,丰富了二维特征集合函数群。基于二维特征集合的文本相似度计算方法基本满足了中文信息处理技术的普适性要求,改变了传统文本相似性计算统一僵化的局面,使用户可以更加灵活的进行文本相似度计算的应用。因此,基于二维特征集合的文本相似度计算方法在中文信息处理领域具有重要的实际意义。
其他文献
随着多媒体技术的兴起,人们的生活得到了很大的提高。它在提供了基本的生活便利之外,更在逐步改变着传统的生活、娱乐、交际方式。然而,随着信息时代的来临,数据量的膨胀以及
当前,数字图像的修改变得更易操作,效果更为逼真,能“以假乱真”的图像也随之出现,扰乱社会秩序。鉴于此,能够辨别图像真伪的数字图像取证技术成为当前刑侦、安全、宣传、知识产权
伴随着我国下一代无线移动网络的进程,支撑各种各样电信业务的移动控制网络对底层的存储系统的支持提出了更高的要求。如今日益增加的用户数量和数据流量已经让传统的存储方
近几十年来,在图像信息方面,网络中用户每天上传的图像数量呈现出爆炸增长的趋势。如何有效的管理这些大量的图像数据,进而建立一个图像检索系统帮助人们快速找到自己感兴趣
网络最大流问题是图论有向图部分的一个非常重要的基本问题,在图论研究领域有着非常重要的理论意义。同时网络最大流在快递企业中心选址、交通分配、图像分割、社交网络Web社
通过OLAP查询可以快速发现数据背后隐藏的信息用以决策分析,但是OLAP查询在执行过程中往往需要对大量的数据进行选择、连接及投影操作,这是一个非常消耗时间及计算资源的过程。
移动互联网的迅速普及,一方面体现在各类移动智能终端的广泛流行,另一方面催生了应用市场的高度繁荣。传统的应用交付模式已不能满足高并发访问下应用的稳定运行和负载能力的
随着近年来互联网的迅速发展,信息时代的到来,作为三网融合下的产物, IPTV已经成为家电领域产业发展的一个重要方向。IPTV集宽带互联网、多媒体等多种技术于一体,向用户呈现
变电站作为电力系统中的重要组成部分,担负着电压转换、电能分配、输配电的控制和管理等重要任务,其安全、可靠地运行是电网安全和稳定的保障。采用以太网作为其通信架构的智能变电站也会面临网络全威胁,而IEC61850和IEC62351标准对智能变电站信息传输的实时性和安全性都提出了极高的要求,因此如何在新的标准和要求下保障变电站信息安全成为一项亟待解决的问题。MMS是数字化变电站常用的一种报文,广泛应用于
随着企业自身业务和信息化建设的不断发展与扩张,企业内部网络的规模也急剧膨胀。同一时间,企业内部网络上所保存的数据资源也呈爆炸性增长。为了能够根据企业内网上的重要数