基于二维特征集合的文本计算方法

来源 :济南大学 | 被引量 : 1次 | 上传用户：dufuyan

【摘要】

：

随着因特网的快速普及和计算机各方面性能指数的不断提高，网络已经渗透到人类生活中的方方面面。网络迅速成为信息来源的主力军并且这些信息还在以指数级别在增长，挖掘出这些信

【作者】

：

李亮亮

【机构】

：

济南大学

【出处】

：

济南大学

【发表日期】

：

2014年01期

【关键词】

：

文本风格特征选择相似度段落分布熵 ITC

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着因特网的快速普及和计算机各方面性能指数的不断提高，网络已经渗透到人类生活中的方方面面。网络迅速成为信息来源的主力军并且这些信息还在以指数级别在增长，挖掘出这些信息背后蕴藏的知识能够有效的帮助企业或者是个人做出最符合的实际的决策来实现利益最大化，因此互联网已经成为数据挖掘的主要应用领域。与此同时，人们通过网络接触到的信息绝大多数都是以文本的形式传递的，可以说，如何有效的处理文本是未来信息处理技术的一个关键性问题。这些年来，针对于文本的信息处理技术不断成熟，一些新的文本挖掘算法，文本特征提取算法或者是文本相似度计算方法被学者们不断提出，这些新思想的诞生不断完善了这一领域。但是，这些方法大都是笼统的并且是针对所有形式的文本来研究实现的，往往计算结果不尽如人意。实际上，不同形式的文本都有其特有的特点，也许一种算法在一种形式的文本上比较适合，但是在另一种形式的文本上适应性就比较差。针对目前文本处理算法存在的局限性，本文提出了基于二维特征集合的文本相似度计算方法。基于二维特征集合的文本相似度计算方法是在传统中文信息处理技术的基础上，通过提取文本词条的不同特征值，构建文本二维特征集合函数群，然后分析目前生活中人们经常接触到的文本的特点，根据这些文本各自具有的特点，构建文本风格库。最后针对不同类别文本的风格，以二维特征集合函数群为基础构造与之最为适合的特征选择函数进行文本间的相似度计算。本文首先研究了目前经典的文本特征提取算法和相似性计算模型，然后分析各个特征提取算法在文本相似度计算中的作用以及局限性。然后，本文对于文本风格这一文学范畴定义进行了数学量化定义，然后本文分析了主流文本他们各自具有的特点，构建了文本风格体系结构，然后针对不同风格文本具有的不同特点二维特征集合函数群为基础构建特征选择函数体系结构，这是本文研究的核心。同时，本文提出了ITC和段落分布熵两种新的特征选择方法，丰富了二维特征集合函数群。基于二维特征集合的文本相似度计算方法基本满足了中文信息处理技术的普适性要求，改变了传统文本相似性计算统一僵化的局面，使用户可以更加灵活的进行文本相似度计算的应用。因此，基于二维特征集合的文本相似度计算方法在中文信息处理领域具有重要的实际意义。

其他文献

分布式图像计算检索系统的设计与实现

随着多媒体技术的兴起,人们的生活得到了很大的提高。它在提供了基本的生活便利之外,更在逐步改变着传统的生活、娱乐、交际方式。然而,随着信息时代的来临,数据量的膨胀以及

学位

图像计算图像检索分布式计算任务调度

图像克隆拼接篡改盲取证技术研究

当前，数字图像的修改变得更易操作，效果更为逼真，能“以假乱真”的图像也随之出现，扰乱社会秩序。鉴于此，能够辨别图像真伪的数字图像取证技术成为当前刑侦、安全、宣传、知识产权

学位

图像克隆图像拼接盲取证技术离散小波变换特征提取

数据去重与垃圾数据删除策略的设计与实现

伴随着我国下一代无线移动网络的进程,支撑各种各样电信业务的移动控制网络对底层的存储系统的支持提出了更高的要求。如今日益增加的用户数量和数据流量已经让传统的存储方

学位

分布式存储系统重复数据删除无效数据回收布隆过滤器

基于局部特征和视觉上下文的图像检索系统

近几十年来,在图像信息方面,网络中用户每天上传的图像数量呈现出爆炸增长的趋势。如何有效的管理这些大量的图像数据,进而建立一个图像检索系统帮助人们快速找到自己感兴趣

学位

局部特征视觉上下文图像检索

基于BSP模型的网络最大流算法的并行化研究与实现

网络最大流问题是图论有向图部分的一个非常重要的基本问题,在图论研究领域有着非常重要的理论意义。同时网络最大流在快递企业中心选址、交通分配、图像分割、社交网络Web社

学位

网络最大流并行计算BSP并行模型Push-Relabel

支持快速联机分析处理的视图物化技术研究及应用

通过OLAP查询可以快速发现数据背后隐藏的信息用以决策分析，但是OLAP查询在执行过程中往往需要对大量的数据进行选择、连接及投影操作，这是一个非常消耗时间及计算资源的过程。

学位

物化视图多维数据格遗传算法自适应数据仓库数据世系

基于Cloud Foundry的消费电子类企业私有云PaaS平台的研究与实现

移动互联网的迅速普及,一方面体现在各类移动智能终端的广泛流行,另一方面催生了应用市场的高度繁荣。传统的应用交付模式已不能满足高并发访问下应用的稳定运行和负载能力的

学位

云计算平台即服务PaaSCloud Foundry平台调度机制负载均衡

基于IPTV嵌入式浏览器功能扩展的研究与设计

随着近年来互联网的迅速发展,信息时代的到来,作为三网融合下的产物, IPTV已经成为家电领域产业发展的一个重要方向。IPTV集宽带互联网、多媒体等多种技术于一体,向用户呈现

学位

嵌入式浏览器中间件对象扩展焦点控制IPTV技术

智能变电站信息安全机制的研究

变电站作为电力系统中的重要组成部分，担负着电压转换、电能分配、输配电的控制和管理等重要任务，其安全、可靠地运行是电网安全和稳定的保障。采用以太网作为其通信架构的智能变电站也会面临网络全威胁，而IEC61850和IEC62351标准对智能变电站信息传输的实时性和安全性都提出了极高的要求，因此如何在新的标准和要求下保障变电站信息安全成为一项亟待解决的问题。MMS是数字化变电站常用的一种报文，广泛应用于

学位

智能变电站AES-CCM算法基于身份密码算法IEC62351通信安全

企业内网搜索引擎关键技术研究与实现

随着企业自身业务和信息化建设的不断发展与扩张,企业内部网络的规模也急剧膨胀。同一时间,企业内部网络上所保存的数据资源也呈爆炸性增长。为了能够根据企业内网上的重要数

学位

企业内网搜索引擎链接过滤评分排序复杂网络

基于二维特征集合的文本计算方法

其他学术论文