【摘 要】
:
形式概念分析自1982年由德国的Wille教授提出以后,近年来被广泛用于软件工程、知识发现、信息检索等领域。形式概念分析中的核心数据结构概念格通过Hasse图来表现出概念之间
论文部分内容阅读
形式概念分析自1982年由德国的Wille教授提出以后,近年来被广泛用于软件工程、知识发现、信息检索等领域。形式概念分析中的核心数据结构概念格通过Hasse图来表现出概念之间的层次关系。粗糙集理论是由Pawlak Z于1982年提出的,它是一种处理不确定、不精确和模糊知识的数学工具,建立在数据库的基础上,由等价类确定的可定义子集及其它子集合的上下近似,提供了知识发现的一种数学方法,已被广泛应用于知识获取、机器学习等领域。形式概念分析和粗糙集理论之间具有相似之处,都是基于某种数据表,有着密切的联系。粗糙集利用等价关系对数据表进行分类,而概念格是基于这一数据表,结合序理论,尤其是完备格理论,进行概念分层分析。本文主要是基于概念格和粗糙集的知识来解决文本聚类问题。主要研究工作包括:(1)提出了一种基于概念格的文本聚类方法,采用概念格模型来表示Web文档,利用概念格的知识从文档形式背景中获得所有的概念,且定义了概念之间相似度函数。用概念来表示文本,从而降低了特征词的维数,提高其聚类的性能。(2)提出了一种基于粗糙集模型的文本聚类方法,采用粗糙集模型来表示Web文本,把在一定范围内的特征词权重转化为特定的属性值,从而把文档数据库转化为文档决策表。利用粗糙集的上近似集来衡量属性之间的最大粗糙度,根据划分的思想对文本进行聚类。(3)通过概念格和粗糙集的相似研究,把粗糙思想和形式概念分析相结合,提出了一种可变精度的粗糙概念格模型来处理一些粗糙和不精确的信息,定义了粗糙概念中对象集和属性集的近似映射,引入了分别体现了概念外延之间和概念内涵之间的粗糙程度的参数β1和β2。根据用户输入的不同的参数值β1和β2,可以得到不同粗糙程度的粗糙概念格,介绍了可变精度的粗糙概念格模型在文本聚类中的应用。
其他文献
电力企业数字化是一个十分复杂而迫切的过程,如何实施一个既能满足当前企业需求又具有可持续发展能力,功能强大又具有良好柔性的信息系统,就成为今后一个时期内电力企业信息化的重要内容。近年来,电力事业进入高速发展阶段,已由计划经济向市场经济迅速过渡,电力营销由以生产为中心阶段进入以消费者为中心阶段,建立完善的现代电力客户服务体系是电力企业数字化的一个重要组成部分。因此,近几年各地电力集团公司开始引进发达国
分类是机器学习的一个核心研究内容。在多种现存的分类器中,最为简单有效的一种就是决策树。但是,传统的决策树算法由于实现的年代较早,运行效率为了适应当时有限的内存而有
软件测试是保证软件质量和可靠性的主要手段,软件测试的工作量一般占软件总开发量的40%至60%,而测试工作中有很大部分适于采用自动化测试方法。自动化测试可以提高测试过程的
随着计算机通信技术的高速发展,通用串行总线(USB)以其高速、支持多种传输类型、即插即用、易扩充等优点已经成为计算机上的标准配置接口,是实现外部设备与计算机通信采用的
近些年来图像配准融合技术已成为自动目标识别、医学图像处理、智能机器人、智能制造业、军事应用等领域研究的热点问题,并取得了大量的研究成果。掌纹作为重要的生物特征在
短语作为搜索引擎输入的主要信息,其主题抽取对于搜索引擎判断搜索者的搜索意图,提高搜索服务质量具有重要的意义。短语逐渐成为网络信息的重要组成部分,针对短语语义分类可以很
近年来,随着互联网的飞速发展,网络规模在扩大,复杂性在增长,网络测量的要求越来越高。数据流量测量是网络测量非常重要的一个方面,它主要指测量通信网络中源节点-目的节点(O
随着网络容量的不断增长,信息更新的不断加快,人们想快速地检索到符合自己要求的信息变得越来越困难。信息冗余、主题参杂等问题都影响了人们检索信息的效率。在解决这些问题
P2P(Peer to Peer)网络是构建在应用层上的一种逻辑网络,其具有非中心化、可扩展性、健壮性、高性价比、负载均衡的特点,相对于传统的分布式系统,P2P网络具有很大的优势。近
随着Web应用之间的XML数据交换数量的不断增长,如何在数据库中可靠和有效地存储XML文档以及XML和数据库之间的数据交换技术将变得越来越重要。将XML数据存储到关系数据库中,