论文部分内容阅读
粗糙集(Rough Set)理论是波兰数学家Pawlak教授于1982年提出的一种能够定量分析和处理不精确、不一致、不完整信息与知识的数学工具,常用于处理模糊和不精确的问题。数据挖掘即数据库中的知识发现(Knowledge Discover Database,KDD),而商业智能研究中的商业数据挖掘,是一个从数据库中抽取对商业零售企业进销存等具有潜在应用价值的隐含信息的过程。使用粗糙集数据挖掘系统(RSDMS)进行数据预处理,消去冗余属性,抽取决策规则,可以在不影响决策效能的前提下精简属性集。将SQL运用于求信息熵的约简过程当中,相关约简算法可以通过缩短执行时间来提高其效率。频繁项目集发现算法是关联规则的主要内容之一,本论文在文献[44]的基础上提出了一种Apriori改进算法,在提出的矩阵基础上我们可以方便地得到各个项集的支持度计数,而不需要像Apriori算法那样频繁地扫描事务数据库,减少了扫描事务数据库的次数,也不需要像参考文献[44]当中的算法那样得出各个项集对应的子矩阵,降低了算法的复杂度。本论文在总结前人研究成果的基础上,针对粗糙集的属性约简算法及其应用、商业数据挖掘、电子商务智能推荐等方面进行了研究,主要内容归纳如下:(1)对粗糙集的基本理论知识进行了总体研究,详细介绍了粗糙集的发展历程及其国内外现状,分析了粗糙集的属性约简算法,并在精简条件属性集的基础上运用基于SQL的属性约简算法对其进行了改进。(2)对数据挖掘以及商业数据挖掘的基本理论及其应用、应用中存在的问题等做了介绍,针对数据的离散化、完备化等问题进行了分析研究,在相关文献的基础上提出了一种Apriori改进算法。(3)介绍了电子商务的发展历程及其国内外现状,分析了电子商务的流程及其在运行过程中应该注意的问题,并对电子商务智能推荐系统进行了研究。(4)对电子商务网站的相关数据进行分析处理,利用改进的粗糙集属性约简算法及Apriori改进算法进行数据挖掘,将两种改进算法结合使用作为一种方案运用到推荐系统,然后通过对相关数据进行实验分析比较系统的推荐效率。