论文部分内容阅读
互联网的迅猛发展,为人们带来了大量的信息资源。现代企业快速发展,在其信息化建设过程中积累了越来越多的或有用或无用的数据,如此大规模的数据量也带也给企业带来了一定的烦恼。一切问题都归结于如何获取有用的信息上,而解决这个问题有效途径就是将传统的数据挖掘技术应用于网络。因此,作为数据挖掘技术的重要分支之一,Web数据挖掘在企业网络营销以及用户信息分析中的应用变的十分重要。数据量的显著增大,在给互联网企业带来了生机的同时,网站的建设与维护显得尤为重要。对于大型门户网站或是电子商务网站,如何来管理使得它们能够成功运营,成为了这些企业很重要的一项工作。网站的成功与否,除了必要的资金支持来搞好初期的建设以外,更需要注意后期的更新维护。一种好的运营方式能够使一个网站具有更旺盛的生命力和更强的竞争力,不仅能够从危机中立于不败,亦能从中获益。网站运营过程中涉及了很多内容,如企业文化的宣传推广、网站营销管理、网站后期维护与更新、内部关系操作等等,这些管理工作决定了网站的业务范围与未来发展方向。因此,决策的支持力是否有效是一个关键的因素。决策支持需要大量有用数据作为依据,那么这些的数据来源于何处呢?不言自明,网站自身的运营数据即是它们的来源,若想从这些数据中获得有用信息,必须采用一种有效的方法-数据挖掘技术。可以说,目前数据挖掘技术蓬勃发展,并得到广泛的应用,当前数据挖掘的应用热点在电信、保险、电子商务与商业连锁、银行以及某些政府部门等。比如,在某一商场的销售记录中可以挖掘出特定顾客的所喜爱的产品组合,发现某些潜在顾客的购买意愿以及流失顾客的特征,或是某些顾客对新产品的喜爱程度等等。可见数据挖掘技术可以真正决定一个商业企业的成败。本文正基于此做了一些有建设性的研究。本文首先介绍了课题的研究背景与意义以及针对此研究领域的国内外的研究现状和论文的研究内容与结构等。并介绍了网络营销的一些基础理论,阐述了网站运行的模式,并就运营过程所遇到的问题进行了必要分析。其次,对数据挖掘的基本原理、任务以及过程进行的概述,在比较了几种决策支持工具的基础上,对企业网络营销中数据挖掘的特征进行了重点分析。而后,是站点Web信息提取和站点个性化的研究。主要介绍了信息提取技术中Web信息提取的功能分类与标准以及数据块信息的提取与相关算法。以网页区块为最小单位,对Web信息形式的分析,并设计了Web信息的抽取算法。最后,从用户的个性差异与企业的总体营销策略出发,设计Web数据挖掘模型,该模型分为三部分:网站数据收集、日志预处理和算法分析。本文的侧重点放在电子商务网站中不同信息数据的分类挖掘以及网站数据抽取算法的研究方面,特别是电子商务网站中主题关键字数据的抽取研究。针对网站中数据抽取相关问题提出了一些解决办法,从某种程度上解决了数据抽取中的效率与准确度问题。在研究过程中发现以往信息抽取技术中存在的一些问题,比如以网站整个页面作为最小的数据抽取单元的方法准确度较差,已经不能适应网站需要,必须进行更小的划分。基于此,作者将页面本身作为一个总区域实施进一步的划分,将其划分为不同的抽取块,将不同区域分别实施抽取,并根据侧重点不同分别赋予该区域以权值,进而完成数据抽取工作。本文对于网站中日志数据的挖掘方面采用聚类的方法,能够抽取出部分隐含性信息。具体采用的方法是将兴趣相似度较高的客户划分为一类,聚类过程可以在线也可以离线,用此方法辅助数据抽取可极大程度的缩短算法时间,提高网站分析的效率,能够很有效解决了数据稀疏性的问题,使得抽取后的数据更具合理性。通过对实验结果的分析,文中对数据的抽取与数据挖掘的算法进行了必要的归纳。同时,得到了一些启示,提出开放式的网络营销策略的逻辑框架,以达到提高用户的忠诚度的目的,并为企业产品的合理定位奠定基础。利用该模型最终实施旅游网站的数据挖掘,该算法具有一定的可行性,实验证明算法合理有效。本文研究过程中,由于个人知识结构、时间等诸多因素,难免会产生一些问题:1、效率与准确度之间的协调:数据挖掘中的效率与准确度之间是一个矛盾体。在保证数据抽取速度的前提下,如何提高数据抽取的准确度有待进一步研究。2、顾客信息私密性保护问题:顾客喜好数据的抽取过程中无可避免的会侵犯部分隐秘信息,如何在保证决策有效性的前提下,合理保护这部分信息值得进一步探讨。