基于XML的Web数据挖掘研究与应用

来源 :天津科技大学 | 被引量 : 5次 | 上传用户:wx1980_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的飞速增长,互联网已经成为一个巨大的信息服务中心,它涉及新闻、政府、电子商务等和许多其他信息服务。此外,还包含了丰富和动态的超链接信息,这些都为Web挖掘提供了丰富的资源。在Web文本挖掘的对自然语言理解的改进中,本文首先是把句子用自动分词法分解后,再用句型分析和词典分析(如果遇到新的词语,则先将其加入到词典,对词典进行更新)进行判别(用相似百分比进行判别),最后将判别的结果输出。该改进的方法优点是充分的利用了句型(单复句)句类(陈述句、疑问句、祈使句和感叹句)的规则,能够有效的提高自然语言的理解效率。Web上有一些有价值的信息是可以被用来进行预测和分析的,但是Web挖掘在这方面到目前为止还没有形成一个明确的领域,只是在传统的一些方法中,如关联规则(仅只是从事物发生的相互关联度来进行推测)等方法有所涉及但都没有把它作为一个明确的领域进行研究。本论文就是把它作为一个确定的目标进行开发从一种新的角度考虑问题,建立了一种因果模式来进行Web挖掘,所定义的一种因果关系模式,包括因集(也就是各种原因),果集(也就是各种结果)和各种因果关系(一对一,一对多,链状,网状共4种),利用影响度(各种原因在结果发生时出现的概率),分类效果权值(用来判断各种分类的效果)等参数,再结合统计分析等各种Web数据挖掘算法及XML的优势特点组成了一种Web挖掘模型,来发现Web上事物之间的内在联系以及发生规律,并最终形成一个智能库,以便为未来的任务执行提供有力的预测和决策依据。最后给出了具体的应用实例,用天津科技大学易佳影视网进行验证,结果表明该模型是有效的,是能够在预测和决策中发挥重要的作用的。
其他文献
论文以数字图像处理为理论基础,借助了一些信号处理和计算机视觉上的一些思路来研究古碑文图像的处理,通过对大量的古碑文图像进行分析,针对不同的碑文图像特点,对不同的碑文
云存储作为一种新兴的存储模式,以其低成本、高可靠、弹性和按需付费的特点,吸引了越来越多的企业和用户将数据放在云端。如何降低云存储中海量数据的存储开销成为一个重要的
人体姿势估计是实现图像理解和行为识别的关键技术。但是,自身的遮挡,衣着的变化,面内和面外旋转等情况,导致了人体姿势估计问题一直没有得到很好的解决。近年来,深度学习技
随着计算机技术的不断发展,网络技术和应用软件开发技术的应用越来越广泛。随着检察院系统事业的发展,对规范行政管理流程、提高办公效率、加强决策支持的要求越来越高。所以
随着社会的不断进步,计算机技术、互联网技术等不断发展,数据也越来越丰富和复杂,针对丰富且复杂的数据进行聚类分析的重要方向也越来越受到人们的关注,高维数据聚类更是重点
本文根据发电企业的特点,结合电厂机组综合评优的实际需求,对数据仓库、ETL、OLAP、数据挖掘等基础理论和关键技术,进行了深入有效的研究。文章重点讨论了系统构建过程中数据
随着空间信息应用需求的不断增长,人们对地观测数据需要更高的分辨率、更快的获取速度和更大的信息量,随之对空间信息的服务和共享提出了更高的要求。G/S模式是继目前网络软
随着IT技术的发展,近几年云计算技术逐渐成熟。由于数据中心的数量和规模急速增长,如何合理地利用资源同时有效节省数据中心能耗成为热门的课题。作为云计算底层的IaaS层,是
特征造型技术作为新一代CAD/CAM集成系统的关键技术之一,是产品设计的核心。建立一个基于特征的、统一而完备的产品信息模型是必要的,它可以实现模型的可编辑性和易维护性。
随着Internet的迅速发展、网络应用日益普及以及云计算技术的快速成熟,在全世界,pc、手机、pad上的各种app极大方便了人们的生活和旅游。各种O2O,各种app极大丰富了我们物质