Web网页信息文本分类的研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:my363
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Boosting和Web文档结构Bayesian分类模型,而对于长文档采用Boosting和综合Bayesian分类模型。实验结果表明,此分类框架具有较好的分类效果。
其他文献
近年来增强现实(AR)技术的飞速发展,将传统的虚拟植入业务推上了新的台阶。随着4K 电视节目内容的普及,势必对技术创新提出更高要求。本文旨在阐述增强现实技术的技术原理,尤
随着Web环境中的应用形式向开放、动态的模式转变,传统的授权机制不能很好地适应这种情况,信任管理这种新的授权机制弥补了这种不足。在研究信任管理与SAML技术的基础上,提出了
在嵌入式Linux实时系统中,要求内核对不同时间约束的任务采用不同的调度算法。但目前Linux内核采用单一的实时调度模式,不能灵活地执行多种调度算法,也就无法满足实时系统中实时
跨边界访问问题是现代计算机必须解决的一个基本问题。主要介绍了跨边界访问问题出现的原因和背景,以及主流的实现跨边界访问的技术,并从效率、软硬件开销、实现的复杂性等方
结合Metropolis准则,对模拟退火算法进行了研究。阐述了模拟退火算法的基本原理及其实现过程,在Visual C++编译环境下实现了该算法。并将其运用到解决旅行商问题的优化之中。介绍