【摘 要】
:
随着互联网的大规模普及和各行业信息化程度的提高,与行业领域相关的Web文本信息快速积累,如何从这些海量信息中定向提取符合要求的知识,是当前信息处理领域的研究热点。本文
论文部分内容阅读
随着互联网的大规模普及和各行业信息化程度的提高,与行业领域相关的Web文本信息快速积累,如何从这些海量信息中定向提取符合要求的知识,是当前信息处理领域的研究热点。本文以陕西省教育厅专项科研项目“面向特定领域需求的概念设计方案自动生成方法研究”为课题研究背景,通过网络信息采集和分类技术,对领域相关主题网络资源发现与采集、采集到的网页文本信息预处理与分类这两方面的问题进行研究,主要研究工作如下:(1)对主题描述方法进行研究,将专业词库与特征选择相结合,在专家给出的有限专业词库基础上,对已有的领域代表性文本和通过网络采集到的主题相关文本进行特征提取和特征选择,筛选主题特征词,扩充专业词库,通过由主题特征词构成的向量来明确表示主题;(2)鉴于主题爬虫网页采集的不确定性,对一般网页的结构特点进行分析,采用基于行块分布函数的方法抽取网页正文,去掉干扰主题相关度判断与文本分类的广告、导航等无用文本信息,取得了较好的网页去噪效果,且具有通用性。(3)采用综合价值评价的主题爬虫搜索策略,综合考虑网页内容分析和链接分析两方面的因素,结合PageRank算法,计算网页的综合链接价值,筛选出与主题相关的URL。(4)对采集到的网页提取出标题和网页正文,保存为文本文档并进行预处理,根据现有的机械主题类别信息,采用基于KNN的机械主题文本分类算法对文档集合进行多子类分类,并对该分类算法进行了实验分析。最后,结合以上研究内容,以机械领域挖掘机为主题,实现了一个机械领域Web文本采集与挖掘原型系统。
其他文献
随着信息技术的发展和微型计算机的普及应用,计算机已成为目前应用最为广泛的信息处理和信息传输的电子设备。但是,由电子设备自身所造成的电磁辐射也不容忽视,计算机系统始终都
短距离非视距紫外光通信基于两个相互关联的物理现象:一是大气层中的臭氧对波长在200nm到280nm之间的紫外光有强烈的吸收作用,这个区域被叫做“日盲区”,到达地面的“日盲区”紫
人体运动仿真技术是一种对人体运动进行建模、分析和仿真的前沿技术,在人体运动生物力学分析、逼真人体动画制作、辅助体育训练等领域起着重要的作用。本文以仿真人体复杂空中
关于如何有效应用文档在国内外已经成为一个专门的研究课题,每年ACM都举行文档工程大会,征集和发表文档工程领域高水平的论文,探讨文档工程领域的最新研究理论,研究成果。 本
计算机硬件和技术的不断发展,特别是内存容量的不断扩充、CPU速率的不断提高、体系结构的不断完善,给数据库带来了机遇也带来了挑战。内存数据库比传统的磁盘数据库具有更快的
随着经济高速发展和人民生活水平快速提高,当前机动车数量急剧增加。为了解决交通安全、交通堵塞及环境污染等难题,人们提出了智能交通系统。智能交通系统(ITS)是采用先进的信
蚁群算法是一种最新发展的模拟昆虫王国中蚂蚁群体觅食行为的仿生优化算法,该算法采用了正反馈并行自催化机制,具有较强的鲁棒性,优良的分布式计算机制,易于与其他方法结合等优点
对空间CCD相机的评定主要是通过地面的各种检测设备的反复测试和试验进行保证。结合仿真技术与测试技术,依据空间CCD相机电性接口的分布,建立了地面仿真测试模型,提出了仿真测试
例外挖掘是数据挖掘中的一个重要研究方向,它往往可以帮助人们发现一些真实、但又出乎意料的有用的知识。在数据挖掘的许多应用中,挖掘例外数据比挖掘正常数据具有更高的价值,对
随着网络的普及,随之而来的网络安全问题便越来越突出,针对中小型企业对网络安全防护需要网关功能多样化的需求,本文提出一种复合型安全网关的设计方法,使之适应于中小型网络的使