中文信息过滤系统的实现及相关技术的研究

来源 :鞍山科技大学 辽宁科技大学 | 被引量 : 0次 | 上传用户:shen888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文所要着重研究的是中文信息过滤系统及其相关问题.英文的句子以空格作为固定的分隔符,而中文中没有,这给中文信息处理带来很大障碍,所以首先对中文文档进行分词,本文采用一种新的高效的分词方法,它的效率比同期的其它分词效率都要好.根据用户的兴趣需求,信息过滤有时也被看作是二叉的信息分类,即将信息分为两类:一类是相关的,另一类是不相关的.基于此,本文提出一种基于Boosting算法的文本分类,它的实验结果达到了预期的目的.对于信息过滤多采用向量空间模型的方法,本文提出一种基于向量空间模型和HyB+树的中文信息过滤,它的初步效果是令人满意的.为了测试所研究的理论问题在实际应用中是否会带来预期的效果,开发了一个简单的原型系统.
其他文献
随着计算机的计算速度、存储容量的不断提高,基于实例的机器翻译(Example-Based Machine Translation,EBMT)技术研究越来越受到研究者的青睐.基于实例的机器翻译充分利用原有
论文首先从分析国内外目前对虚拟实验室领域的研究现状入手,结合考虑国内外对虚拟实验室的研究的侧重点和虚拟实验室的主旨所在,引入了论文的研究重点与主要内容,把虚拟实验
java语言是是一种基于解释的高级面向对象语言,java编程平台与硬件平台无关,只要在具体硬件平台上部署了相应的java虚拟机,就可以在存储量、存储方式、通讯方式、计算能力等
该文首先分析了当前网络管理中存在的缺乏有效的告警管理手段、自动化处理能力不足、忽略对局域网管理等问题,指出造成这些问题的一个重要原因是缺乏网络拓扑自动发现能力.该
随着计算机及通信技术的发展,互联网上的信息量急剧增长.为了解决普通用户所面临的"信息迷航"和"信息过载"问题,智能信息检索和个性化信息服务成为目前信息服务研究的重点.该
作为保障设备质量的一项主要手段,测试工作是非常重要的,但这项工作并不轻松。如何快速地生成高质量的测试方案,并且保证该方案能够覆盖设备所有的运行状态,一直是该领域重点研究
电子邮件服务是Internet中一项最基本、也是最为重要的服务,随着近几年来Internet的迅猛发展,电子邮件的用户数量也急剧增加,给系统管理员在管理电子邮件系统时带来了很多新问题
本文研究了用ASP.NET开发技术开发基于Web的MIS系统.ASP.NET是.NET环境中用于Web开发的全新框架,可用于在服务器上快速、有效的生成功能强大的Web应用程序.其中包含了许多新
随着信息技术的快速发展,计算机网络已经演变成为一个非线性巨复杂系统.对网络非线性动力学的研究有助于更好地理解网络的变化规律,充分利用现有的网络资源,并对网络关键技术
演化计算是用计算机模拟大自然的演化过程,特别是生物进化过程,来求解复杂问题的一类智能计算模型.其理论与应用研究当前已成为计算机科学与其它科学和工程领域的一个热点.该