基于内容的中文文本检索相关技术研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:wk1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的迅速发展,实现了人们在网络中轻松查找信息的功能。同时,信息资源随着网络的发展也在成倍数的急剧增长。那么,如何在众多的信息中快速、准确的查找到用户查询的相关信息,检索技术就成为解决这类问题的一个有用工具。基于关键字的检索技术不能很好的满足用户查询的实际需要,因此在这种背景下,研究基于内容的检索技术研究就显得十分重要。  针对目前论文检索与查重的需求,本文对文本检索技术进行了研究,包括以下四个技术;预处理、文本特征词选择、权重方法、距离计算方法。预处理对文本格式转换、分词和去除停用词三个问题进行了研究及实现;文本特征词选择是对文本特征词进行仿真进而确定选择2500个词最优;权重方法对两种方法进行仿真研究,最后确定使用tf-idf方法;距离计算方法有余弦距离、Jaccard系数、内积、欧氏距离、汉明距离五种方法,实验后确定余弦距离、Jaccard系数和汉明距离适用于改进的查询算法。通过以上技术的研究,在Lucene平台下,开发实现lucene检索和改进算法的查重系统。查重系统的主要功能是基于内容的论文检索和相似论文查询。实验证明该系统能够取得较好的反馈效果。
其他文献
近年来,随着统计机器翻译(SMT)的快速发展,SMT系统开始应用于各大软件公司。高质量的译文对于进一步促进SMT实用化至关重要,然而,到目前为止,面向工业界应用的SMT系统生成的译文质
随着智能控制理论及先进控制设备的不断发展,基于各种先进控制算法的智能控制器越来越多的应用于工业过程控制系统中。针对不同工业生产过程,由于其生产工艺的不同,所涉及的系统
本文主要研究的是网络型控制系统设计问题,为解决实际控制系统设计中存在的先进性、可靠性和经济性矛盾问题,本课题通过对目前市场上的小型PLC进行综合比对,选择一款性价比相对
本文以某机电产品电动舵系统的研制为背景,针对现阶段电动舵机使用过程中功率不足、易受高低温环境影响等问题,研究了基于无刷电动舵机的自适应变结构控制方法应用问题。  
网络以其无法比拟的优势成为控制系统中传输信号的媒介,控制系统的各个部件通过实时共享资源的网络联接在一起,形成了网络控制系统(NCSs)。过去的几十年见证了网络控制系统在
本文所研究的逆变电源其输出频率为400Hz,属于特种逆变电源,也称其为航空静止变流器,在国防工业、航天航空等领域有着广泛地应用。本文致力于数模混合高频链逆变电源控制系统的
太阳能光伏发电是新能源开发利用的重要组成部分,对于解决化石能源危机和环境污染问题起到重要作用。本文主要研究光伏发电系统中阴影遮挡下的最大太阳能功率点跟踪(Maximum Power Point Tracking,MPPT)问题,从光伏电池模型、MPPT控制算法以及MPPT控制系统这三个方面入手,展开一系列研究工作。因此,本文做了如下研究:(1)针对太阳能光伏电池功率-电压特性具有非线性强、不确定因
随着信息技术和计算机网络技术的飞速发展,数字音频作品的存储、复制和传播变得愈加容易,它在带来便利的同时也带来一系列不良的后果,随意复制、篡改和散布有版权的作品的现象时
伴随着现代科技的飞速发展,数字图像编辑软件的使用越来越广泛,得益于这些多样化的处理图像软件,数字图像经过篡改后,人眼很难察觉到修改痕迹。这些图像处理软件易于操作,使得人们
水下无线传感器网络(Underwater Wireless Sensor Networks,UWSNs)是由具有自主计算能力的传感器节点在水环境中自组织形成的网络监测系统,通常应用于水下信息或资源的收集和