论文部分内容阅读
词性标注是自然语言处理词法分析中一种较为成熟的技术,而自然语言处理在信息检索中又占有举足轻重的作用,将词性用于外文文献信息检索已有一定的研究,研究表明词性用于外文文献信息检索有一定影响,但影响不大。本研究主要针对词性用于汉语科技文献检索的作用和影响进行研究,试图用测评数据说明影响程度和作用大小。整个研究过程中,实现了畜牧兽医语料库和词表的建立工作。词性标注过程利用的是中国科学院计算技术研究所研制出的基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS、南京农业大学研究生程冲设计的CARMM系统中的未登录词功能以及自建的畜牧兽医词表相结合的方式实现,词性标记集选用的是汉语文本词性标注标记集(北大版)。采用了两种提取检索词方式和多种检索模型,其中,两种提取检索词方式包括保留14维词性提取的检索词方式和人工辅助参与提取检索词方式;多种检索模型包括传统的布尔逻辑检索模型、“部分匹配的”布尔逻辑检索模型和向量空间模型。在向量空间模型中,根据阈值取值有其自身的不足的特点,本研究采用了两种阈值2%和5%的方式,得到了多种测评数据。根据测评数据,得出了带词性的检索和不带词性的检索的测评结果。测评结果采用四种方式测评,分别是概括表统计(包括每个检索提问式的R、P和Rav、Pav四个指标的测评结果表),R、P折线图,R、P差额直方图和R、P差值平均值表。最终根据测评结果,得出了在检全率方面,不带词性的检索效率要高于带词性的检索效率;在检准率方面,除了“部分匹配的”布尔逻辑检索结果显示的是不带词性的检索检准率要高之外,其他结果都表明带词性的检索要略胜一筹。总体来看,带词性的检索并没有体现多大的优越性。而且,从测评结果来看,在词性用于检索的同时选择的检索模型也是制约最终结果的一个因素。本研究总的来看主要创新可以归结为4个方面。第一,词性首次用于汉语文献检索。第二,对文献语词和提问检索词的词性进行了14维降维处理,提高了检索效率;第三,设计了可用于词性检索的“部分匹配的布尔逻辑模型”;第四,用实验测评数据得出了词性检索对汉语文献检索的影响程度。