论文部分内容阅读
随着网络技术的飞速发展,信息共享度不断升级,一方面为人们获取资料提供了方便,另一方面也为抄袭、剽窃、非法扩散等不道德行为提供了可乘之机。文本抄袭检测技术逐渐成为自然语言处理领域中一项重要的研究课题。内部抄袭检测和外部抄袭检测是该研究领域的两种检测类型,近几年,已经取得了一系列进展,特别是在外部抄袭检测方面。目前,越来越多研究者开始把目光转向内部抄袭检测研究。本文针对这两种检测类型,在深入分析现有抄袭检测系统的基础上,分别提出了自己的解决方案。本文的研究内容主要包括:1.在有指导的监督学习条件下,对文本内部抄袭检测研究进行了研究探索。通过对PAN语料的深入分析,从语言学的角度抽取了多种能够反映文本写作风格的特征,并将特征归纳为字符、词汇、词性、短语等四大类别。利用文章内部抄袭片段与文章整体之间通常会存在不一致性的特点,首先对文章整体及各个划分片段分别抽取这些不同侧面的风格特征,其次将其量化表示得到风格模型,最后利用SVM分类器识别文章中存在异常的片段。在研究的过程中,重点考查了不同特征及其组合对系统性能的影响。2.研究外部抄袭检测系统中常用的检索模型,针对目前基于统计学的模型不能有效检索出待测文本的候选文档子集问题,本文提出了一种基于语义分析的文档相似度计算方法,并将其应用到候选文章检索中。实验证明通过对文档之间进行语义分析和词频统计相结合的文本相似度计算,可以有效提高候选文章的召回率。3.在外部抄袭检测系统的详细分析部分,本文提出了一种基于停用词信息的抄袭段落定位方法,该方法利用停用词在文本抄袭过程中保持稳定性的特点,通过有效捕获文章的结构特征,发现文章之间的匹配内容。同时为了定位抄袭内容的边界,我们先采用合并算法将相邻的最长匹配的字符串进行合并,然后对检测出的零星的线和点(改变说法的抄袭)通过聚类方法进行合并。实验证明该方法在各种抄袭类型上均获得了更高的准确率本文通过分析和比较实验结果发现上述方法将有助于提高抄袭检测的性能,对今后该领域的研究具有一定的参考价值。