文本抄袭检测方法研究

被引量 : 0次 | 上传用户:liuyc077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,信息共享度不断升级,一方面为人们获取资料提供了方便,另一方面也为抄袭、剽窃、非法扩散等不道德行为提供了可乘之机。文本抄袭检测技术逐渐成为自然语言处理领域中一项重要的研究课题。内部抄袭检测和外部抄袭检测是该研究领域的两种检测类型,近几年,已经取得了一系列进展,特别是在外部抄袭检测方面。目前,越来越多研究者开始把目光转向内部抄袭检测研究。本文针对这两种检测类型,在深入分析现有抄袭检测系统的基础上,分别提出了自己的解决方案。本文的研究内容主要包括:1.在有指导的监督学习条件下,对文本内部抄袭检测研究进行了研究探索。通过对PAN语料的深入分析,从语言学的角度抽取了多种能够反映文本写作风格的特征,并将特征归纳为字符、词汇、词性、短语等四大类别。利用文章内部抄袭片段与文章整体之间通常会存在不一致性的特点,首先对文章整体及各个划分片段分别抽取这些不同侧面的风格特征,其次将其量化表示得到风格模型,最后利用SVM分类器识别文章中存在异常的片段。在研究的过程中,重点考查了不同特征及其组合对系统性能的影响。2.研究外部抄袭检测系统中常用的检索模型,针对目前基于统计学的模型不能有效检索出待测文本的候选文档子集问题,本文提出了一种基于语义分析的文档相似度计算方法,并将其应用到候选文章检索中。实验证明通过对文档之间进行语义分析和词频统计相结合的文本相似度计算,可以有效提高候选文章的召回率。3.在外部抄袭检测系统的详细分析部分,本文提出了一种基于停用词信息的抄袭段落定位方法,该方法利用停用词在文本抄袭过程中保持稳定性的特点,通过有效捕获文章的结构特征,发现文章之间的匹配内容。同时为了定位抄袭内容的边界,我们先采用合并算法将相邻的最长匹配的字符串进行合并,然后对检测出的零星的线和点(改变说法的抄袭)通过聚类方法进行合并。实验证明该方法在各种抄袭类型上均获得了更高的准确率本文通过分析和比较实验结果发现上述方法将有助于提高抄袭检测的性能,对今后该领域的研究具有一定的参考价值。
其他文献
近代汉语词汇研究是近代汉语乃至整个汉语史研究中很重要的部分,蒋绍愚先生在这方面的研究卓有建树,他在上世纪末和本世纪初发表的文章和出版的书籍中都对近代汉语作了深入的
本论文设计并合成了系列含聚氧乙烯链的两性表面活性剂,研究了它们的结构与界面性能的关系,获得了将油/水界面张力降至超低值的分子结构规律,为三次采油用两性表面活性剂的分
温控仪是工业生产中被广泛使用的一种设备,随着我们经济的高速发展,它的需求量也越来越大。从一开始的的指针式模拟仪器仪表到只有A/D功能的数字显示仪表再到如今各式各样的
近年来,我国高速公路隧道的数量与里程不断增加,隧道所处的环境越来越复杂,已经投入运营的公路隧道病害频发,给隧道的安全运营和隧道内的机电设施带来较大的安全隐患。其中,
环境问题自古有之,中国古代环境问题的产生既有自然原因,但也不乏人为原因。自然变化无常,既为人类难以预见预防,也为人类难以抗拒,这在古代尤其如此,而人为的环境问题多是在利益的
梁德绳《再生缘》后三卷的续书基本上延续了陈端生《再生缘》前十七卷的思路 ,情节发展比较合乎情理 ,满足了人们对于一部完整的《再生缘》的阅读期待 ,虽然文采较之前十七卷
<正>课堂随机评价表达的是最直接的感受,是课堂教学中使用频率最高、对学生影响最大的过程性评价,具有鲜明的随机性、灵活性和及时性。课堂评价运用得好,可以让学生品尝成功
各个高校中,计算机实验室已经成为计算机类课程教学、实践、考试的重要场所。科学化的机房管理,可以有效地改善教学质量,提高教学效率与实现远程资源共享。但是在目前的各大
红层是红色陆相沉积为主的碎屑沉积岩层,岩性以砂岩、泥岩、粉砂岩和页岩等为主。红层软岩具有透水性弱、亲水性强,遇水易软化,失水易崩解,强度低、易风化等特性,其工程地质
食用槟榔是继口香糖、香烟之后的第三大口腔嗜好品,全世界据不完全统计估计有6亿人有嚼食槟榔的习惯,这就带动了整个槟榔加工产业的迅速发展,同时也带来了巨大的经济效益。随