论文部分内容阅读
随着互联网的快速发展,学生抄袭网络资源的现象屡见不鲜。在高等教育领域,已有一些针对学生论文剽窃检测的研究,但在藏文等低资源语言领域,针对学生单语言作文抄袭检测和跨语言作文抄袭检测问题,还存在着大量的研究空白。高中生正处于人生学习、生长的关键时期,此时,正确的学习观对于学生未来发展和个人能力的培养具有重要影响。语文学科中作文部分属于学习的重难点之一。面对写作困难,许多学生会选择互联网上的海量资源作为参考,其中不乏有人使用直接或间接方法进行抄袭,这种抄袭行为既不利于学生写作能力的发展,也给教师作文评判增加了工作量,同时还影响了营造学习的公平性环境。目前已有的抄袭检测系统大多适用于论文抄袭检测,根据文章摘要、参考文献、论文结构等进行检测。学生作文与论文不同,首先它不具备论文所具有的“摘要-正文-参考文献-致谢”文章结构;其次学生的作文内容相较于论文更加口语化、抒情化,且具有“引经据典”的写作手法,这一点在实际教学中不能被认定为抄袭。但学生作文抄袭检测和论文抄袭检测本质上都是一种文本相似度检测过程。因此学生作文抄袭检测和论文抄袭检测有相通之处,但也存在差异。本文在已有的论文抄袭检测研究基础上,进行学生作文的抄袭检测研究。本文针对高中藏文作文抄袭情况进行研究,其中抄袭的类型大致可以分为三种:复制型抄袭、语义改写型抄袭和跨语言翻译型抄袭。并根据每一种抄袭类型提出一种检测方式,构建出一个适用于藏文高中作文抄袭检测的原型系统。主要研究内容如下:针对复制型抄袭的检测:本文基于最长公共子序列算法,处理藏语高中作文文本中的连续复制型抄袭。经过实验,在篇章层面的最长公共子序列方法可达到92.7%的准确率。针对语义改写型抄袭:本文采用基于注意力机制的孪生长短时记忆网络模型,训练藏文音节向量作为模型输入,训练藏文作文语义改写抄袭检测模型。实验表明,本文所使用方法的皮尔森相关系数可达0.6010。这表明算法计算出的相似度值和人工标注的结果达到了强相关程度,准确率较高。针对跨语言翻译型抄袭:本文采用基于注意力机制的孪生长短时记忆网络模型,依靠人工构建的藏汉词典,训练藏汉跨语言词向量,进行藏汉跨语言的作文抄袭检测研究。实验表明,本文所使用的方法皮尔森相关系数可达0.4780,这表明模型输出值和人工标注值达到了中等程度的相关。最后,本文融合以上研究内容,设计并实现了面向高中藏文作文抄袭检测的原型系统。系统面向使用藏文作文的教师和研究人员,实现了作文自动抄袭检测功能,能根据单语言、跨语言分别检测,提供上传作文的相似度值以及抄袭句子对比。整个系统操作简单明了、实用高效,为学生日常藏文作文抄袭检测提供了良好的技术支持。