【摘 要】
:
学术界的抄袭主要集中在以科研人员为主的论文、项目报告抄袭和以高校学生为主的作业、课程论文抄袭。与科研人员的抄袭对象主要来源于网络和公开发表的出版物不同,学生的抄袭对象大多集中在学习社区内,因此更具有隐蔽性。目前针对科研人员的抄袭,有各种商业抄袭检测工具,但专门针对学生本地抄袭的检测工具并不常见,较为知名的是斯坦福大学的Moss系统,用于检测学生的软件代码抄袭。目前人们投入研究最多和应用最广泛的方法
论文部分内容阅读
学术界的抄袭主要集中在以科研人员为主的论文、项目报告抄袭和以高校学生为主的作业、课程论文抄袭。与科研人员的抄袭对象主要来源于网络和公开发表的出版物不同,学生的抄袭对象大多集中在学习社区内,因此更具有隐蔽性。目前针对科研人员的抄袭,有各种商业抄袭检测工具,但专门针对学生本地抄袭的检测工具并不常见,较为知名的是斯坦福大学的Moss系统,用于检测学生的软件代码抄袭。目前人们投入研究最多和应用最广泛的方法是模糊指纹和基于词频统计的检测方法。模糊指纹是针对原有校验和检测技术在处理加入随机噪声干扰的抄袭文本时的脆弱性而提出的。模糊指纹的特点是指纹的变化与信息内容的变化相关,结合随机抽样方法,抄袭者无法预知抽样指纹的生成规律,从而可以大幅降低抄袭者通过加入噪声干扰躲避检测的可能性,但同时也带来了更大的计算开销。基于词频统计的检测方法是近年来抄袭检测技术中的研究热点之一。这种方法根据文档中关键字的分布特征和词频判断是否存在抄袭内容,与模糊指纹不同,该方法能保留一定的语义信息,然而这类方法过高的资源需求,特别是在存储空间上的需求,限制了其应用范围。启发式合并方法是目前最为常用的标定抄袭内容的方法,这类方法通过定义合并规则,可以在一定程度上减少干扰信息对标定结果的影响。迭代穷举法和近似最长公共子串法是比较具有代表性的两种实现方式,这类方法的效率比较低下,且标定精度受干扰信息影响较大。商业抄袭检测软件则利用索引和数据库技术,将文档碎片化后存入数据库,并建立索引结构,可以在一定程度上避免干扰带来的影响,并提高检测的效率,但海量的存储和如何实现高效的索引是需要解决的问题。不同领域的抄袭各有其特点,也具有一定的共性,现有的任一种抄袭检测技术都无法完全解决各领域的抄袭问题。本文在充分分析学生作业抄袭以及科研论文抄袭特征的基础上,对各种抄袭检测算法进行了深入的研究,并参加了2010年的国际抄袭检测竞赛,获得了第二名的成绩,同时实现了一个抄袭检测系统,用于华南理工大学特色专业在线学习平台的学生作业抄袭检查,取得了较好的效果。本文的主要贡献包括:1)设计并生成了两个针对学生作业和论文抄袭检测的数据集。详细分析了高校学生抄袭行为发生的原因、抄袭的方式和范围,采集上万份华南理工大学计算机网络专业学生提交的作业,整理后形成了学生作业数据集;从IEEE网站下载了近年来计算机网络应用方向的论文几千篇,并利用算法人工加入抄袭内容,形成了模拟抄袭论文集,用于检验本文提出的算法在实际环境下的检测效果。为了便于与其他算法的比较,本文还使用了国际抄袭检测竞赛(PAN)提出的西文语料集。2)提出了一种基于语义匹配的相似文档快速预选方法。传统的相似度判定方法在处理抄袭比例很小的文档时,精度容易受被检查的文档的大小影响,基于语义匹配的算法在相似度判定的基础上,引入了语义序列的概念,能很好地解决相似度判定方法无法检测到极小比例抄袭的问题。3)针对海量文档的抄袭预选效率问题,提出了两种保相似度降维算法:一种是基于Pearson系数的特征向量降维方法,一种是基于Cauchy系数的保相似度降维方法,两个方法都是保证以较大的概率将两个文档的相关性的影响控制在较小的误差范围内的前提下,尽可能降低特征向量的维数。第一个方法的降维效率略优于第二个方法,第二个方法处理大比例抄袭文档的精度相对较高。4)将聚类的概念引入相似文本标定,提出了一种基于斜率密度聚类的相似文本标定算法,利用快速预选算法中提出的语义序列匹配方法,结合基于密度聚类方法的原理,提出了基于斜率密度聚类的概念,并将其用于相似文本标定,标定结果普遍优于其他标定算法。5)设计并开发了一个作业抄袭检测系统,并已经实施在本课题组开发的特色专业教学平台中,专门用于检测学生作业、课程论文的抄袭,该系统已经上线运行了两年多,检测效果良好。
其他文献
本论文主要对几类非线性方程的适定性问题和分支现象进行了研究.一方面,我们利用Littlewood-Paley、输运方程理论证明了一个拟线性发展方程和hyperelastic rod方程在Bp,rs空间中的局部适定性问题,并进一步研究了解映射的连续性.另一方面,我们利用微分方程定性理论和动力系统分支方法,获得了Schamel-Korteweg-de Vries方程和一个广义Zakharov-Kuzn
猪肺炎支原体是引起猪支原体肺炎的主要病原体,在世界范围内广泛存在,给养猪业造成重大经济损失。本研究测定了替米考星对猪肺炎支原体的体外抗菌活性,建立体外PK/PD模型模拟替米考星在猪肺部的药物代谢动力学和药物效应动力学过程。通过成功建立一级吸收一室模型,并模拟不同的临床给药剂量,以期为临床优化给药方案提供依据。本文采用微量稀释法测定替米考星对10~7、10~6和10~5 CFU/m L菌量猪肺炎支原
本文部分证明了Hernandez和Leclerc的猜想:?=2,g为A3型李代数[45].具体地,量子仿射代数Uq(A3)的有限维表示范畴的某个满子范畴C2是cluster代数A(Γ2)的monoidal范畴化.也就是说,C2的Grothendieck环R2同构于cluster代数A(Γ2),并且A(Γ2)中所有cluster单项式和cluster变量(包括frozen变量)分别对应于C2中的所有
切换系统是一类典型的混杂系统,具有广泛的实际应用背景和重要的理论研究价值,从而引起大量学者的广泛关注。一般地,切换系统是由若干个子系统和作用在这些子系统上的切换信号构成。切换信号的引入使得切换系统的动力学行为变得更加复杂,系统可能产生各个子系统所不具有的动态行为。因此,切换系统可以精确描述复杂的非线性过程。对于连续时间切换线性系统,虽然谱坐标是刻画切换线性系统性能的一个重要指标,但是谱坐标的计算或
水稻秸秆还田作为基质饲养蚯蚓,既可以减少秸秆直接焚烧带来的环境污染,蚯蚓的代谢产物又可以做有机肥料供作物生长所需,是实现循环农业模式的有效措施之一。转Bacilus thuringiensis(Bt)水稻释放的Bt蛋白可以通过秸秆还田等方式进入土壤中,从而对土壤非靶标动物造成潜在的风险。本研究将水稻秸秆分别和土壤按1:19比例均匀混合,用其培养赤子爱胜蚓(Eisenia fetida),分别评估了
混沌理论是应用数学的一个重要分支,其原因在于大量它的潜在理论应用到各个领域,如工程、物理、经济、生物及其他科学.混沌理论侧重研究具有对初始条件高度敏感性的动力系统的行为E. N. Lorenz提出了Lorenz系统,并开启混沌现代理论的研究.Lorenz型系统推动了混沌科学的发展.同时,超混沌系统比一般混沌系统具有更为丰富的复杂动力学,因而超混沌同步在大量应用领域有广泛的研究.基于Lorenz系统
本文主要研究两类非线性发展方程:广义浅水波方程和Boussinesq方程组.本文中研究的广义浅水波方程是常见浅水波方程在可积系统中的推广.它们在水波,非线性光学,激光和等离子体物理领域有着重要意义,并在数学上有着广泛的理论研究价值.本文主要是讨论这些方程的局部适定性,并附有一些不适定性以及有限时间爆破准则的结果.Boussinesq方程组是大气、海洋环流,自然通风和中央供暖系统等问题中一个非常有用
偏微分方程是描述自然现象的一类重要数学模型,也是孤立子理论最前沿的研究课题之一.本学位论文主要对广义Zakharov方程组、BBM-like B(m,n)方程、广义Kd V方程等几类偏微分方程的非线性波解及其分支进行研究.利用微分方程的定性理论、动力系统分支方法、符号计算及数值模拟等多种方法综合研究,一方面获得了上述几类方程的孤立波解、扭波解、周期波解、爆破波解、广义扭波解、广义紧波解等精确解的表
Lorenz在1963年首次发现第一个混沌吸引子以来,混沌理论在许多领域中获得了前所未有的发展.五十多年以来,对混沌的研究已经成为现代非线性科学最核心的研究课题之一.Lorenz系统被认为是混沌的第一个数学模型,是混沌学发展史上的一个重要的里程碑,具有举足轻重的意义.具有两个或两个以上正的Lyapunov指数的混沌系统被称为超混沌系统,相对于混沌现象,超混沌系统的吸引子轨道在更多方向上分离.因此超