【摘 要】
:
随着互联网的不断发展,信息共享越来越方便,这就会导致剽窃问题层出不穷。单语剽窃问题在国内发展已较为成熟,但跨语言剽窃却刚处于新兴阶段。所以,研究跨语言剽窃问题是目前
论文部分内容阅读
随着互联网的不断发展,信息共享越来越方便,这就会导致剽窃问题层出不穷。单语剽窃问题在国内发展已较为成熟,但跨语言剽窃却刚处于新兴阶段。所以,研究跨语言剽窃问题是目前反剽窃领域乃至整个学术界都迫切需要解决的重要问题。本文通过构建一种基于多特征的跨语言剽窃检测模型,旨在能够根据从译文挖掘出的多种特征来解决跨语言剽窃问题。本文首先对单双语言剽窃的研究现状进行了分析与总结,给出了一种基于多特征的跨语言剽窃检测模型,该模型包括了基于多特征选择的跨语言剽窃分类和基于多特征对应的跨语言剽窃检测。对于跨语言剽窃分类来说,给出了基于多特征选择的跨语言剽窃分类方法。该方法主要是根据译者在进行翻译时出现的欧化现象挖掘出常见的译文特征,在对特征进行进一步的特征选择和特征权值的计算后,训练分类器,针对是否存在跨语言剽窃行为进行分类。在此过程中,给出了一种新的特征选择方法,该方法结合传统卡方检验方法,并在此基础上又考虑了文本中特征的数量以及在类别中特征的稳定程度两个因素来进行特征选择。对于跨语言剽窃检测来说,提出了基于多特征对应的跨语言剽窃检测新方法。该方法主要是根据译文特征和结构特征的对应来进行两次剽窃结果过滤。所谓译文特征对应,即将选择出来的特征与其英文的表现形式进行对应,提出一种计算段落之间特征距离的算法来比较对应的中英文段落。所谓结构特征对应,即将中英段落的结构进行比较,保留结构相似的段落,过滤结构差别大的段落。最后,用基于WordNet的方法对检测结果进行了相似度计算,最终达到了跨语言检测的目的。本文针对构建的跨语言剽窃模型,通过实验对比和实验分析,分别进行了分类结果和检测结果的验证,证明了所给出的模型的有效性和科学性。
其他文献
JBY是一家研产销于一体健康科技企业,拟打造与其核心竞争力相适应的新商业模式,为医疗行业中小型企业商业模式创新提供思路。本文利用PEST模型分析了大健康行业的宏观环境,并
股权激励,是一种以公司股票为标的,通过公司的董事、监事、高级管理人员以及骨干员工等获得公司股权的形式使他们获得一定的经济权利,从而使他们能够参与企业决策,并在分享企
对于非均衡医学数据的分类问题,由于各类别所含样本的数目相差悬殊,导致少数类样本被误分类的比例远大于多数类,因而传统的分类算法所建立的模型一般无法满足分类性能的要求
量子密码学是结合经典密码学和量子力学两门学科而形成的交叉学科,是信息安全领域中的新兴领域。随着量子计算技术的快速发展,依靠计算复杂数学难题的经典密码学的安全性受到严重的威胁。而基于量子力学特性的量子密码学受到了广大学者的关注,量子密码学包含众多分支:量子密钥分配、量子对话、量子身份认证、量子安全直接通信和量子密钥协商等。量子密钥协商(Quantum Key Agreement,QKA)是允许通信中
养殖业在我国农业占比很大,其中生猪饲养又是养殖业的支柱产业。抗生素被广泛用于我国现代养殖中。预计2030年我国投入到养猪业中的抗菌药物量将达到73435t,这其中有大约70%-90%的量并没有被吸收而直接排放进入环境中。诺氟沙星(Norfloxacin,简称NOR)是全球最广泛使用的抗生素之一,在我国养猪业中广泛使用,并在地表水和地下水被频繁地检测到。由于污水处理厂常规二级工艺未能对抗生素进行有效
供应商是市场供应链的重要“源头”,对于企业的生产和运营有着非常重要的意义。企业在同供应商进行沟通和交流的过程中,会通过物流、信息流以及资金流的统筹结合,从而追求最优化的绩效。然而,当前众多企业仍然只关注对处于流通终端的消费者的争夺,却未意识到供应商管理也是增强市场竞争力的至关重要的环节。这决定了有必要提升对供应商管理的认识高度,提高对供应商的管理水平,进行提升企业发展的科学性。Q公司作为一家中小型
统一战线是中国政治的重要内容,是党的总路线、总政策的重要组成部分。其实质是解决人心和力量的问题。在社会革命时期、社会主义建设时期、改革开放以来统一战线都发挥了重
镍是一种重要的金属材料,其合金应用普遍。镍基合金性能优良,具有良好的高温强度、抗腐蚀能力、抗摩擦磨损和耐疲劳等性能。将其以粉末的形式涂敷在基体材料上形成保护涂层,
目的使用颅后窝骨性减压+寰枕筋膜松解+硬膜外层剥离的手术方式治疗Chiari I型畸形合并脊髓空洞症,随访患者术后脊髓空洞、芝加哥Chiari畸形预后评分量表(Chicago Chiari Out
当前,在社会经济高速发展之余,犯罪的客观表现形式愈来愈复杂,导致很多案件在司法实践中难以定性。作为最常见的盗窃罪,由于其作案手段的多样化,容易与客观表现有“窃取”要