【摘 要】
:
软件抄袭已成为软件生态环境健康发展的严重威胁之一。目前,胎记技术是实现软件抄袭检测的一种最为有效的手段。然而,随着多线程程序成为主流,传统动态胎记技术无法对抗多线程程序中线程交织的干扰,导致检测性能过于随机甚至发生误判。现有的针对多线程程序的线程感知胎记方法,均针对程序单条轨迹进行分析,方法本身存在诸多局限性。此外,现有方法的胎记构建方式在很大程度上依赖于人工提取和经验观测值,未经过任何真实训练。
论文部分内容阅读
软件抄袭已成为软件生态环境健康发展的严重威胁之一。目前,胎记技术是实现软件抄袭检测的一种最为有效的手段。然而,随着多线程程序成为主流,传统动态胎记技术无法对抗多线程程序中线程交织的干扰,导致检测性能过于随机甚至发生误判。现有的针对多线程程序的线程感知胎记方法,均针对程序单条轨迹进行分析,方法本身存在诸多局限性。此外,现有方法的胎记构建方式在很大程度上依赖于人工提取和经验观测值,未经过任何真实训练。因而难以推广到未知的数据集,泛化能力不强。对此,本文通过模式提取和表征学习,提出了三种新颖的针对多线程程序的抄袭检测方法,主要贡献如下:(1)提出了一种基于行为motifs的多线程程序抄袭检测方法,该方法基于多线程程序的动态执行轨迹集,通过轨迹修剪、gram匹配和扩展抽象,提取能够表征程序语义信息的行为motifs,在此基础上构建出线程感知的motifs胎记。实验结果表明,motifs胎记是一种可靠的线程感知胎记,可有效对抗当下主流的代码混淆手段,集成该胎记的检测系统在各种评估指标下,与现有方法相比均表现出更优秀的检测性能。(2)提出了一种基于频繁模式挖掘的多线程程序抄袭检测方法,通过监控多线程程序的动态运行过程捕捉程序执行轨迹集,利用数据挖掘技术从轨迹集中挖掘出频繁模式,约减后构建出动态线程感知胎记FPBirth。实验结果表明,FPBirth胎记具有较好的线程感知能力和抗混淆能力,集成了FPBirth的抄袭检测系统能够更好地处理多线程程序的抄袭检测。(3)提出了一种基于孪生神经网络的多线程程序抄袭检测方法,该方法设计深度神经网络模型实现程序高层语义特征向量的表征学习,借助孪生网络结构对原被告程序的语义特征向量进行融合,将融合后的特征向量送入多层感知机进行相似性度量学习,最后对多输入下的相似性值进行bagging集成得到原被告程序的相似性。基于提出的方法设计实现了多线程程序抄袭检测系统NeurMPD。实验结果表明,NeurMPD的检测准确率达到99%以上,且具备较好的弹性和可信性。
其他文献
随着数据采集手段的不断增多,真实数据往往由多个模态组成或来自多个来源,这样的数据称为多视图数据。对多视图数据进行机器学习任务称为多视图学习。如今,多视图聚类作为多视图学习的一个热门领域已经引起了研究者广泛的关注,它提供了一种将多视图数据划分成簇的方式。目前,大多数多视图聚类算法都假设所有的视图是完备的。但是,在实际应用中,每个视图数据可能存在样本的缺失,从而导致不完备的多视图数据。现有的多视图聚类
旋转机械是机械设备状态监测与故障诊断工作的重点,而滚动轴承是机械设备常用的部件之一,同时也是易损部件之一。机械设备的故障诊断越来越受到人们的重视,在目前的故障诊断领域,通过实时有效的检测方法采集到足够的信号样本并且客观地分析机械设备运行的状态信息,对判别不同工况下的故障设备状态以及对故障类型实现准确诊断具有重要意义。目前机械设备故障诊断主要有两种思路:一种是对机械设备的振动信号进行时频域分析,这种
视频监控下的人体异常行为检测与识别是公共安全领域的研究热点,但由于现实生活中的视频监控存在人体遮挡和相似异常行为难以区分的缺点,导致人体异常行为检测与识别效果差、实时性低。本文对基于视频监控的人体异常行为检测和识别算法进行研究,将深度学习技术应用于人体异常行为检测与识别任务中,构建了异常行为检测与识别两级级联网络,实现对公共区域的人体异常行为有效检测和识别。本文的主要研究内容如下:1.针对复杂场景
无线传感器网络作为一种新兴的移动通信技术,为无线通信和物联网行业的发展带来了广阔的前景。然而网络覆盖的优劣程度将直接影响网络的性能,有效的网络覆盖不仅能够提高网络的监控能力,而且能够改善网络的性能,延长网络的生命周期。本文在现有虚拟力覆盖算法的基础上,利用接受信号强度指示(Received Signal Strength Indicator,RSSI)构造新的虚拟力模型,分别对信号规则传输和信号不
乳腺癌是全球范围内危害妇女身体健康的最常见恶性肿瘤之一。钼靶X线摄影是临床上乳腺癌检测的主要影像学方法,在降低乳腺癌死亡率上发挥了重要作用。随着我国经济的持续发展以及妇女防治乳腺癌意识的提高,钼靶X线检查在我国各级医疗机构中得到大量应用。由于钼靶摄影对乳腺癌的检出率大约为0.3%~0.5%,健康妇女每年都参加钼靶摄影检查是对社会医疗资源的浪费;其次,乳腺钼靶检查存在一定的局限性和危害,如假阳性结果
心脑血管疾病一直是威胁全世界人民生命健康的重要隐患,具有非常高的发病率,已成为影响国民身体健康、阻碍经济发展的公共性和社会性问题,对于心脑血管疾病的预防和治疗刻不容缓。心律失常是最为常见的心血管疾病之一,其异常主要有两种表现形式,基于单个心拍波形变化的心律异常和基于一段时间内多个心拍节律变化的心律异常,两种形式的心律异常都会对人体产生不良的影响。近年来,计算机技术在辅助诊断治疗领域不断发展,心电信
随着国家的繁荣发展,人民的生活水平明显提高,注重物质生活的同时也开始培养内心的精神世界。国画作为我国传统文化的瑰宝之一,受到越来越多人的品鉴与收藏。因此,国画数字化的趋势越发强烈,有关国画数字艺术馆的管理需求使中国画图像的分类与识别技术成为了亟待解决问题中的关键。经分析发现,国画处理技术面临两个困难,其一是由于国画图像存在“语义鸿沟”,仅提取全局底层特征很难达到良好的分类效果,因此需要获得显著、有
网约车共享在很大程度上缓解了出行、环境和资源压力,网约车共享工作主要有两个方面:订单指派和路径规划。本文从这两方面出发,同时兼顾乘客和司机的利益,提出了基于矩阵划分的多目标订单指派算法(Matrix Partition-based Multi-Objective Order Assignment Algorithm,MPB-MOOAA)和基于地标分段的多目标路径规划算法(Landmark Segm
中国的葡萄种植面积和产量居世界第一,然而市场上劣质果品频频出现,果品的质量安全问题已成为制约我国葡萄产业发展的瓶颈。为了有效改善农产品存在的食品安全问题,本文以渭南市葡萄园为例,通过NB-Io T技术、RFID技术等物联网相关技术,并依托2019年“渭南市智慧葡萄园区物联网技术示范基地建设项目”,对园区环境信息无线感知部分与葡萄园RFID溯源管理系统展开研究工作,本文所做的主要工作如下:1、信息溯
在科技高速发展的时代,图像处理领域的需求有了众多的应用场景。针对硬件设备采集缺陷带来的无法获取真实场景的全部动态范围的问题,多曝光图像融合技术应运而生。然而多曝光图像融合技术本身在多类型场景中存在纹理细节信息丢失、产生光晕伪影等一系列问题,因此,多曝光图像融合技术有着重要的研究价值。为了提高多曝光融合算法结果在静态场景下的清晰细节信息和动态场景下的鬼影去除效果,本研究提出了多类型场景下的不同算法。