基于minwise哈希的文档复制检测的研究及应用

来源 :中南大学 | 被引量 : 0次 | 上传用户:hulei_1188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WEB正经历着爆炸性增长,海量文档中存在大量的相似信息,这些相似性文档一方面消耗了高额的检索资源,另一方面影响了用户的使用。文档的数字化和易获性也使得非法复制、剽窃等行为越来越猖獗。为保护知识产权和提高信息检索效率,文档复制检测技术应运而生并得到迅速发展。文档复制检测就是判断给定文档是否抄袭、剽窃或者相似于一篇或多篇文档的内容。论文以某基金项目相似性检测为实际应用背景,为了在海量数据环境中快速而准确地检测出文档的相似性,主要研究相似性检测系统中涉及的关键技术,重点研究相似度估计算法、相似度检索算法和基于SIMD优化的相似度比对等关键技术,具体进行了如下的研究工作:(1)针对文档相似性检测系统中精度和存储空间只能取离散值、粒度过粗的问题,提出了分数位minwise哈希算法,验证了分数位minwise哈希算法的可行性,构造了使得估计方差最小的最优分数位。分数位minwise哈希算法将整数位minwise哈希扩展到分数位,突破了b整数位的限制,使得相似度可以使用分数位来估计,不仅完善了minwise哈希算法的理论体系,也为实际系统中的用户对于相似度估计的精度和存储空间更加细粒度可选择性需求提供支撑。(2)针对文档相似性检测效率不高的问题,提出了连接位minwise哈希算法。连接位minwise哈希算法将位连接起来进行相似性度量,证明与推导及实验结果显示算法虽然牺牲5%精度,却能成倍地减少比对的次数,大大提升算法的时间性能。一方面,连接位无需任何复杂的操作,方便构建;另一方面,亿万级文档的相似度的估计,通过损失一定的精度误差,获得了性能的成倍提升具有很强的实际应用意义。(3)针对海量文档相似性检索中相似度阂值不能设置过低,初始指纹数少等问题,提出了指纹分组合并检索算法,理论推导及实验结果表明算法能够在低相似度阈值(比如70%)下快速地从已有的文档集中检索目标文档,从而实现相似性文档查询的实时性,并且由于降低了相似度阈值,也增大了相似性检索的应用范围。(4)针对某基金对相似性证据快速采集和清晰呈现的特殊需求,提出了基于SIMD优化的相似性比对算法。通过使用SIMD指令集和OpenCL框架对相似度比对算法进行了一系列的优化,实验结果表明优化算法提升了可提升11.6%-170%的时间性能,一方面使得相似性有迹可循;另一方面也有利于人工复审工作。(5)针对某基金项目相似性检测系统中存在的项目数据难以准确快速提取、海量项目数据比对时间超长、比对结果难以清晰呈现等关键问题,论文论述了如何采用所研究的关键技术形成完整的基金项目相似性检测系统,并为基金项目形式审查提供支持。
其他文献
用热的盐酸溶解脱硫灰样品,用氯化钡溶液沉淀硫酸盐,经过滤灼烧后,以硫酸钡形式称量,测定结果以二水合硫酸钙计算。进行了硫酸钡沉淀的形成时间与测定结果的关系试验;确定了氯化钡
从受控自由度数、磁力产生方式、磁极结构形式、控制电流性质等方面对磁悬浮轴承进行了分类与比较。针对各种典型磁悬浮轴承给出了其结构与磁路示意图,并进行了定性分析与比
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
节能玻璃作为一种新型的功能玻璃,是现代和未来节能建筑的关键材料,在未来将有更加广泛的应用.本文主要概述了建筑节能玻璃的种类和工作机理,介绍了行业的发展趋势,最后提出
一2017年,伴随《人民的名义》的热播,剧中颜值担当陆毅没火,呆萌耿直的达康书记却火得一塌糊涂。他为什么会这样火?穿着不符合高级领导的标配,语言也完全没有官腔,达康书记完
在汽车生产过程中,需要用到组合式的开关,而此类开关中都会涉及较多的线束,并且价格价位昂贵,因此为了进一步解决此种问题,就需要设计一个能够以无线技术为基础的电气控制系
思想政治理论课是中国高校对大学生进行思想政治教育的主要途径。囿于教学内容滞后、教育形式单一和计划多于实践等因素,高校思想政治理论课对大学生爱国主义教育的效果受到影
目的探讨不明原因肝功能异常患者的临床特点、病因学及鉴别诊断,以便及时治疗,改善临床预后,减少晚期肝病的发生。方法收集2010年1月至2012年12月以肝功能异常原因待查入院的
为了规范智能驾驶车辆道路测试,深圳市2018年3月20日出台关于规范智能驾驶车辆道路测试有关工作的指导意见(征求意见稿),规定了测试中请管理、事故处理和责任认定等方面内容。