基于Simhash算法的海量文本相似性检测方法研究

来源 :计量与测试技术 | 被引量 : 0次 | 上传用户:lanqishi1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对Simhash指纹值进行相似性度量计算。最后以民机研制领域的工序数据为实验数据进行相关实验,实验结果表明:改进的方案性能得到提高,并且总体优于Shingle算法和原Simhash算法,能够实现大规模文档中相似性的精确检测。
其他文献
<正>最近看了一篇文章,其观点是孩子的学习不好,归根结底是学习习惯培养的失败。但我更愿意将其原因归结为:学习能力的培养不够到位,孩子不知道如何学,从而形成"家长一味叫嚣
总结了1例使用高压注射器静脉注射碘海醇外渗使患者局部组织损伤的护理。主要包括马铃薯切片外敷、冰敷、50%硫酸镁湿敷、适当抬高患肢、口服抗组胺药。认为应急处理时用马铃
广袤皖西,厚重古城,皋陶封地,上古有名;先圣九族九德,天秩五礼五刑。春秋芍陂润泽,楚地沟浍丰盈。符坚淝水惊马,刘安八公显灵;衮衮诸公东逝水,郁郁人文坐春风。拂去尘封岁月,
期刊
<正>家政服务工作是面向家庭、面向家庭成员的工作。在家庭中的每一个人都有可能从不同的方面影响到我们的工作。无论在哪一个家庭中工作,我们当然希望这个家庭人际和谐、婚
期刊
众所周知,微课是现代信息技术与教育教学技术交互发展的必然产物之一,在现代教育教学领域中得到了非常广泛的应用。作文课作为长期以来制约小学语文教学发展的瓶颈问题,很多
梦中之事,说起来,想必是猫儿们最为精通。若不然,为何这些小家伙们一天的光景,定要用去大半在梦中神游。倘若它们也曾做过这“红楼一梦”,梦中那些让人们二百年来都参不透的
按照传统的语义学理论,人称指示语的使用要遵守一定的人称数量和性质的准则。但是在现实的交际活动中,说话人会使用表面上看来是混乱或错误的人称指示语。本文通过大量例证,
综述集束化干预在护理领域的应用研究。主要包括对集束化干预在ICU、外科以及其他领域方面的应用。目前集束化干预策略在我国主要应用于感染的预防与控制,在外科等领域逐渐开
<正>猫历×年×月×日,猫国皇宫,翰林院。猫太监:大学士江米条接旨……江米条:(跪倒)臣猫在!猫太监:奉天承运,猫帝诏曰——为记载猫国万事,为后猫所借鉴,特命翰林院掌院江米
在装饰工程中,项目管理是其关键构成部分,所以装饰企业要采取科学、高效的方式来提升项目管理水平,进而促使企业自身在发展中持续壮大。基于此,本文首先对装饰工程项目管理的