【摘 要】
:
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法
【机 构】
:
湖南工业大学计算机与通信学院,中南大学信息科学与工程学院
【基金项目】
:
国家自然科学基金资助项目(61350011,61402165), 湖南省自然科学面上基金资助项目(14JJ2115,2015JJ3058), 湖南省教育厅科技研究基金资助项目(14C0325), 湖南工业大学自然科学研究基金资助项目(2014HZX17)
论文部分内容阅读
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。
其他文献
为了解移动图书馆的可用性,选取了5所省级公共图书馆的移动APP为评价对象。依据运用德尔菲法与层次分析法构建的移动图书馆可用性评价指标体系,设计用户测试与调查问卷,获得
分析了建立跨系统图书馆服务联盟的必要性以及存在的问题,结合“江门五邑联合图书馆”项目的实践,阐述了如何开展跨系统图书馆服务联盟建设,为其他地区图书馆联盟建设提供经
[摘要]目的:认识消毒供应室职业危害,掌握防护对策。方法:认知消毒供应室消毒环节各种流程,分析职业危害发生条件,加强自身保护措施。结果:通过调查发现,现阶段消毒供应室所面I临的伤害主要包括人员工作环境设施差、职业人员缺乏对危害因素的认知、职业人员欠缺必要的防护措施。结论:在加强职业人员培训,制定职业安全保护制度,提高职业人员保护意识的同时,要保障消毒供应室防护力度,规范消毒流程,完善人员防护设施。
老年人是高血压的高发人群,且并发症较常见。文章探析了老年高血压患者的发病特点、诊断要点及治疗原则。
中国科学院广州生物医药与健康研究院张天宇研究组构建了无抗性筛选标记的稳定自主发光的分枝杆菌,其研究成果Engineering More Stable,Selectable Marker-free Autoluminescen
介绍了一种新型无溶液泵和精馏装置的氨水吸收式制冷空调系统,确定了系统在空调工况运行的基本参数,并针对该系统定义了一个新参数,即发生器溶液存留系数然后对系统热力性能
为了利用线性调频步进雷达获得高速运动目标的高分辨距离像,提出了基于高速运动模型的频域合成带宽方法.该方法根据运动目标雷达回波的精确模型建立运动补偿因子,并在时域将回波
针对一类具有饱和执行器的马尔可夫跳变系统的H∞控制问题,提出一种基于模态跳变的动态输出反馈控制器的设计方法,并在保证闭环系统随机稳定的基础上,设计出了动态输出H∞控