一种基于聚类的多语言文本相似记录检测算法

来源 :第18届全国数据库学术会议 | 被引量 : 0次 | 上传用户:zhangluyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了在多语言文本条件下如何检测相似重复记录,提出了一种有效的综合方法,其优点是时间复杂度小,检测精度高,能很好地适应数据规模地变化.
其他文献
XML正在成为Internet上应用程序数据交换的标准.而目前大量的数据存储的关系型数据库、面向对象数据库或传统系统中.要发挥XML的潜力,我们需要可以将其它类型的数据自动转化
工程建设随着经济的发展在不断发展,使得建筑单位在追求经济效益的同时也逐渐加强了对于社会效益的追求。在这样的背景之下,各建筑单位逐渐加强了对于工程建筑质量的提高。事实
4月初,全国人大代表在两会期间提出的7950件建议,由全国人大常委会办公厅统一交由180个机关和单位研究处理。其中,事关新农保的建议主题非常集中:新农保试点面较小,实现全面
介绍了用于为飞机液压系统提供液压动力的手推式高压油泵车在体积、重量、功率、噪声等方面的改进,以及新增自循环清洗及联机系统清洗、离线和在线污染度检测等功能,满足了使
社会的发展与城市的建设给生态环境带来了很严重的破坏,使得我们的环境气候日益恶劣,造成了全球气候变暖,臭氧层遭到破坏等,也更加加剧了城市建设与生态环境保护之间的矛盾。因此
本文对遗留系统采用系统重建方法试图从这次重建实践中抽取一些具有一般性的系统重建和原则或模型.
本文讨论用模糊聚类技术来分析Weblog,寻找用户的浏览模式.
近年来,我国的城市化进程有了很大进展,在城市中燃气管网的建设越来越多。由于城市燃气管网络在现代社会建设中占有越来越重要的位置,一些业界有名的专家和学者对燃气管网的铺设
随着我国社会经济发展的不断加快,大量的乡镇人口不断涌入城市中,推动了我国城市化的进程,城市的建设也因此开始进入到了新的发展时期。与此同时,城市规模的快速扩张也给城市的发
当前全球面临着非常严峻的生态环境问题,在城市规划设计中应用生态学原理和相关知识打造生态城市,能够实现资源和能源的再利用,达到保护生态环境的目的。