数据源敏感的多源XML数据相似度量方法

来源 :华南理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:panweilu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.
其他文献
我的母亲不信主,不信教,不烧香,不磕头,就是见不得可怜的人,听不得可怜的事。她说自己眼窝儿浅,好流泪。其实,她是太善良、心太软。在我的记忆里,她给断了腿的小鸡接过骨,给眼睛发炎的小猫洗过眼,也给生下来就没奶的四只小狗喂过奶粉。  母亲是父亲的第二个妻子。父亲的前妻过门不到三年就病故了,也没留下一男半女,娘家还有一个残疾的老娘,罗锅着腰,一只手伸不直,五个指头分不开。不成景儿的那几年,她常常挎个小笆
我默默地倚在窗边,阳光明媚,空气里隐约有花的香气。这似乎是一个灿烂的午后,可一切美好都在离我远去。  其实,我也没有那么失落和悲伤,有时会想流泪,可又说不出到底在感伤些什么。默默地望一会儿天空,它有时阴暗低沉,有時却蔚蓝明朗。晚饭后从食堂走出来,夜风微凉,天边挂着寥落的星子,披着夜露的微光,我静静想着心事。  独自坐在黑暗的操场中央失神,夜跑的学生一个接一个跑过,他们呼吸有些急促,我想象着他们有一
教育事件,主要是指在教育教学过程中的突出事件,是对所有教师都有启迪、警示作用的重要事件,我园注重将发生在教师身边的教育事件作为典型案例引入园本研修,有效地促进了教师的专业成长。    事件一:排查安全隐患,学习应对策略    事件描述:在进班调研中。我们发现年轻教师对幼儿很有亲和力,也能细致照顾孩子的生活和学习,但也多次发现他们不注意活动中的安全隐患,特别在上下楼梯、外出活动时,年轻教师经常只管带
本文综述了铁族硬质合金的性能特点,重点关注了WC-Co基硬质合金的研究现状,归纳了通过添加不同组分对硬质合金性能的影响,介绍了粉体制备、烧结工艺、制备过程中的相变以及界