数据源敏感的多源XML数据相似度量方法

来源 :华南理工大学学报：自然科学版 | 被引量 : 0次 | 上传用户：panweilu

【摘要】

：

将预处理后的XML数据当作文本信息采用词频-逆向文档频率（TF-IDF）模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率（I

【作者】

：

王继奎李少波

【机构】

：

中国科学院成都计算机应用研究所,贵州大学现代制造技术教育部重点实验室

【出处】

：

华南理工大学学报：自然科学版

【发表日期】

：

2014年7期

【关键词】

：

XML 数据集成文本处理数据源敏感度 XML XML data integration text processing data source-sensit

【基金项目】

：

国家科技支撑计划项目（2012BAF12B14,2012BAH62F01）, 贵州省科技项目（黔科合重大专项字[2012]6021,黔科合计工字[2012]4009）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

将预处理后的XML数据当作文本信息采用词频-逆向文档频率（TF-IDF）模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率（IDF）的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.

其他文献

母亲说她眼窝儿浅

我的母亲不信主，不信教，不烧香，不磕头，就是见不得可怜的人，听不得可怜的事。她说自己眼窝儿浅，好流泪。其实，她是太善良、心太软。在我的记忆里，她给断了腿的小鸡接过骨，给眼睛发炎的小猫洗过眼，也给生下来就没奶的四只小狗喂过奶粉。　　母亲是父亲的第二个妻子。父亲的前妻过门不到三年就病故了，也没留下一男半女，娘家还有一个残疾的老娘，罗锅着腰，一只手伸不直，五个指头分不开。不成景儿的那几年，她常常挎个小笆

期刊

我的母亲烧香可怜

期中考试失利了……

我默默地倚在窗边，阳光明媚，空气里隐约有花的香气。这似乎是一个灿烂的午后，可一切美好都在离我远去。　　其实，我也没有那么失落和悲伤，有时会想流泪，可又说不出到底在感伤些什么。默默地望一会儿天空，它有时阴暗低沉，有時却蔚蓝明朗。晚饭后从食堂走出来，夜风微凉，天边挂着寥落的星子，披着夜露的微光，我静静想着心事。　　独自坐在黑暗的操场中央失神，夜跑的学生一个接一个跑过，他们呼吸有些急促，我想象着他们有一

期刊

香气天空有花失利空气流泪

借助教育事件,为教师成长铺设台阶

教育事件，主要是指在教育教学过程中的突出事件，是对所有教师都有启迪、警示作用的重要事件，我园注重将发生在教师身边的教育事件作为典型案例引入园本研修，有效地促进了教师的专业成长。　　　　事件一：排查安全隐患，学习应对策略　　　　事件描述：在进班调研中。我们发现年轻教师对幼儿很有亲和力，也能细致照顾孩子的生活和学习，但也多次发现他们不注意活动中的安全隐患，特别在上下楼梯、外出活动时，年轻教师经常只管带

期刊

教育事件教师成长台阶铺设教育教学过程警示作用专业成长典型案例

硬质合金切削刀具研究进展

本文综述了铁族硬质合金的性能特点,重点关注了WC-Co基硬质合金的研究现状,归纳了通过添加不同组分对硬质合金性能的影响,介绍了粉体制备、烧结工艺、制备过程中的相变以及界

期刊

硬质合金硬质合金刀具耐磨性界面cemented carbidecemented carbide cut toolwear resistancein

数据源敏感的多源XML数据相似度量方法

其他学术论文