S—SimRank:结合内容和链接信息的文档相似度计算方法

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户:reinhardwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档的内容分析和连接分析是计算文档相似度的两种方法。连接分析能够发现文档之间的隐含关系,但是,由于文档之间的噪声的存在,这种方法很难得到精确的结果。为了解决这个问题,提出了一个新的算法——S-SimRank(Star—SimRank),有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性。S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高。最后,给出了S—SimRank的收敛性的数学证明。
其他文献
在无线传感器网络环境中,用户经常提交空间范围查询以获取网络某局部区域的统计信息,如最大温度、平均湿度等。现有的基于路线的空间范围查询处理算法假设节点通信模型为理想
我国企业近几年来在营销策略运用过程中 ,存在低价竞争、炒作造名、品牌透支和 4P’S简单化等陷阱。在当今市场环境下 ,企业要生存和持续发展下去 ,必须避免上述陷阱 ,实施质量营销、系统营销和整合营销
无结构对等网络最大的问题就是数据查询成功率与查询开销的矛盾,传统的洪泛查询带来的网络开销过大,而低开销的随机走、扩展环等查询方式又无法保证查询的成功率。提出了一种将
港口钢丝绳使用中易出现早期压扁与断丝等情况,本文就如何提高集装箱起重机钢丝绳使用寿命的方法与措施进行了探讨。
在七种情况下喝豆浆,不利于人体对养分的消化吸收,反而有害健康。  一、豆浆性质偏寒,消化不良、嗝气和肾功能不好的人,最好少喝豆浆。另外,急性胃炎和慢性浅表性胃炎者不宜食用豆制品,以免刺激胃酸分泌过多加重病情,或者引起胃肠胀气。  二、豆浆里不能加红糖,因为红糖里面有多种有机酸,它们和豆浆里的蛋白酶结合,不容易被人体吸收。而加白糖就不会有这种现象。  三、有人喜欢用暖瓶装豆浆来保温,这种方法不足取,
数据流随时间演变具有突发性及随机性的特点,如何自适应、实时追踪这种变化是数据流挖掘面临的一个重要问题,完全由用户通过试探来甄别这种变化在实际中无法实现,同时也失去了数
美研究发现清晨吸烟将大大增加患癌几率    美国宾夕法尼亚州立医学院的研究人员在美国《癌症》杂志网络版上撰文分析说,吸烟时间与罹患癌症风险大小之间可能存在关联,清晨起床先吸烟将吸入更多的尼古丁以及其他烟草毒素,更容易使人上瘾,产生更强的尼古丁依赖性。  研究人员对4775名肺癌患者与2835名未得癌症的烟民进行分析,结果发现,与起床1小时后吸烟相比,起床后31分钟至1小时内吸烟罹患肺癌的几率要高3
随着Web服务组合的发展,整合业务过程成为可能。组合Web服务可以被看作是基于过程的工作流。由于死锁、不安全和不可达等流的设计错误会影响组合Web服务的有效执行,因此这些错
英国曼彻斯特大学的天文学家认为,他们已经在银河系里发现一颗由曾经的庞大恒星转变而成的体积较小的行虽,这颗行星完全由钻石构成。这个国际性科研组最初发现一颗与众不同的恒
提出了分布式不确定数据上概率skyline的低通信开销算法。首先给出了一种间接的对象分布信息——剪枝空间,分布节点通过共享全局剪枝空间,能够减少通信开销。为了降低传输剪