论文部分内容阅读
当用户通过在网络上寻找自己需要的信息时,使用最多的工具是搜索引擎。然而作为商业工具,搜索引擎的结果也并没有让用户特别满意。当然用户可以自己逐一筛选找出有用结果。但是如果要进行Web信息融合,直接使用搜索引擎的结果会加大信息融合的工作量,甚至可能导致结果不准确。本文在这样的背景下提出了基于信息融合的Web信息可信度评估。通过分析搜索引擎在网页可信度评估方面的不足,再根据Web信息的特点和信息融合的要求,得出影响Web信息可信度最重要的指标网页相关度。本文对网页相关度的计算进行了研究,构建了信息可信度评估指标体系,提出了可信度计算方法。本文主要内容如下:1.分析现阶段使用较多的计算网页相关度的算法,根据信息融合的特征,提出本文采用的算法词频位置加权排序算法。根据原有算法的缺点,提出改进设想。引入了TextRank模型来提取主题词,并在原有的TextRank模型基础上加入词语本身的位置权重。既引入了词语的语义概念,又考虑了词语所在网页的位置,提高了主题词提取的准确率。计算相关度时,将词语在提取主题词步骤计算出词语的权重引入公式中,还考虑了主题词与查询词的语义相似度。相关度计算考虑了词语间的语义关系、词语的频率和位置,使得计算更准确。2.归纳了现有的信息可信度评估指标,通过分析搜索引擎在可信度评估方面的不足,构建了本文采用的信息可信度评估指标体系。从权威性、重要性、相关性三个方面来评估可信度,每个方面选取最相关的指标,提出了计算可信度的公式。通过这个公式计算的可信度是综合考虑了几种最有影响力最客观的指标,使得可信度的值也最接近信息融合的需要。3.设计与实施了可信度评估系统来验证上述方法的有效性,并对结果进行了分析。结果表明,本文提出的算法具有一定的有效性和实用性。