论文部分内容阅读
主要介绍了设计开发Web主题信息采集系统的一个核心算法--超链接主题预测算法.文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果.