基于相关背景图的主题微博用户发现方法的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:aswangxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网用户的急剧增长,以及网络应用的进一步深入,用户个性化的需求不断增长,通用搜索引擎难以满足某些特殊用户群体的需求。主题爬行技术作为一种新颖的搜索技术应运而生,更新周期快,它资源消耗少,更重要的是能满足用户的个性化需求。相关背景图(Relevancy Context Graph)可以收集给定主题的背景知识,并根据这些背景知识给每个待访问网页分配一个优先访问值,从而指导爬虫的爬行方向。但是,在相关背景图的背景知识构建中没有充分提取出网页之间的链接结构信息,同时也没有充分考虑网页之间的语义关系。因此,许多噪声网页并没有被有效的过滤掉。此外,相关背景图的主题特征词的定义也隐藏着一些缺陷。本文的贡献总结如下。(1)优化了相关背景图,并应用相关背景图在微博中收集与主题相关的用户。在优化的过程中,借用社会网络中朋友链接预测的思想,重新设计了背景图中的链接结构关系,考虑了网页之间更多的结构关系,利用向量空间模型(Vector Space Model)以及语义向量空间模型(Semantic Similarity Vector Space Model)去过滤掉一些噪声网页,保证背景图的有效性。(2)利用背景图中词之间的语义关系去扩展主题特征单词,并有效地计算了扩展的主题特征单词的分布。(3)提出了一个经过链接分析和语义分析优化后的相关背景图的爬虫。(4)利用囊括各个领域的大量中文网页构建了中文通用语模型。(5)利用改进的相关背景图计算出的特征主题单词的分布以及通用语模型,结合微博中传播者的寻找技术,本文定义了主题传播者的计算方法。主题传播者会引导网络爬虫向更好的方向去收集微博主题相关的用户。我在各个阶段都做了相应的实验,实验结果证明本文的方法是有效的。
其他文献
随着高新科技的发展,从个人生活到大型企业,再到军事等各方面领域都开始向智能化时代转变。交通业的高科技智能化时代也悄然到来。本文设计了一种汽车近距离高精度定位通信辅助
近年来,隐形牙齿正畸受到了广泛的关注,成为牙齿正畸领域最有价值的研究方向之一。一方面它能克服传统牙齿正畸的缺点,如舒适度差、不够美观与治疗时间长等;另一方面,其它相关学
随着互联网的发展,人们已经习惯了从网络上获取信息。主题搜索引擎越来越受到学术界和企业界的广泛关注。主题搜索引擎主要搜集那些与特定主题相关的网页。主题爬虫是主题搜索
近年来,云计算因为其廉价、高可伸缩性等特点,受到了广泛的关注,也获得了极大的发展。PaaS(平台即服务)是云的重要组成部分,它能够把一个完整的软件研发和部署平台都作一种服务提供
随着电子商务技术的愈发成熟,电子商务的模式也不仅仅局限在普通的网络购物形式中,各种基于互联网技术的创新概念与创意产品不断的被推出。竞拍这种紧张刺激,又富含技巧的交
全局光照渲染技术是计算机图形学领域的热点问题之一,目前该领域中主要存在两个核心问题需要解决:渲染质量和渲染速度。而文物数字化领域对渲染技术具有以下需求:展示交互性以
人脸检测技术是模式识别、图像处理等学科的一个最热门研究课题之一。随着社会的发展,各方面对快速有效的自动身份验证的要求日益迫切,而人脸检测技术作为各种生物识别技术中
组合测试旨在解决待测软件系统中因庞大组合空间引起的测试用例规模爆炸问题。通过系统有效的方法能够减少测试用例的数量,然而测试时依然无法提供充足的资源用于执行测试用例
视频目标跟踪是计算机视觉研究领域的一个重要组成部分,它融合了模式识别、图像处理以及人工智能等诸多相关领域的知识,在民用和军事等领域得到了广泛应用。例如:智能监控、城
生物认证技术是近年来一门新兴的技术,它所拥有的独特优点,是传统身份认证技术没有的,被广泛的应用在金融、公共安全、日常生活中。本文针对确认模式下,人脸与语音两种生物认