【摘 要】
:
随着社交网络的快速发展,微博受到了越来越多用户的关注。为方便用户从这些海量的数据的发现与特定主题和事件相关的微博,大部分社交网站中都包含一些主题标签。一方面,主题
论文部分内容阅读
随着社交网络的快速发展,微博受到了越来越多用户的关注。为方便用户从这些海量的数据的发现与特定主题和事件相关的微博,大部分社交网站中都包含一些主题标签。一方面,主题标签随着微博快速产生并且没有组织化的管理,这样导致推荐主题标签给特定的用户存在着巨大的挑战。另一方面,当前的微博搜索系统建立索引时并没有充分考虑主题标签的主题相关和事件相关的特性,这样搜索的结果并不能很好的满足用户的需求,并且会导致建立索引和索引维护的开销变大。针对上述问题,提出了一种基于LDA主题模型的个性化主题标签推荐方法和一种基于主题标签的微博搜索方法。在推荐方法中每个用户的特征向量用Hashtag-LDA中的用户-主题分布表示,其中Hashtag-LDA是一种基于LDA的主题模型,该模型对微博中的主题标签,单词和用户联合建模。推荐方法首先根据用户特征向量找到和指定用户相似的top-k用户,然后计算出每个主题标签在用户所有微博中出现的次数,最后评分较高的主题标签便会推荐给特定的用户。另外,为了充分利用主题标签的主题相关性和事件相关性,更好的满足用户搜索热点事件的需求,基于主题标签的搜索方法在索引阶段只是索引和事件相关的微博,然后利用一系列评分机制来给出和搜索关键字相关的微博。为验证推荐方法和搜索方法的性能,采用Twitter数据集对这些方法进行了测试。实验结果表明Hashtag-LDA确实能够增强主题标签对隐含主题分布的影响,从而提高推荐方法的性能;搜索方法在减少索引的复杂度和查询的开销的同时能够保证查询结果的相关度。
其他文献
基于神经网络的分类器是模式识别领域中广为使用的一种分类方法。为了得到精度很好的神经网络分类器模型,需要对神经网络的训练数据进行特征约简,删除冗余特征和无关特征。约
神经网络泛化能力是影响其可用性的重要方面,如何提高泛化能力日益受到关注。一种普遍情况是一些神经网络在训练阶段能够取得很好的训练精度,但在实际应用阶段却产生了较大的
空间曲线的旋转最小标架在计算机图形学、计算机动画等领域受到广泛的关注。旋转最小标架在扫曲面建模、三维漫游、运动插值等方面有着重要的应用。由于空间曲线的旋转最小标
RDF作为语义网框架的一项核心概念,因其表达灵活、方便的特点,常被用来表示结构化或非结构化数据。越来越多的RDF数据,为大数据分析提供了数据资源,使得专家学者们开始研究分
电子商务的发展以Internet信息系统为基础,其环境具有开放性,网络欺诈现象不可避免,信任模型的研究便成为热点。对参与交易活动的实体进行信任评估,既可以降低交易风险,又能
随着教育部对教学信息化的支持,课程中心的建设受到广泛的关注。通过调研国内排名前50的大学,70%的高校仍未完成课程中心的建设。而在已完成的课程中心中,存在着网络课程资源
随着互联网技术的不断发展,P2P己经成为发展最迅猛的网络应用之一。据权威机构统计,P2P业务已悄然占据了互联网业务总量的60%-80%,成为消耗互联网宽带的杀手级应用。然而,还
传统的“尽力而为”机制已不能满足用户的需求,由此,面向服务质量的网络体系结构应运而生。因而为了获得更高的服务质量,本文提出了基于QoS的网络拓扑结构优化模型QoS-OSM。Q
随着网络的不断发展,信息的交流越来越广泛。针对以往C/S和B/S模式下的客户端软件效率低的问题,提出了高效率、可移植性的富客户端概念。以富客户端软件设计为实例,分析了基
CT诊断报告是放射科医生对CT图像结果的客观描述。随着计算机辅助诊断系统的发展,CT图像中肺部疾病辅助诊断已经在很大程度上减少放射科医生的工作量以及单独阅片的疏漏,进而