面向博客的检索排序算法研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:hanjiezm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着博客影响力的不断增加,博客被更多领域的人作为交互和表达思想的工具,并以站点的形式在万维网上形成了博客空间。面对博客空间的急剧膨胀,博客搜索也变得必要迫切。尽管现有的针对普通网页的传统搜索已比较成熟,但对博客检索的效率并不高,因为博客站点在内容本身和之间的关系上不同于传统网站。如何在众多的博客中找到对用户来说重要的博客网页(或博文)或博客站点,最重要就是:如何定义博文或博客站点的“重要性”,并根据这种重要性对博客进行排序。博客是由一系列的博文组成的,用户搜索的一般目的就是寻找感兴趣的博文。因此可以把博文“重要性”作为博客排序的依据。影响博文重要性的因素有内容相关,链接关系或发表时间。本文从前两个因素出发分析博文与查询的相关度。本文提出了依据证据排序的SGRM (Space Graph Ranking Model)算法。首先提出了证据BE (Blog Evidence)的定义,并给出了根据博文证据进行博客排序的框架。博文通过三元组融合了“博文-博客”关系信息和“博文-词条”内容信息,并分别用矩阵表示。“博文-博客"关系矩阵信息的表示是通过实现从博文与博文关系再到博客关系的转移,“博文-词条"内容矩阵通过经典的VSM (Vector Space Model)表示的。接着,对得到的“博文-博客”矩阵和“博文-词条,,内容矩阵,先使用主成分分析PCA(Principle Component Analysis)法对这两个矩阵进行降维,之后使用了共轭梯度法对降维得到的两个低维矩阵进行联合,优化得到一个表示博文隐含语义空间LSS (Latent Semantic Space)矩阵;最后对LSS矩阵,用KNN (K Near Neighbour)法构建了一个隐义图LSG (Latent Sematic Graph)。最后,结合重排序思想和拉普拉斯特征映射LE (Laplacian Eigenmaps)的方法,构建了一个正规化排序框架,该框架包含初次查询的相关博文的相关度及其LSG子图。经过实验分析,得到最优排序性能下排序框架参数的设置;并在该参数下与其它排序方法进行比较,显示了较好的性能;同时分析隐含语义空间图对排序的影响,得到了较优排序性能下的参数设置。
其他文献
搜索引擎作为一扇通往互联网高速信息的窗口,已成为广大网民日常生活中不可或缺的重要组成部分。搜索引擎的功能改进和性能优化一直以来都是业内研究的热点问题。未来搜索引
近年来国内外学者对本体理论和本体构建技术的研究不断深入,但是本体的构建大多处于一种各自为阵的状态,造成资源的大量浪费,本体的重用和共享程度低。在这种背景下,构建一套
本体是共享概念模型的形式化规范说明。随着语义Web的发展,本体的开发及应用越来越多,这必然会引起本体异构问题。本体映射能够很好的解决本体异构问题。   本体映射是发
图像受获取和存储、处理及各种干扰的影响,不可避免地会带有噪声。因此,对含噪图像进行去噪处理,提高图像的质量,就成为一个重要的研究课题。对于图像的去噪问题,目前小波系
计算机上音乐技术的研究与应用随着计算机语音技术和互联网技术的飞速发展得到了前所未有的进步。歌声合成对于人机交互、音乐教学、音乐创作、娱乐等领域有着广阔的发展空间
数字版权管理,也称DRM(Digital Rights Management),是出版者用于控制被保护对象使用权的一系列技术,这些技术限制数字内容以及硬件的使用。是保证数字内容在整个生命周期内
随着现代医学的不断进步,超声心动图在临床诊断领域的应用越发广泛。如何针对采集到的超声心动图完成进一步处理,以增强其作为辅助诊断方式的可靠性,成为近年来国内外研究的热点
近年来,我国正处于突发公共事件高发时期,如自然灾害、事故灾难、社会安全、公共卫生等。为了积极应对突发公共事件,国务院常务会议于2005年1月26日通过了《国家突发公共事件
以多媒体、网络技术为代表的现代信息技术促进了教学的快速发展,使教学环境、学习方式发生了巨大变化。与此同时,人们对于支撑网络教学的应用程序的需求持续增长,要求也越来越高
伴随着教育信息化的发展,Web技术与e-Learning使人类学习环境发生了根本性的变革。为构建跨组织、跨系统平台的海量知识融聚共享环境,人们提出了学习对象(LearningObject)的