论文部分内容阅读
电视节目是人们普遍喜欢的娱乐方式之一。然而随着电视技术的高速发展,电视节目日益丰富的,人们不知不觉中已深处在电视节目的海洋中。电视节目包含了文本字幕,因而对电视节目的查找可间接地转换为对电视文本的搜索。为了帮助用户快速地查找到喜爱的电视节目,上海交通大学软件学院数字家电实验室和日立公司共同对电视节目的个性化搜索进行了研究,并开发了一个小型的个性化电视节目搜索原型系统。本文主要研究了基于文本的电视节目的个性化搜索,在文章最后可以看到我们的个性化搜索算法可以显著提高搜索质量。当前搜索引擎已经成为网民最普遍的辅助检索Web信息的工具。对于人们给定的查询,目前的网络搜索引擎返回的检索结果还令人满意,但是现在搜索引擎一个很大的缺陷是不能辨析用户的搜索意图。搜素引擎通常可以返回数以千计的结果,但只有极少数满足用户的需要。究其原因主要是现在通用的搜索引擎仅以用户查询关键字作为惟一的输入;而光凭关键字本身并不能完全代表不同用户的不相同的查询意图。假如系统掌握了用户的个人爱好信息,毫无疑问能够向用户提供更符合兴趣的查询结果。众所周知,每个人对查询结果的是否符合各自的需求的理解是各不相同的;个性化搜索目的是针对相同的查询,向不同的用户提供不同的且更满足其搜索意图的搜索结果。个性化搜索是当今搜索引擎领域热门的研究方向之一。在本文中,我们研究了通过使用用户反馈改进搜索质量、通过用户兴趣模型过滤和重排序搜索结果、通过用户扩展捕捉用户潜在的查询意图等途径来共同实现个性化搜索的方法。用户反馈通过显式或隐式的方式来反映出用户的兴趣爱好;用户兴趣模型通过学习用户反馈获得的反映用户喜好的文档后,被用来重排序初始的查询文档,使之体现个性化的结果;查询扩展是系统通过对用户查询关键字进行扩展,并经过用户兴趣模型的过滤,主动地向用户提供潜在的符合用户查询意图的查询关键字。在本文中,我所进行的研究主要包括:提出了综合了用户反馈、用户兴趣模型和用户查询扩展等方法的基于文本的电视节目个性化搜索系统的架构设计;提出了多兴趣的用户兴趣模型的建立、动态更新算法;提出了利用语义库和使用基于字符串相似的搜索日志IDF过滤等两种用户查询关键字扩展方法;提出了一种高效的变长索引压缩算法。