论文部分内容阅读
随着互联网和信息技术的迅速发展,存储在个人计算机中的数据正以前所未有的速度增长。据统计,从2000年至2004年的5年内,个人计算机中的文件数量增长了2倍,文件平均大小增长了75%,文件系统容量增长了7倍。如何有效地组织和管理这些数据是用户面临着的重要问题。为此,有关个人信息管理的研究日益受到关注。个人信息是由个人保存的、且为自己所用的信息,这些信息完全由个人控制。个人信息管理是个人通过存储、组织和检索等过程对个人信息的管理,其目的是便于今后再次使用这些信息。对用户任务的准确理解,有助于改善个人信息管理的质量和为用户提供个性化的信息检索服务。用户任务是人们为了完成一定的目标而采取的行动。在个人信息管理中,用户任务被具体化为至少需要两个以上的文件来完成的目标。有许多研究利用与文件相关联的上下文信息来提高任务识别的能力。然而,这些研究缺乏对用户阅读时间、应用程序窗口切换信息、文件内容和元数据的综合利用。针对这个问题,提出了一种基于上下文的任务识别方法。用户对本地文件的阅读时间和应用程序窗口切换信息,构成了基于用户行为的上下文信息。同时,由本地文件的内容和元数据,如文件名、创建时间、修改时间、访问时间和文件大小等,构成了基于文本的上下文信息。在将任务识别问题转化为针对文件的多类分类问题之后,根据这些上下文信息,采用支持向量机方法进行求解,最后识别出文件属于哪个任务。实验表明,用户的行为信息,尤其是阅读时间和窗口切换信息,是提高任务识别能力的重要影响因素。网页搜索为用户从海量网页中快速找到所需的信息提供了有效的途径。现有的个人计算机文件系统在为用户提供文件组织和存储的同时,很难满足用户对本地文件快速检索的需求。于是,出现了基于检索的个人信息管理系统─个人信息检索工具。早期的个人信息检索工具,只提供基于内容的检索排序结果。后来出现的基于上下文的检索系统,缺乏对个人计算机中上下文信息的充分运用和高效检索排序方法的使用。为此,提出了一种基于上下文的个人信息检索框架Hsearch。系统先执行基于内容的检索,然后根据上下文信息,利用排序学习算法对基于内容的检索结果进行重新排序。上下文信息包括UI层的用户访问行为信息、文件内容和元数据。与现有的收集用户在文件系统层的行为信息相比,UI层的信息能够更加准确地反映用户的真实意图,并降低由当前应用程序、操作系统和后台进程产生的背景噪声。在分析个人计算机用户行为时,现有的桌面检索工具很少考虑用户与Web浏览器之间的交互行为。为了充分利用个人计算机中的上下文信息,同时考虑到Web浏览器的影响,提出了一种基于上下文的个人信息检索排序方法,并在Hsearch系统中实现了该方法。上下文是关于文件内容、元数据和用户在UI层行为的信息。根据应用程序窗口切换信息和用户的阅读时间信息,提出了概念document-window switch tree用于描述用户访问文件时的动态行为。根据上下文信息,利用排序支持向量机方法对内容检索的返回结果进行重新排序。实验表明,用户在UI层的行为信息和排序支持向量机方法的运用,使得该方法的性能优于现有的增强上下文的排序方法。