论文部分内容阅读
网络科技与智能手机的发展和普及让互联网成为人们获取新闻最重要且广泛的途径。然而,互联网每天发布的新闻信息量大大超出了人们的信息处理能力。于是,如何帮助人们快捷的发现及时、新颖和对自己有益的新闻成为在线新闻网站迫切需要解决的问题。新闻个性化推荐便是一个有效的解决方案。新闻描述文件和用户描述文件是新闻个性化推荐中的两个重要支撑。“隐私保护”限制了推荐系统获取用户属性信息的可能性,导致用户描述文件成为一个包含多份新闻描述文件的集合。因此,如何构建高质量的新闻描述文件成为了新闻个性化推荐研究的重点和难点。现有研究大多基于关键词构建新闻描述文件,然而,关键词很少考虑文档的上下文语义关系。而上下文语义关系在表述一篇新闻报道的要点、情感趋向和隐含信息方面是不可或缺的元素。尽管有研究利用本体补充语义关系,但是本体构建与维护所需的长时间周期违背了新闻个性化推荐的及时性和新颖性原则。关键短语能够保存上下文语义关系,而众包则具有短时间周期的优势,于是,本文针对“基于关键短语和众包的新闻个性化推荐中描述文件构建问题”进行研究,具体研究内容如下:(1)基于序列模式挖掘和熵的关键短语抽取研究。关键短语是一个或多个词语的有序组合,该组合包含上下文语义关系。本文依据“一个有效的关键短语中不会重复出现同一个词语”的共识,提出了一个新的关键短语抽取方法KeyRank。该方法包含KCSP和PF-H两个部分。KCSP基于序列模式挖掘技术搜寻候选关键短语,PF-H通过计算候选关键短语的熵来充分评估它们的三个固有属性——有意义性、不稳定性和无用性。实验表明,KeyRank在抽取关键短语方面具有很好的表现。(2)基于众包的关键短语抽取和质量提升研究。新闻个性化推荐所涉及的新闻报道通常篇幅较短,且包含出现频率很低的新兴实体,导致关键短语的抽取工作需要较强的上下文理解能力。尽管基于知识库的机器学习方法具有一定的上下文理解能力,但是精确性较为低下。领域专家具有很高的精确度,却需要长时间周期。因此,本文利用众包完成“直接抽取关键短语”和“提升机器学习方法抽取的关键短语的质量”这两个任务。实验显示众包能够很好的完成这两个任务。(3)基于众包的新闻影响相关性研究。一篇新闻尽管在内容上不符合用户偏好,但是其所传递的隐含信息却对用户所处区域和所关注行业产生较大的影响。向用户推荐此类新闻,能够帮助其在日常生活中做出更好的决策。通常一篇新闻所传递的隐含信息无法从字面获取,同时被影响区域和行业也不会在内容中被提及,这就导致机器学习方法无法分析新闻的影响相关性。本文利用众包评估新闻的影响相关性。实验表明众包在评估新闻的影响相关性方面具有很好的表现。