论文部分内容阅读
随着Internet和信息检索技术的迅猛发展,Web成为人们获取信息的重要途径,而搜索引擎则成为从Web中获取信息的重要工具。传统的搜索方式是:用户向搜索引擎(比如Google、百度)提交查询,搜索引擎则依据提交的查询给用户返回一组相关文档列表。但是很多时候用户需求的并不是文档本身,而是文档中包含的实体信息。因此如何从众多的Web文档中找到用户需求的实体信息成为近年来的研究热点,而相关实体发现研究正是针对用户的这种特殊实体查询需求而产生。相关实体发现是指给定一个由源实体、目标类型和源实体与目标实体的关系描述构成的查询,找到符合要求的一组实体。返回的实体需要满足查询要求的类型,但是给定的目标类型经常非常粗糙,这导致无法对得到的实体进行准确的类型判断,针对这个问题我们做了如下的工作:1)提出一种自动获取细粒度目标类型及其下义种子实体的方法。通过对查询语句的句法分析获取细粒度目标类型,利用查询模板获取目标类型的下义种子实体。2)提出一种基于归纳法的细粒度目标类型下义类别判别规则集合获取方法,对于数量较少的种子实体,利用归纳法获取细粒度目标类型的下义类别判别规则集合。3)提出一种基于特征提取的细粒度目标类型下义类别判别规则集合获取方法,对于数量较多的种子实体,利用学习到的最佳特征提取方法获取细粒度目标类型的下义类别判别规则集合。由于初始检索到的候选实体是无序的,要想得到满足用户查询要求的实体,必须对所有的候选实体进行排序,针对该问题我们做了如下的工作:1)提出了一种基于生成概率模型的实体排序方法。从实体相关度、实体类型相关度和实体关系相关度三方面的组合计算来对实体进行排序,通过对比多种组合方法,获取最佳的排序方法。对于实体类型相关度的计算使用了两种方法,一种方法是基于归纳法获取的细粒度目标类型下义类别判别规则集合,利用不同的规则集合数进行实体类型相关度计算,另一种方法是基于特征提取方法获取的细粒度目标类型下义类别判别规则集合。对于实体关系相关度计算,评估了两种平滑方法对实体排序的影响,并提出了一种去停止词重构关系的实体关系相关度计算方法,提高了排序效果并降低了时间耗费。2)提出了一种基于马尔可夫随机场的实体排序方法。该方法将实体用文档、类型和名称三个属性表示,利用学习到的最佳权重参数通过线性合并查询与候选实体表示文档的相关度、目标类型与候选实体类型的相关度以及源实体与候选实体名称的相关度来对实体进行排序。相关实体发现任务中,实体被定义为由其唯一的主页所表示,因此对所有的候选实体排序后,还要找到实体的主页。针对实体的主页查找问题,提出了一种查找方法,通过合并Web页面的多属性表示得分和实体的Wikipedia页面外部链接得分来实现实体的主页查找。实验结果表明,我们提出的方法可以有效的完成相关实体发现任务,大量的减少用户人工获取相关实体信息的工作,并为用户提供一个有效的结果。