文献结构化的细粒度检索技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:qqqq406340142
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
采用自然语言处理等人工智能技术增强搜索引擎的智能化程度以及用户体验自然程度,是现代搜索引擎发展的推动力。本文以此角度入手,侧重发现用户的潜在查询意图,提供更细粒度、更准确的检索结果。具体到文献领域,本文以问题和方法为查询意图模板,从用户输入的查询识别查询问题、方法或问题与方法的查询解析,提高搜索引擎的智能程度和用户体验。具体采用知识图谱技术从文本中抽取表示问题和方法的实体,将无结构文献结构化为文献图谱,并在此数据结构上进行查询,实现面向问题-方法的细粒度检索。具体工作如下:1)面向问题-方法的查询模型:为了提供更加智能的检索结果,本文提出建模用户的潜在查询意图。具体到文献领域,将用户查询需求概括为问题和方法两个维度的信息需求,可以描述以问题为中心、方法为中心以及问题和方法为中心的查询。2)查询意图解析及匹配:使用命名实体识别技术抽取实体及类型信息,表示查询意图,并利用马尔可夫随机场图模型建模查询、查询实体与文档的联合概率进行匹配。利用图模型能够捕捉节点依赖关系的特点,建模实体内在依赖关系,并结合查询和文档的实体类型特征实现(1)所定义的检索方式。3)基于知识图谱的查询扩展:为了解决查询语义匹配以及用户信息不完整问题,提出基于知识图谱表示学习的查询扩展模型。在(2)的基础上,通过知识图谱相关技术将非结构化的科学文献抽取成结构化的学术知识图,然后利用知识表示学习将符号化的实体映射为低维稠密向量,最后在向量空间搜索近邻实体对查询进行扩展,提供语义近似匹配能力,缓解查询不匹配及信息不完整问题。4)实验和评估:通过在开源数据集ESR上的对比实验,验证了本文提出的方法的有效性。实验显示本文提出的检索模型能够有效的利用实体及实体类型信息提升检索性能;本文提出的查询扩展方法能够有效的缓解用户查询信息不完整问题。
其他文献
黄芪是传统的大宗中药材,广泛用于临床、保健及日用品开发。发掘黄芪根际微生物的固氮潜力,是实现生态种植、减肥增效、减少环境污染的有效措施之一。本研究从山西省黄芪道地产区浑源县、静乐县、甘肃省陇西县采集2年生蒙古黄芪根系及根际土壤样品,分别以YEM和Ashby为初筛培养基分离黄芪根瘤菌和根际固氮菌;对各菌株进行表型特征鉴定、生理生化测定和16S rRNA基因序列分析;用菌液浸种播种后,观察黄芪幼苗的结
黄素依赖型单加氧酶(FMO,E.C.1.14.13.8)是除了细胞色素P450(CYP450,E.C.1.14.14.1)之外,人类代谢系统中最重要的单加氧酶系统之一,它与外源物的代谢及毒物的多种应答有关。