论文部分内容阅读
近些年,人们满足自身信息需求的方式发生了深刻变化。例如,移动设备如今无处不在。据报道,人们在移动端的搜索量已经超过了 PC端的搜索量。我们在本文中主要研究多种交互模式(多模)下的问题解答技术;利用这种技术,人们既可以提供自然语言的问句,又可提供图片。本文通过整数线性规划函数及定义多模约束来实现上述目的。实验结果表明,即使面对难度很大的模糊实体搜索,本文方法也可提供准确答案。当前智能问答技术的工作一般都基于文本展开。其中一类方法是将用户的自然语言问句,提取出能够表达主要含义的的一个或多个关键字,然后通过网页或文本的搜索引擎进行查找,如2001年Kwok和Etzioni等的Scaling question answering to the web工作。尽管基于关键字的方法现在被普遍使用,但学术界和工业界一直在寻求更准确、更高效的查询方式。此类工作最先进水平的智能问答系统,是通过模板将自然语言的问句过滤为符合模板的问句。另一类方法是试图通过知识库(Knowledge Bases)或知识图谱(Knowledge Graph)方式来解答问题。早期基于知识库的智能问答系统,如BASEBALL、SHRDLU和LUNAR,只能解决某特定领域内的问题。随着知识库的发展,智能问答技术逐渐从特定领域问答扩展到多领域,如早期的依托手动创建的知识库的Unix Consultant和LILOG系统。近年来,智能问答系统更多的依赖于关联数据网络(web of linked data),如 DBpedia、Freebase 和 Yago 等。IBM 的 Watson 项目将自然语言问句进行文本处理后,通过DBpedia和Yago进行逻辑推理得到答案。2012年,Watson机器人在著名智力竞赛节目"Jeopardy"战胜了人类。本文提出了使用自然语言处理和图像检索两种方式对用户提供的问句进行分析,在基于文本的智能问答技术上进行拓展,建立多模式问答系统。在用户提出自然语言问句的同时,我们还允许用户提供照片、手绘图等方式,表达其所想得到的答案的图像。然后,我们对文本和图像处理进行并行处理,处理的结果在Yago知识库上进行逻辑推理,通过线性优化的方式得到最优解。实验表明,使用文本和图像两种方式,能够使得用户表达的信息更为明确,更好的使机器理解用户的问句含义,对消除用户问句中实体的歧义,非常有效果。随着用户通过移动设备获取图像越来越便捷,我们扩展智能问答技术的输入也成为可能,用户使用移动设备可以很便捷的同时提供文本和图像进行查询,综合考虑自然语言和图像检索时可提升问题回答的准确率。另外,本文研究也有助于推广利用多种交互模式条件下的多媒体知识库。随着在线多媒体内容的爆发式增长和移动设备的高度普及,将来对多种交互模式(音频和视频)下的多媒体搜索领域的研究需求会不断增长。