论文部分内容阅读
随着互联网和知识经济的发展,越来越多记载着人类各种知识的文本出现在计算机和互联网上,网络上的海量信息和知识为人们的科研、学习、工作和生活提供了丰富的资源,极大地推动了社会的进步。所以人们希望从计算机和互联网上获得更多的知识,从而推动了实现智能化的文本处理以快速的从互联网文本中获取知识的研究已成为计算机科学技术领域的新热点。
在客观世界知识和语言文字的发展过程中,文字中也出现了越来越多的复杂词汇语义现象,例如新词和复合词现象,同义词现象和多义词现象。为了实现智能化的文本处理,首先必须建立一个适合自然语言(自由文本)处理系统使用的词汇知识库。
自然语言处理系统要求使用格式化的知识,并且只能根据文本中局部的上下文信息进行词汇语义理解和文本分析。当前各种由知识工程师或语言学专家手工编撰的传统词典(包括著名的WordNet和HowNet)并不十分适合于自然语言系统的使用,一方面是因为它们没有完全实现知识结构的格式化,另一方面是因为它们没有包含最新的词汇知识。而其他各种从文本中获取词汇知识的研究中,有的只关注于特殊类型词汇的识别,有的只关注于研究同义词的问题,有的只关注于词汇语义关系的研究。由于没有全面的考虑文本中存在的各种词汇语义的复杂现象,不但获得的词汇知识各有缺陷,并且也无法组成一个适合自然语言处理系统使用的系统化的词汇知识库。
针对自然语言处理系统对格式化词汇知识的需求,以及当前各种词汇知识库和词汇知识获取研究存在的缺陷,本文首先研究了适合自然语言处理系统使用的概念知识库的体系结构,然后以构建概念知识库为目标研究了各种词汇知识获取算法。为了能从最新的、庞大的文本库上获取知识,进行了基于语义内容的网页正文自动化提取研究。为了解决中文分词系统无法正确识别文本中的组合词(包含了新词和复合词)的问题,进行了文本中组合词识别和修正的研究。提出了一种格式化的概念表示方法(文本中概念),分析了以这种方式表示的概念知识能同时解决词汇的同义性和多义性问题,并研究了从文本中提取这种概念的理论和算法。分析了语义关系的两种表示方法(动词语义关系和语法语义关系)及其各自的特点,并分别研究了基于海量文本的动词语义关系挖掘算法和基于句子模式的语法语义关系挖掘算法。本文最后开发了一个原型系统,通过应用这些算法,建立一个包含了很多新知识的概念知识库,证明了本文各项研究工作的的意义和正确性。
本文的创新性主要有以下几点:
1、从人类的知识结构出发,研究了人类知识中的概念与语言文字中的词汇的复杂关系,然后结合自然语言处理系统的工作模式,提出了一种更加适合自然语言处理系统使用的概念知识库,最后构建了这个概念知识库。与当前的各种词汇知识库比较,这个概念知识库的知识直接来源于文本,包含了更适合自然语言处理系统使用的各种词汇知识。
2、通过研究人类的认知模式,提出了基于语义内容的网页正文提取算法。与当前各种基于网页标记格式的提取算法相比,这种算法完全不受网页格式的影响,能有效的处理各种不同格式的网页,是一种真正的智能网页正文提取算法。
3、基于自动分词系统的工作模式和局限性,提出了“组合词”的概念,并提出了基于文本中组合词分布规律的识别算法。与当前各种词汇提取算法和词分割算法相比,组合词的概念和组合词识别算法的优点在于,即是对分词系统缺陷的完整解决方案,又无需借助专业的语言学知识,对各种类型的词汇和文本都有很好的移植性。
4、提出了一种格式化的概念表示方法,即文本中概念,并提出了从海量文本中提取文本中概念的算法。与当前各种算法所获取的词汇含义知识比较,文本中概念所表示的知识更加接近人类知识体系中的概念,并且能同时解决词的多义性和同义性的问题,更加适合自然语言处理系统的使用。
5、提出了概念之间动词语义关系的概念和基于海量文本的动词语义关系挖掘算法。当前的语义关系挖掘研究都集中于对概念之间的语法类型语义关系(例如,部分整体关系)的挖掘,与概念之间的语法类型语义关系相比,动词语义关系更加接近人类知识体系中的概念关系,更加适合于应用在人机对话系统中。