基于机器学习算法的隐喻识别研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:googoosin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐喻是自然语言处理领域最棘手的问题之一,这个问题逐渐引起了学者们的关注,并且隐喻在思维及语言中所处的中心地位也逐渐为自然语言处理研究者所认同。隐喻是通过一个事物来表达另外一个事物,它不仅是一种修辞手段,而且体现着人的一种类比认知和思维方式。实际上,隐喻现象是一切自然语言中普遍存在的现象,是自然语言处理不可回避的问题,因此隐喻问题若得不到很好的解决,将成为制约自然语言处理和机器翻译发展的瓶颈。近几年来,在隐喻识别方面,机器学习方法和大规模知识获取成了新的亮点。本文选择汉语文本中的隐喻计算问题作为研究对象,以隐喻识别为研究内容,从名词性隐喻和动词性隐喻这两种最主要的隐喻类型入手,采用多种机器学习算法,广泛地探讨了隐喻的识别方法。本文选择了20个常用的隐喻词语,使用2001年—2004年的《人民日报》语料进行隐喻识别研究,主要研究内容如下:基于有监督学习的隐喻识别。针对名词性隐喻和动词性隐喻这两类主要的隐喻类型,提出了基于RFR_SUM模型、SVM算法、CRF模型、最大熵模型和语义相似度计算模型的隐喻识别方法。分类方法为识别隐喻提供了一个机器识别的思路,考察了主流的分类方法在识别隐喻时的性能和效果。其中,RFR_SUM模型识别性能比较稳定,名词性和动词性隐喻的正确率的稳定性保持地最好。另外,CRF模型的识别正确率比SVM算法的略高,但是效果最好的是语义相似度计算模型。这个模型在采用K近邻分类算法的基础上,融入了语义相似度计算,使它的隐喻识别性能得到提高,是五个模型中隐喻识别正确率最高的。此外,对五个模型的实验结果进行了基于投票的集成实验。使隐喻识别正确率得到提升,名词性隐喻正确率达到87.74%,动词性隐喻正确率达到85.27%。基于聚类算法的隐喻识别。在聚类过程中,样本间的相似度使用了基于同义词词林的向量空间相似度计算和基于知网的语义相似度计算两种方法,采用K-means算法原理,并对K-means算法的随机选择初始聚类中心的方法进行了优化。聚类实验设计了三个方案来提升隐喻识别结果的正确率,其中方案二不仅利用了近距离搭配信息,也考虑了远距离的特征信息,使实验结果得到提高。基于半监督算法的隐喻识别。探讨了利用K-means算法和RFR SUM模型对隐喻识别进行半监督学习的方法,该算法是在分类实验和聚类实验的基础之上实现的。不仅利用了已标记样本的信息量,而且运用了未标记样本提供的信息,提高了隐喻识别的正确率。最后,构建了用于隐喻计算的小型隐喻知识库。在隐喻研究的实验结果基础上,利用算法抽取隐喻类的特征词,并把特征词依据对应的RFR值进行排序,建立基于隐喻特征-RFR值这种结构的隐喻知识库。此外,通过基于知识库的隐喻计算实验,验证了构建的隐喻知识库的有效性。总之,本文的研究工作主要是基于机器学习算法和知识获取方法,探讨了各种机器学习算法进行隐喻识别的实验思路,避免了手工知识库和规则方法的不足,积累了多种机器学习算法进行隐喻识别的大量实验数据,获得了隐喻识别研究较理想的实验结果。本文研究方法可以为隐喻计算、隐喻理解、隐喻本体研究及自然语言处理相关研究提供支持。
其他文献
信息网络技术的飞速发展使信息的发布和共享超越了时空限制,中文信息处理技术逐渐成为热点研究课题。中文自动分词是中文信息处理的基础,词典算法的设计直接关系着分词系统的
学位
随着互联网重要性的增加,大量的信息涌现在人们眼前。推荐系统被设计成根据用户的偏好来帮助人们发现最相关的项目。使用最广泛的个性化推荐技术是协同过滤,它基于其他用户的
随着网络技术的飞速发展,信息借助于网络快速的传播。高速广域网和宽带城域网等在企业通信中得到广泛的应用,促进了现代社会中企业信息化水平的提高,增强了企业的市场竞争力
近年来,随着无线移动通信和移动终端技术的高速发展,无线Ad hoc网络不仅在军事领域中得到了充分的发展,在民用领域也得到了广泛的应用。无线Ad hoc网络有着许多独有的特点,例
无线传感器网络技术整合了分布式信息处理技术,嵌入式计算技术、无线网络与通信技术、传感器技术等,被广泛应用于各种领域,是二十一世纪最具有影响力的技术之一。无线Mesh网
随着城市经济的发展和城镇化建设的逐步推进,对电能进行实时高效地管理是一件迫切的事情。同时,为了提高电力行业的自动化管理水平,电力部门希望对以前的旧系统进行升级改造。另外,城市老居民区的改造、新用户楼和保障房的建设,它们为电能管理领域的技术研究提供了环境和广阔的应用空间。首先,本文针对电能管理系统的发展现状和存在的问题,分析了电能管理系统的总体结构和基本组成元素。同时,本文还对比分析了各种通信技术的
水果由于其口感较佳及富含丰富的维生素及其各种膳食纤维,而深受广大消费者的喜爱。从世界范围内来看,我国是传统的果树种植大国,同时水果的生产量和出口量也位列世界前茅。随着
所谓的“光流”(optical flow),指从图像序列的连续两帧图像中复原出位移场,可以作为图像理解、图像分析等许多相关领域的基础,如何估计光流是计算机视觉领域的一个核心问题
网络技术和新应用发展迅速,但同时也面临了大量的网络安全问题,最根本的原因源于网络系统自身的脆弱性,可信网络成为网络研究的新思路。通过在已有安全技术的基础上增加行为