论文部分内容阅读
随着中国“一带一路”战略的提出,中国大力发展同沿线国家的经济、政治、文化等方面的合作。泰国作为“一带一路”沿线的国家之一,因此两国的交流与合作得到加强。作为两国人民获取信息的渠道之一是网络上各种新闻资源。但是,网络新闻具有大量性和无限性。如何从大量杂乱无章的新闻报道中快速、有效的获取新闻事件要素信息已成为当前迫切需要解决的问题。因此开展汉泰双语新闻事件链的构建与存储研究就显得十分重要。本文针对汉泰双语新闻事件链的构建与存储开展了相关研究,主要完成以下特色研究工作:(1)基于依存树和规则相结合的汉泰新闻事件要素抽取方法。首先分析汉泰语言特点,发现泰语最主要的特点是定语、状语和补语后置,其它和中文的语法结构类似。研究发现汉泰依存结构相同,因此通过构建汉语依存树然后映射中文句法结构得到泰语依存树。其次根据泰语特点定义若干规则,通过构建的依存树和本文定义的规则相结合抽取句子的主语、宾语和状语。最后通过实验论证,基于依存树和本文定义的规则相结合可以较好的抽取出泰语新闻事件元素。(2)基于汉泰词汇链构建汉泰事件链方法。新闻事件中事件触发词数量庞大导致涉及的事件要素角色众多,因此直接构建事件链相当困难。研究发现词汇链与事件链非常紧密相关,词汇链经过处理可以触发事件链。但是泰语和汉语均存在一词多义现象,因此构建词汇链之前需要进行判断事件句是否含有歧义词,如果含有歧义词则采用本文方法进行消岐处理;如果没有则不需要消岐处理。然后经过上述处理后根据本文提出的候选词算法进行原始词汇链的初步构建;其次根据新闻特点提取特征对原始词汇链进行优化处理得到最强词汇链;最后,根据本文提出的算法(词汇链与触发词关系)在给出的语料上完成事件链的构建,从而验证本文方法的可行性。(3)基于Ne04j图模型的汉泰新闻事件链存储方法。针对构建的事件链间语义关联性及连续性和异构等特点,本文提出了基于Neo4j图数据库的新闻领域中事件链的RDF数据存储方法,该方法分析了新闻领域中事件链的RDF有向标记图结构和Neo4j图数据库存储模型之间的联系,然后给出了RDF图和Ne04j图模型之间的映射关系,最后将RDF表示的新闻事件链数据存储在图数据库Ne04j。