汉泰双语新闻事件链的构建与存储方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:pfeiyuan2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国“一带一路”战略的提出,中国大力发展同沿线国家的经济、政治、文化等方面的合作。泰国作为“一带一路”沿线的国家之一,因此两国的交流与合作得到加强。作为两国人民获取信息的渠道之一是网络上各种新闻资源。但是,网络新闻具有大量性和无限性。如何从大量杂乱无章的新闻报道中快速、有效的获取新闻事件要素信息已成为当前迫切需要解决的问题。因此开展汉泰双语新闻事件链的构建与存储研究就显得十分重要。本文针对汉泰双语新闻事件链的构建与存储开展了相关研究,主要完成以下特色研究工作:(1)基于依存树和规则相结合的汉泰新闻事件要素抽取方法。首先分析汉泰语言特点,发现泰语最主要的特点是定语、状语和补语后置,其它和中文的语法结构类似。研究发现汉泰依存结构相同,因此通过构建汉语依存树然后映射中文句法结构得到泰语依存树。其次根据泰语特点定义若干规则,通过构建的依存树和本文定义的规则相结合抽取句子的主语、宾语和状语。最后通过实验论证,基于依存树和本文定义的规则相结合可以较好的抽取出泰语新闻事件元素。(2)基于汉泰词汇链构建汉泰事件链方法。新闻事件中事件触发词数量庞大导致涉及的事件要素角色众多,因此直接构建事件链相当困难。研究发现词汇链与事件链非常紧密相关,词汇链经过处理可以触发事件链。但是泰语和汉语均存在一词多义现象,因此构建词汇链之前需要进行判断事件句是否含有歧义词,如果含有歧义词则采用本文方法进行消岐处理;如果没有则不需要消岐处理。然后经过上述处理后根据本文提出的候选词算法进行原始词汇链的初步构建;其次根据新闻特点提取特征对原始词汇链进行优化处理得到最强词汇链;最后,根据本文提出的算法(词汇链与触发词关系)在给出的语料上完成事件链的构建,从而验证本文方法的可行性。(3)基于Ne04j图模型的汉泰新闻事件链存储方法。针对构建的事件链间语义关联性及连续性和异构等特点,本文提出了基于Neo4j图数据库的新闻领域中事件链的RDF数据存储方法,该方法分析了新闻领域中事件链的RDF有向标记图结构和Neo4j图数据库存储模型之间的联系,然后给出了RDF图和Ne04j图模型之间的映射关系,最后将RDF表示的新闻事件链数据存储在图数据库Ne04j。
其他文献
许多三唑类化合物具有优良的杀菌和植物生长调节活性,如三唑酮、三唑醇、烯效唑、烯唑醇等,对常见真菌病害具有很好的防治效果,并具有增产、抗倒和生长调节作用,已成为重要的
感官评价是了解食品感官特性的重要工具,近年来逐步应用于蔬菜育种领域。其中,喜好度检验在评价蔬菜品种是否受消费者喜爱等方面发挥着重要作用。我国菠菜种质资源丰富,将消费者喜好度检验应用于菠菜品种筛选,探究不同品种的感官特性及喜好度差异,可为今后的菠菜育种工作提供参考信息。在本课题研究中,首先,以40种菠菜为研究对象,结合消费者喜好度检验和理化分析,探究影响消费者对生、熟菠菜喜好度的因素及消费者感官评价
鲤鱼作为一种重要的经济鱼类,在内蒙古中西部地区是主要的养殖对象,从1994年流行鲤鱼暴发病以来,每年各种鱼病给当地的养殖者带来了很大损失。为此,我们对该地区的鱼病进行调
您听说过鱼也有再生能力吗?看这儿,尾巴全短了一节,不过不要担心,它们很快就会长出新的尾巴,瞧,和海参一样它也有再生的能力,够奇特吧,这样的鱼也一定很有营养。看到这儿您也
针对模式类别边界曲折而模糊的复杂化学模式分类问题,提出一种化学模式模糊分类方法,并给出其模糊神经元分类器设计和网络训练算法,使模糊神经元分类器具有学习功能.以一个应