面向数据分析的汉语句法结构树研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:sbb20005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理(Natural Language Processing, NLP)领域的一个核心问题,高性能句法分析在NLP应用领域中发挥了重要的作用。由于句法规则很难穷尽,而且对汉语真实语料的处理能力不够,基于真实语料数据库的句法分析成为目前句法分析的主流。然而,由于汉语句子成分太复杂,直接对真实语料进行句法分析,性能很难提高,因此,本文首先基于规则和谓词识别技术,将汉语句子分割成多个汉语事件描述小句(Chinese Event Descriptive Clause, EDC);然后在构建数据库的基础上,采用基于面向数据分析技术(Data-Oriented Parsing, DOP)对汉语EDC进行句法分析;最后通过组合处理实现完整句子的句法分析。实验证明以上技术路线达到了较好的效果。本文完成的主要工作如下:1、学习面向数据的句法分析技术;2、构建数据库。DOP句法分析是基于真实语料数据库的,为此我们需要构建相关数据库,本实验需要的数据库有汉语问句类型库、问句句型库、问句疑问词库、句法片段库,句法截断库以及句法片段组合库等;3、提出面向事件描述小句的汉语自动句法分析的方法和步骤。本文提出在句法分析之前对真实语料进行小句划分的预处理方法,预处理阶段采用一种基于谓词识别和规则方法,将汉语句子分割成多个事件描述小句;然后基于DOP对汉语事件描述小句进行句法分析;最后通过组合处理实现完整句子的句法分析。该方法的好处是可以将句法分析的任务分步处理,将词数较多的复杂句简单化,从而提高句法分析的速度和精度。4、进行了详细的实验,基于CIPS-ParsEval2009提供的task5语料库上对陈述句句法结构分析树进行了训练和测试,取得的F-1测度分别为:Without-head match F1:82.78%; Complete-head match Fl:75%.在HIT提供的关于LOC类进行实验。Close测试的正确率达到94%。
其他文献
P2P(Peer—to—Peer)即点对点网络是随着网络的普及以及追求网络信息资源的有效利用而产生的网络计算结构。P2P网络中的节点是对等的,且可以同时作为服务器节点和客户端节点。
机器学习的目的是为了解决规模比较庞大,系统比较复杂的问题,因此如何挖掘及处理在大量数据中隐藏的潜在相关信息,从纷繁复杂的表象中提取出事物的本质特征愈显重要,并越来越受到
在我国的交通运输中,铁路一直以来都占据着重要的地位,随着铁路的不断提速,客运专线的陆续建成,铁路运能运力都大大提高,人们出行越来越方便。但是我国人口众多,流动性大,每逢年节,售
随着物联网水平化接入协议的逐步成熟与实用化,将设备直接接入云服务器以对设备进行实时访问逐步成为一种主流架构。由于现有互联网基础设施的限制,处于局域网中的物端设备往往
随着比特币、以太坊等加密数字货币的日益普及,区块链技术的研究和应用也日益兴起。区块链技术具有去中心化、安全可信和可编程等特点,引起了政府部门、金融机构、科技企业和资
射频识别(Radio Frequency Identification,RFID)技术被誉为本世纪十大技术之一,它是应用射频来自动识别单个物体对象的技术的总称。作为一种快速、实时、准确的信息采集与处理
为解决异构数据源的数据集成问题,本文设计了一个支持公共数据模型和统一查询语言XQuery的异构数据源数据集成系统框架。集成框架使用户不必考虑数据模型的异构性、数据抽取、
学位
网络的繁荣带动了电子商务产业的发展,其作为一种新型的商业运作模式正以惊人的速度发展,并成为推动全球经济增长的重要力量。电子商务利用Internet、计算机网络及无线通信等信
随着信息技术的飞速发展,企事业单位对信息系统的依赖性越来越大,信息的保密性、完整性、和可用性显得尤为重要,这正是信息安全所要管理保障的内容。信息安全管理系统通常通过问
随着计算机技术的不断发展,计算机领域进入了新的阶段一后PC时代。嵌入式设备正越来越多的进入到人们的日常生活之中。从工业控制,到网络设备,从信息家电到个人终端到处都可以见
学位