基于规则抽取的中文时间表达式识别技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xuwenhaiyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间表达式识别是自然语言处理领域中,命名实体识别技术的一个重要组成部分。时间表达式的识别和对时间信息的获取和使用,在信息检索、自动问答等诸多领域有着重要的作用。本文围绕中文时间表达式识别这一具体问题,首先介绍时间相关基本概念和时间识别基本方法,而后具体阐述时间识别各方法的特点,并提出新的时间表达式识别方法,主要工作和贡献如下:1、提出了一种基于规则抽取的时间表达式识别方法,并提出了规则评价指标。利用训练数据集中时间表达式用词和词性的特点,自动地从训练集中抽取识别规则,避免大量人工构建识别规则的过程,使用规则评价指标,对抽取出的识别规则进行评价和筛选,然后使用规则集识别时间表达式。2、提出了一种基于规则抽取结合机器学习分类算法进行筛选的时间表达式识别新方法。基于规则抽取的时间表达式识别方法可以在抽取了足够多规则的情况下获得较高的召回率,但是由于规则本身没有充分利用上下文信息和语义信息,导致识别正确率不高。结合机器学习分类算法,通过训练二元分类器,对规则识别出的候选时间表达式进行过滤,从而在保证召回率的情况下,大幅提高识别正确率。在微软亚洲研究院中文命名实体识别语料上使用本文提出的基于规则抽取和分类算法的时间表达式识别新方法,取得了较好的识别效果,F1值可达94.05%,优于基于CRF和基于规则的方法。
其他文献
本文从简化力学模型下的管板-换热管结构出发,通过单轴循环弯矩试验和利用先进非线性随动强化模型的数值模拟对管板-换热管孔口不连续处棘轮效应进行分析讨论,为后续研究提供
电化学生物传感器因为简单快速、灵敏度高、选择性好、成本低等优点被认为是生物分子定量检测的有效手段。纳米材料的研究应用是生物传感技术发展的重要组成部分。其中金纳米
近年来,随着科技的进步,增材制造已经是一种非常重要的制造技术,该技术涉及范围比较广泛,如生物学、航天领域和建筑领域等。增材制造的提升不仅仅是依靠设备的发展,同时也需
自从第六次大提速之后,高速铁路的建设得到了充分的发展,道岔结构也从原来的普通单开道岔,变成现在的可动心轨道岔,消除了有害空间,保证了高速列车通过道岔时的稳定性和安全
汽油发动机(简称汽油机)燃油的不完全燃烧会导致环境污染和能源浪费,从而使其经济性能和排放性能下降。通过使用三元催化转化器可以减少有害气体排放量,但其有效转化要求空气
考虑在不确定因素对工业机械臂轨迹跟踪控制的问题,将轨迹跟踪问题视作为对系统的约束,基于受约束动力学界Udwadia-Kalaba(UK)方程获取其所需跟踪的伺服控制力。当考虑不确定
在铜阳极板生产过程中,铜阳极板圆盘浇铸机在运行过程中对铜液造成的晃动影响铜阳极板的质量。因此,研究铜阳极板圆盘结构特性和伺服驱动控制系统对铜阳极板质量的提升具有现
由于静态破碎剂的主要原料成本低、来源广、施工简单,应用过程中无噪音、无飞石等优点十分明确,因此其应用广泛,对于某些破碎工程,尤其是一些局部破裂的工程,要求静态破碎剂
随着能源安全问题和环境问题的日益突出,节能减排成为内燃机发展的必然趋势。本文利用一台能够实现汽油进气道喷射、氢气/汽油缸内直喷的复合喷射汽油机进行对比试验,探究点
丘陵山区果园果树的冠层嫁接目前主要依赖人工踩高,攀爬进行嫁接作业,危险性较高且劳动强度大。果树冠层嫁接区域具有复杂空间形状,需要一种机械化辅助装置在冠层嫁接过程中