面向中文信息处理的现代汉语“别说”的属性识别研究

来源 :河北大学 | 被引量 : 2次 | 上传用户:wcxydm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在词性标注时,对汉语兼类词的标注一直是难点所在。“别说”是一个存在典型兼类属性的语言单位,它有动词短语、连词和话语标记三种属性。本文是通过对“别说”三种属性的固定句式、固定搭配词和上下文特征进行整理、归纳和对比之后,总结出可以帮助计算机识别“别说”具体属性的识别规则,以辅助提高该词的标注正确率。首先是对“别说”属性的介绍。“别说”有三种属性,分别是动词短语“别说1”、连词“别说2”和话语标记“别说3”。三种属性从用法和功能上存在差别,“别说1”的功能主要有三种:终结当前话题、阻止将来话题和主观评价功能。“别说2”的功能主要有三种:对比陈述功能、情感倾向功能和语义强调功能。“别说3”的功能主要体现了元语用功能中的人际互动功能,“别说3”之后的内容有一定的新异特质。其次,我们对“别说”的句法位置和结构规则进行整理和量化分析。当“别说”位于句首时,有70.99%的可能为连词属性,有28.97%的可能为动词短语属性,作为话语标记的概率较小。当“别说”位于句中时,“别说”用作动词短语的可能性为52.23%,用作连词的可能性为47.50%,概率相差不大,作为话语标记用法出现的概率依然较小。当“别说”处于句末时,作为话语标记使用的可能性为81.94%,只有17.61%的可能性是用作动词短语,作为连词用法的概率很小。在单独成句(使用)的这一情况下,“别说”有91.30%的可能性是用作话语标记,只有8.70%的可能性用作动词短语,没有用作连词的情况。在结构规则对比中,我们整理出了“别说”三种属性的固定句式和固定搭配,其中“别说1”有10种固定句式及搭配,“别说2”主要有6种,对“别说3”我们穷尽式地整理了所有整体用作话语标记的固定式,共有23种,并整理了固定搭配词,主要有9类。之后对“别说”的上下文内容进行了整理,并结合“别说”所处的句法位置进行了量化分析。根据分析我们整理出了当“别说”在句首、句中、句末或单独使用时,大概率对应的上下文内容。最后我们对所有规则进行整合,建立相应的规则集,制定识别流程,并对识别规则进行了验证。我们在本章中建立了固定句式集,代码为“JS1”“JS2”“JS3”,分别对应“别说1”“别说2”“别说3”。建立了搭配词集,代码分别为“DPC1”“DPC2”“DPC3”,分别对应“别说”的三种属性。结合句法位置建立了上下文内容集,代码为“SW2”“SX1”“SX2”“ZX1”“ZX2”。我们将依据固定句式的判定制定为一级规则(R1),依据搭配词的判定制定为二级规则(R2),依据上文内容的判定制定为三级规则(R3),依据下文内容的判定制定为四级规则(R4),逐级进行筛选标注,最后输出结果。之后使用提取规则的原始语料和第三方语料对识别规则的效果进行人工验证。最终,对原始语料的标注正确率为94.59%,对第三方语料标注的正确率是97.49%。通过对“别说”三种属性的特征提取和归纳,我们整理出了不同属性的“别说”特有的规则。识别规则的建立和验证也证明了通过这种方法区分“别说”的三种属性是有效的。
其他文献
本文根据作者在“发展中国家小型农业机械实用技术培训班”的一次口译经验编写而成。该培训班的课程包括农业机械讲座、中国文化讲座和实地考察几个部分。本文选取了培训过程中该公司副总周丹女士介绍《中国国情与改革开放》这一次课堂口译作为样本,结合译员主体性的特点,对译员在此次活动中采取的翻译策略进行了分析并提出了自己的思考。这份报告共四个部分。第一部分是任务描述,介绍培训课程的背景、培训者、与会嘉宾、主讲者的
糖尿病视网膜病变(diabetic retinopathy,DR)是糖尿病特有且常见的眼部并发症,是导致糖尿病患者视力损害、视网膜剥脱和致盲的重要原因。以往观点认为DR只是一种糖尿病微血管并发症,然而,近年来研究发现,DR病变过程中除微血管病变外,还存在着神经退行性病变,甚至神经性病变早于微血管病变。其中视锥细胞作为视网膜重要的光感受器细胞,主司明视觉,视网膜色素上皮细胞作为视网膜血-视屏障的重要
自2000年有机催化(organocatalysis)概念出现以后,不含金属的有机小分子催化剂吸引了越来越多的注意。此类有机小分子催化反应具有反应条件温和、毒性低、选择性高等特点,是当
陕南山区是我国地质灾害最严重的地区之一,严重威胁着当地居民的安全与经济发展,其中滑坡在地质灾害占比高达83%。通过研究分析发现,导致陕南山区滑坡的主要因素是夏秋多雨季
目的:Ghrelin是近年发现的具有镇痛作用的内源性脑肠肽,独特的N端Ser3辛酰基化结构使其能顺利通过血-脑屏障,但其合成困难、价格昂贵和半衰期短等特性极大地限制了ghrelin的临床应用。Ghrelin的活性片段具有N端Ser3辛酰基化结构,与其受体GHS-R1α良好的结合能力,结构简单并易合成。本课题将研究其活性片段G(1-5)-NH_2,G(1-7)-Lys-NH_2,G(1-9)和G(1
众所周知,镁合金强度低、耐腐蚀性能差等缺点严重阻碍了其在各个领域的应用及发展,因此开发高强度,耐腐蚀的稀土镁合金已然成为近年来的研究热点。本课题所用材料为Mg-Zn-Gd-
目前离子检测技术已经广泛运用于土壤重金属污染、水体富营养化、辅助医疗等方面。然而传统的离子检测技术大多依赖于实验室环境,并且存在耗时长、设备昂贵、检测功能单一等
孙中山是对两岸都产生深远影响的历史人物。1949年以来,每逢孙中山诞辰纪念日,大陆都举行各种纪念活动,特别是孙中山诞辰“逢十”周年的纪念日,大陆的纪念活动规格尤其高。这
近年来,我国控制挥发性有机物(简称VOCs)排放的环境保护政策要求越来越严格,储油罐区无组织排放作为石油石化企业管控的重点,科学准确地核算VOCs排放量成为进一步开展有效治
杨庄文化是龙山时代晚期生长在豫东南一带的以杨庄遗址第二期遗存为代表的考古学文化。龙山时代晚期是中原地区各考古学文化竞争发展,彼此间的交流与撞击频繁的时期,位于淮河上中游流域的豫东南地区是地理与文化上的南北交汇地带,过渡性的地理位置造就了该区域开放与易变的文化特征,杨庄文化正是在这个特殊的时空环境中产生、发展起来的。对杨庄文化的研究是廓清中原地区龙山时代晚期文化格局的重要一环。本文拟在前人研究的基础