分词语料库中四字格的切分和识别研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:hzzaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
四字格的能产性和派生性极强,利用四字格模式创造出的新词数量在现代汉语词汇中仍然呈上升趋势,因此对四字格的研究不能仅仅局限于文献和理论。本文将研究的目光投向分词语料库中数量众多的四字格,并针对分词语料库中四字格易被切碎的特点,进行了四字格抽取、四字格切分不一致比较、四字格识别等一系列工作。   本文首先对分词语料库中的四字分词单位进行提取和筛选,得到四字格抽取结果;并利用四字格抽取结果,进行了分词语料库内部和分词语料库之间的四字格切分不一致比较工作。在四字格识别研究中,通过引入crf 统计模型,并将四字格切分不一致结果作为模型训练语料,本文在有词性标注分词语料库中进行了四字格的识别研究。利用crf模型识别得到的四字格结果,统计四字格用字、词性信息并观察内部结构特点总结规则,本文在无词性标注分词语料库中也进行了四字格的识别研究。识别结果表明,在有词性标注分词语料库和无词性标注分词语料库中,四字格的识别精度都能达到90%左右。
其他文献
本文依据苏珊·朗格在论述舞蹈艺术时所提出的三个问题分为三章,每一章是对其中一个问题的阐述。 第一章讨论了何谓“舞蹈”?从前人对于舞蹈美学的研究谈起,指出这些学说存
小学语文教学是整个小学教育体系的重中之重,因其不仅是开展其他各科学习的基础,更是培养小学生语言能力的重要阵地。如何提高小学语文课堂效率一直是小学教育工作者研究的重
期刊
建阳刻书,规模冠绝天下,至明代,形成无书不图局面。明代建阳小说戏曲文本多采用上图下文版式,区别于其他地区的其他插图版式,富有浓厚的地域特色,彰显了文字“意”和绘画“神”的紧
文章将顾长卫、侯咏、吕乐三位导演划为一个整体进行研究,因其三人都是从电影摄影师转行成为导演,这种转变又几乎是在同一时期开始的,最为重要的是这三人创作的电影在风格上呈现
现代汉语是否存在定语后置现象,自《新著国语文法》出版以来一直存在不同看法。本文就此进行全面深入的考察与分析。全文共分七章:  第一章绪论,介绍选题来源和研究价值,研