汉语分词中组合歧义字段的研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:tudouaimangguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词中组合歧义是难点问题,难在两点:组合歧义字段的发现和歧义的消解。本文研究了组合歧义字段在切开与不切时的词性变化规律,提出了一种新的组合歧义字段自动采集方法,实验结果表明该方法可以有效地自动发现组合歧义字段,在1998年1月《人民日报》中就检测到400多个组合歧义字段,远大于常规方法检测到的歧义字段数目。之后利用最大熵模型对60个组合歧义字段进行消歧,考察了六种特征及其组合对消歧性能的影响,消歧的平均准确度达88.05%。
其他文献
本文首先介绍WordNet、VerbNet、PropBank和FrameNet这几个主流语义资源的结构,并分析其各自的缺陷;然后,介绍怎样在不同的资源之间建立起映射关系(包括义项映射和框架映射),达到语
摘 要:游戏式教学作为一种现代化的教学手段,已经在小学英语中得到了广泛的应用。这种教学模式充分培养了学生的客观主动性,激发起学生的英语学习兴趣,对提升小学英语课堂教学质量有很大的帮助。为了让游戏式教学模式更好地应用小学英语课堂,教师在实践教学活动中加强游戏教学模式的分析,正确使用游戏式教学模式。  关键词:游戏;小学英语;英语教学;应用研究  小学阶段的英语课程并不是要让学生全面接触英语,而是要让
句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。