由字构词——中文分词新方法

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户:jiahenglipin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
被称为Bakeoff的国际中文分词评测由于创建了公开、可比的分词评测语料库和多视角的评测指标,从而一举改变了中文分词研究的格局.通过带标注的语料库来定义中文的词语,允许采用不同分词标准而不是唯一标准的语料同台评测,通过定量分析科学地确认未登录词(OOV)识别的性能是进一步提高分词精度的突破口,以及针对这一需求而提出的"由字构词"的新分词方法等,都是近四年来分词研究领域涌现的喜人景象.本文将简略介绍"由字构词"的中文分词新方法,说明它出现的动机和采用的机器学习机制.微软亚洲研究院用条件随机场(CRF)模型实现的这种分词系统参加Bakeoff2006的六项中文分词评测,获得四个第一和两个第三.本文也相应地解释了这个参赛系统的一些重要设计理念.
其他文献
肾移植术后免疫抑制治疗是改善移植肾和肾移植受体生存率的重要手段,但目前常用的钙调神经蛋白抑制剂(CNI)、皮质激素等免疫抑制剂的个体化差异和不良反应严重影响了免疫抑制