基于有效子串的最大熵中文分词方法

来源 :天津财经大学 | 被引量 : 3次 | 上传用户:sad_pacific
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息后续处理和应用的基础和关键,所以中文分词是中文信息处理中的重要组成部分。中文分词算法研究受到人们的极大重视。中文分词算法很多,其中基于词典匹配的中文分词算法和基于字标注的中文分词算法是现在的主要中文分词方法。基于词典匹配的中文分词算法,计算复杂度比较低,应用相对简单,理解也很直观,但在存在歧义字段和未登陆词的情况下,中文分词切分精度下降很厉害,同时,切分正确率、切分速度和词库规模大小有紧密联系。基于字标注的中文切分方法是以统计理论为基础,是一种机器学习中文分词算法。这种算法的计算复杂度大,但该方法在分词时能够获取字特征,合理利用上下文语境信息,能在未登录词和歧义问题上取得不错的效果,成为现阶段中文分词的主要方法。中文分词规范现在还不完善,给中文分词研究带来了很大困难。最大熵方法是一种基于字标注的方法,能够处理中文词汇的非常细微特征,中文词汇区分能力很强,并且简单易于理解。在中分词领域中,最大熵模型已被广泛应用。中文文本包含有很多有意义的稳定组合字串,利用基于字标注的最大熵分词方法进行分词时,不会利用这些组合字串信息。为了利用这些字串信息提出了基于有效子串的最大熵中文分词方法。在该分词方法中,引入了一种提取有效子串的方法,先统计训练语料中所有的子串,形成初始子串词典,并计算得到每个子串相应的频数,用获得的这个初始子串词典对训练语料中所有的字串或语句进行全匹配切分。当初始子串词典中的某个子串跨越了训练语料中的切分标记,则将该子串从初始子串词典中删除,再删除包含阿拉伯数字的子串,最终选择频数大于一定阈值的子串作为最终的有效子串词典。在得到有效子串词典后,对训练语料进行匹配切分和标注,用最大熵模型进行训练并得到相应的模型参数,用得到的模型对测试语料进行预测得到结果。在最后的实验中,通过与最大熵分词方法相比,新方法的切分结果有一定的提高,是一种有效的中文分词方法。
其他文献
静脉输液是临床上用于纠正水、电解质及酸碱平衡失调,恢复内环境稳定的重要措施之一,是护士必须熟练掌握的护理技术。熟练准确地应用静脉输液的知识和技能,对治疗疾病,抢救生命起
柳州工业博物馆是2010年柳州市重点打造的十大项目之一.博物馆设计以“火红年代”为主题,提出了继承、整合、创新三大理念.设计师充分尊重和利用原有厂区的建筑风貌,将现代博
在现有文献基础上,本文以人民币实际利率、名义有效汇率、法定存款准备金、人民币贷款增量、债券与股票成交额之比、贷款余额与股票成交额之比等指标作为自变量,构建了数量型
在已有两阶段网络DEA模型的基础上,再进行指标权重向量唯一化的二级规划,并引入交叉效率的"自互评"模式,构建了两阶段网络交叉效率模型。进而将商业银行效率测算分为以存款作
<正>12月9日关注移动支付的行业人朋友圈几乎都被一条消息刷屏,那就是Apple Pay进入中国。虽然第二天,Apple Pay的银联绑卡支付就停止,但是也终于看到了Apple pay入华的实质
<正>根据Analysys易观智库发布的《中国第三方移动支付市场季度监测报告2015年第2季度》和《中国第三方互联网支付市场季度监测报告2015年第2季度》数据显示,2015年第2季度中
目的制备并评价盐酸黄连素羟丙基-β-环糊精包合物及其盐酸黄连素包合物口腔崩解片。方法采用超声法制备包合物,正交法选择崩解剂、填充剂后制成口腔崩解片,并测定崩解片的崩
100
<正>一、系统概述基于RFID技术的汽车零部件仓库管理系统,是在传统汽车零部件仓库管理中融入RFID技术,通过RFID自动识别技术来智能获取汽车零件信息,然后将采集的信息通过无
传统的儿童研究中,成人话语体系占据主导地位,儿童作为“被研究的对象”,很难发出自己的声音。近年来,儿童观的转变促进了儿童研究范式的转变,理论界关于“儿童作为研究者”