基于有效子串的最大熵中文分词方法

来源 :天津财经大学 | 被引量 : 3次 | 上传用户：sad_pacific

【摘要】

：

中文分词是中文信息后续处理和应用的基础和关键,所以中文分词是中文信息处理中的重要组成部分。中文分词算法研究受到人们的极大重视。中文分词算法很多,其中基于词典匹配的

【作者】

：

江明旭

【出处】

：

天津财经大学

【发表日期】

：

2018年01期

【关键词】

：

最大熵模型中文分词有效子串参数估计特征选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文分词是中文信息后续处理和应用的基础和关键,所以中文分词是中文信息处理中的重要组成部分。中文分词算法研究受到人们的极大重视。中文分词算法很多,其中基于词典匹配的中文分词算法和基于字标注的中文分词算法是现在的主要中文分词方法。基于词典匹配的中文分词算法,计算复杂度比较低,应用相对简单,理解也很直观,但在存在歧义字段和未登陆词的情况下,中文分词切分精度下降很厉害,同时,切分正确率、切分速度和词库规模大小有紧密联系。基于字标注的中文切分方法是以统计理论为基础,是一种机器学习中文分词算法。这种算法的计算复杂度大,但该方法在分词时能够获取字特征,合理利用上下文语境信息,能在未登录词和歧义问题上取得不错的效果,成为现阶段中文分词的主要方法。中文分词规范现在还不完善,给中文分词研究带来了很大困难。最大熵方法是一种基于字标注的方法,能够处理中文词汇的非常细微特征,中文词汇区分能力很强,并且简单易于理解。在中分词领域中,最大熵模型已被广泛应用。中文文本包含有很多有意义的稳定组合字串,利用基于字标注的最大熵分词方法进行分词时,不会利用这些组合字串信息。为了利用这些字串信息提出了基于有效子串的最大熵中文分词方法。在该分词方法中,引入了一种提取有效子串的方法,先统计训练语料中所有的子串,形成初始子串词典,并计算得到每个子串相应的频数,用获得的这个初始子串词典对训练语料中所有的字串或语句进行全匹配切分。当初始子串词典中的某个子串跨越了训练语料中的切分标记,则将该子串从初始子串词典中删除,再删除包含阿拉伯数字的子串,最终选择频数大于一定阈值的子串作为最终的有效子串词典。在得到有效子串词典后,对训练语料进行匹配切分和标注,用最大熵模型进行训练并得到相应的模型参数,用得到的模型对测试语料进行预测得到结果。在最后的实验中,通过与最大熵分词方法相比,新方法的切分结果有一定的提高,是一种有效的中文分词方法。

其他文献

一次性头皮针在临床带教中的应用

静脉输液是临床上用于纠正水、电解质及酸碱平衡失调，恢复内环境稳定的重要措施之一，是护士必须熟练掌握的护理技术。熟练准确地应用静脉输液的知识和技能，对治疗疾病，抢救生命起

期刊

一次性头皮针临床带教应用

追忆激情燃烧的“火红年代”——柳州工业博物馆设计笔记

柳州工业博物馆是2010年柳州市重点打造的十大项目之一.博物馆设计以“火红年代”为主题,提出了继承、整合、创新三大理念.设计师充分尊重和利用原有厂区的建筑风貌,将现代博

期刊

火红年代传承整合创新

基于VAR模型的我国流动性管理工具政策效用实证研究

在现有文献基础上,本文以人民币实际利率、名义有效汇率、法定存款准备金、人民币贷款增量、债券与股票成交额之比、贷款余额与股票成交额之比等指标作为自变量,构建了数量型

期刊

流动性流动性管理工具实证研究政策建议

商业银行业绩效率评价:基于两阶段网络交叉效率模型

在已有两阶段网络DEA模型的基础上,再进行指标权重向量唯一化的二级规划,并引入交叉效率的"自互评"模式,构建了两阶段网络交叉效率模型。进而将商业银行效率测算分为以存款作

期刊

商业银行效率两阶段网络DEA模型交叉效率二级规划

移动支付网慕楚:从Apple pay入华看移动支付格局

<正>12月9日关注移动支付的行业人朋友圈几乎都被一条消息刷屏,那就是Apple Pay进入中国。虽然第二天,Apple Pay的银联绑卡支付就停止,但是也终于看到了Apple pay入华的实质

期刊

移动支付NFCApple pay二维码支付

2015年第2季度中国移动支付交易规模首次超过互联网支付交易规模

<正>根据Analysys易观智库发布的《中国第三方移动支付市场季度监测报告2015年第2季度》和《中国第三方互联网支付市场季度监测报告2015年第2季度》数据显示,2015年第2季度中

期刊

交易规模移动支付互联网支付

盐酸黄连素羟丙基-β-环糊精包合物及其口腔崩解片的制备与评价

目的制备并评价盐酸黄连素羟丙基-β-环糊精包合物及其盐酸黄连素包合物口腔崩解片。方法采用超声法制备包合物,正交法选择崩解剂、填充剂后制成口腔崩解片,并测定崩解片的崩

期刊

盐酸黄连素HP-β-环糊精包合物崩解剂口腔崩解片

我国商事仲裁制度去“行政化”研究

100

会议

商事仲裁民间性仲裁机构去"行政化"""gzfx201012001005

基于RFID技术的汽车零部件仓库管理系统方案

<正>一、系统概述基于RFID技术的汽车零部件仓库管理系统,是在传统汽车零部件仓库管理中融入RFID技术,通过RFID自动识别技术来智能获取汽车零件信息,然后将采集的信息通过无

期刊

零部件数据处理中心仓库管理系统

幼儿视野中的区域活动

传统的儿童研究中,成人话语体系占据主导地位,儿童作为“被研究的对象”,很难发出自己的声音。近年来,儿童观的转变促进了儿童研究范式的转变,理论界关于“儿童作为研究者”

学位

儿童视角幼儿园区域活动马赛克方法

基于有效子串的最大熵中文分词方法

其他学术论文