基于字位置概率特征的条件随机场中文分词方法

来源 :苏州大学学报:自然科学版 | 被引量 : 0次 | 上传用户:sinking521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将分词看成是一个对汉字进行分类的过程,然后利用条件随机场(CRFs)模型对每个汉字进行标记,最后转换为相应的分词结果.在现有CRFs模型的基础上,从字的构词能力角度出发,探索了字位置概率特征,提出了基于字位置概率特征的条件随机场中文分词方法.实验表明,字位置概率特征的引入,使得结果F1值提高了3.5%,达到94.5%.
其他文献
一台清华同方真爱1700的机子基本配置为:CPU800MHz+内存192MB(后来自己加上了128MB)+硬盘20GB+精英P6BAP-Me主板,原先预装的是Windows98操作系统,考虑到自己的学习需要和机器
一、引言电子政务是政府通过行政管理体制改革,转变职能、结构调整、形成规范的运作流程,成为高效、透明、廉洁、低成本政府,并采用电子技术和网络技术把这种改革的成果固化
<正> 众所周知,品牌电脑的硬盘分区一向不甚合理。不久前,笔者给自己的联想天禧电脑硬盘重新分区时,在重装Windows98系统及驱动程序后,出现如下问题:
证明了拓扑空间是遗传σ-有界亚紧的当且仅当它的每一个散射分散都有一个σ-点有界的开膨胀,丰富并深化了一般拓扑学中关于覆盖性质的研究.
通过图书网站的设计,分析了J2EE的相关技术,探讨了基于J2EE平台的Web应用设计方案,重点讨论了Struts框架、组件技术和分层结构.
引入了Object Web的概念,并阐述了CORBA和Object Web互补的关系,以及支持Object Web的Web服务器实例Jigsaw.最后给出了将Object Web、CORBA和Jigsaw结合在一起的应用实例.