【摘 要】
:
汉语自动分词是中文信息处理领域的基础课题,而且也是进行其它中文信息处理的前提,它有三个主要难点分别是分词规范,歧义字段切分和未登录词,国内外许多研究人员在这一领域都
论文部分内容阅读
汉语自动分词是中文信息处理领域的基础课题,而且也是进行其它中文信息处理的前提,它有三个主要难点分别是分词规范,歧义字段切分和未登录词,国内外许多研究人员在这一领域都进行了深入的研究,但就目前现状来看,分词的正确率仍然有提升的空间。本论文主要解决分词难点中的歧义字段切分问题,通过深入地研究各种已有的消歧方法,本文发现最终的消歧结果取决于判断汉词词汇切分的准则,这个准则或者说是分词的评价函数的好坏决定了消歧结果的好坏,通过分析发现现有消歧方法的评价函数在客观性和完备性两个方面都存在缺陷,本文从大规模熟语料库中收集歧义数据,可以详细刻画歧义的切分情况以及歧义所在的语境,对这些数据进行分类数据挖掘,抽象出其中的分类规则,这些规则是从大规模的训练文本中训练得到的,体现了大规模文本中歧义待切分点的实际切分状况。最后本文利用挖掘的规则对Sighan的测评文本进行了测试,获得了比较满意的结果。
其他文献
定义了影响无线网络Qos的维度,描述了考虑Qos进行路由决策的问题,介绍了相应的背景知识,依据单跳/多跳,单通道/多通道和单路径/多路径对无线网络进行了分类,阐述了每一类网络中不
随着互联网的发展,我们在享受其丰富内容与便捷服务的同时,还面临着严峻的网络安全问题。为构建安全的网络环境,防止各种网络黑产事件,生物识别技术在革新着旧有的简单身份验证模
多Agent协作是求解复杂问题的有效途径之一,而在多Agent协作过程中Agent如何组合是问题的关键。本文通过研究Agent的关系入手,基于动态模糊关系(Dynamic Fuzzy Relation,DFR)建
本文通过对MPEG-4技术的分析,采用面向对象内容的思想对视音频实时传输进行了研究,涉及编解码、同步、交互机制和传输,重点研究和分析了MPEG-4标准的系统部分(ISO/IEC 14496-1)和
本论文以面向对象分析设计为核心思想,从中央广播电视大学教务管理系统出发,以建立数据访问模型为手段去建立与面向对象程序无缝连接的数据模型,并总结一种分布式应用系统的数据
软件测试是软件工程中的一个阶段,是保证软件质量的一个重要手段。随着面向对象软件开发技术的广泛应用和软件测试自动化的要求,特别是基于UML的软件开发技术的逐渐普及,基于UML
本课题在综合考虑水平井完井方式和井筒流动影响基础上,建立了一套复杂的水平井完井耦合模型,并设计编写相应的数值模拟程序求解模型,对模型参数进行了敏感性分析。这些研究成果
TCP协议最初是为有线网络而设计的,因此运行在有线网络上性能良好。但是目前随着无线技术的快速发展,网络已经从有线网络发展成为有线链路与无线信道共存的异构网络。当TCP协议
在P2P系统的实际运行中,用户的不合作行为一直是威胁P2P应用系统十分显著的问题,并且成为近几年P2P计算研究的热点之一。在基于节点合作所构建起来的P2P应用系统中,用户认为无私
保险公司经过十多年的计算机信息系统的建设已经具备了较完善的业务及其支撑系统,并积累了海量业务数据。但是,这些数据分散在多个独立系统中,信息分散、不共享,数据的完整性、一