基于词典的中文分词技术研究

被引量 : 0次 | 上传用户:mike1983mm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的发展,自动分词技术已经广泛应用在信息检索、信息抽取、机器翻译、语音合成等自然语言处理领域,同时结合中文文本的特点,自动分词技术的研究已经成为中文信息处理的一项基础性课题。中文分词技术主要研究将待处理文本利用分词算法切分成词,便于计算机对文本信息进行处理、理解和传递。在实现分词的过程中,主要难点是歧义处理和未登录词识别。本文结合现有相关分词技术理论与实现的方法,通过最大匹配算法与词频统计算法的结合,对中文文本分词技术进行深入研究与实践。本文在传统单一词典基础上,将其分为特征词典和基本词词典两部分,优化分词词典中对于词条的存储结构;采用双字哈希索引结构,将词典中的词按前两个字为索引关键字进行存储,提高匹配查找的速度和准确率;增加对姓名、专属名词、地名和数量词切分准确性,提高分词系统的性能指标。同时,在分词算法上,主要采用正向与反向最大匹配分词结合的双向分词,将双向匹配所产生的歧义字段应用词频信息进行判断,完成对词语间歧义和未登录词的处理。采用C#作为开发工具,在分词结果中,实现对存在严重歧义的短语和段落无明显歧义字段;通过对比实验,分词准确性优于单一使用最大正向匹配的分词算法。
其他文献
研究背景:小儿先天性心脏病(congenital heart diseases, CHD)手术疗效的提高不仅取决于临床手术技术的提高,对于围术期高危人群相关危险因素的分析以及采取相应的干预措施也
伴随着中国经济取得的飞速发展和社会发展阶段由生存型步入发展型的历史跨越,全社会公共需求已形成快速增长和全面调整的客观趋势,并与当前存在的公共产品相对短缺、公共服务
资金结构是财务管理理论和实践中一个极其重要的问题,也是现代企业投融资决策的理论基础和核心问题。本文分析了百草园项目融资的融资过程,并就该项目的资金结构进行了重点阐
可靠性指标是定量评价电力系统对客户供电能力的一个重要参数。可靠性指标是电力企业的一个重要指标,供电可靠性已经成为衡量一个电力企业的管理是否走向现代化的显著标志之
随着市场竞争的日益加剧,为了缩短产品开发周期、降低开发费用,产品设计正由传统的串行式过程向并行、协同的过程发展。特征造型中的协同设计是指多个设计小组通过分工与协作
疼痛是人们就医的主要原因之一。护生必须具备有效的疼痛管理知识与技能,才能在未来工作中更好地服务于患者。护生疼痛知识的提高与基础护理教育中疼痛课程核心知识体系密切
当前,车载MP3播放器与其他便携MP3播放器一样,在设计方案上大都采用专用解码芯片进行解码。采用解码芯片带来的严重缺点是灵活性低,系统无法升级,难以适应新的音频压缩格式;
城市配电网接线模式研究实际是求解一个具有多目标性和不确定性的优化问题。确定配电网结构的主要难点是如何确定接线模式、线路最优分段数和分段开关位置,并做到既能适应城
最近温习了“毛泽东同志论教育工作”、中共中央、国务院“关于教育工作的指示”、陆定一同志的“教育必须与生产劳动相结合”等文件,初步联系了城区全日制中、小学教育工作
全文共分为六个部分。第一部分,引言,选题的缘起。“六书”学在清代达到鼎盛。多数语言学史对这一时期的“六书”学著作都有所论述,但大部分介绍简练,对其缺乏深入实际的探讨