适用于化工专业搜索引擎的中文分词系统的研究与实现

来源 :北京化工大学 | 被引量 : 3次 | 上传用户:robert610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词技术属于自然语言处理技术范畴,它是中文信息处理中的一个重要环节,是中文语言理解、文献检索、机械翻译以及语言合成系统中最基本的一部分。对于中文搜索引擎而言,中文分词作为其核心技术之一,重要性不言而喻。同样,对于专业化的搜索引擎而言,针对专业词汇进行的分词优化尤其重要。本文在对现有中文分词技术研究的基础上,设计并实现了一种应用于化工领域专业搜索引擎的中文分词系统,为实现互联网上化工类信息的快速准确获取提供了基础。本文分别对中文分词系统的外部接口、系统界面、分词器进行了设计和实现,重点介绍了分词器的实现:分别介绍了包含大量化工词汇的分词词典的物理结构及其逻辑结构的设计和实现,分词算法对待切分文本的预处理,首字哈希结合二分查找的词典优化查询,以及结合路径选择机制而改进了的层进式最短路径切词算法;经过对分词系统分词速度与精度的实验分析,实验结果显示,在保证切分效率的同时,在一定程度上达到了消除歧义的效果。经实践证明,本分词系统达到了设计目标,可以为化工专业的搜索引擎提供良好的分词服务功能。
其他文献
近年来随着高光谱遥感技术的不断进步,成像光谱仪的光谱通道数更多,高光谱数据的空间分辨率和光谱分辨率越来越高,数据量自然也随之增加。由于技术的发展导致的高光谱图像数
虚拟专用网使用身份认证、数据的完整性验证、数据内容加密、抗重播保护等技术为数据传输提供了安全通道,然而,如果接入虚拟专网的终端节点自身存在着安全风险,或者存在恶意
对等网络(peer-to-peer,简称P2P),是一种没有中央服务器控制和层次管理的分布式网络,节点随时会不加通知就离开网络,必须使用失效检测技术周期性地探测邻居节点的状态,快速地
嵌入式系统是当今热门主题之一,是当前电子技术发展的又一新热点。论文紧跟嵌入式系统发展趋势,采用新的嵌入式系统设计技术——SOPC(System on a programmable Chip,片上可编程
随着宽带Internet的普及,网络技术、多媒体技术的迅速发展,人类已进入信息化社会,在非实时网络课堂应用日趋成熟的同时,广大师生对在线实时系统的需求不断增大,网上实时教学
鲁棒性主成分分析是从受到稀疏噪声干扰的数据中恢复低秩数据实现数据降维的有效方法之一,它在恢复受到稀疏噪声干扰的低秩数据时所表现出的鲁棒性使其受到越来越多的关注并
随着各种通信技术从平行、独立地发展,逐步走向融合,如移动通信技术与IP网络的融合;电信网、电视网、计算机网、卫星通信网络走向融合,形成了新一代技术--M2M技术,以实现人与人(Ma
移动CSCW以其在任何时间任何地点都可工作的工作模式迅速引起关注并快速的发展。特别近几年来,无线通信技术和移动计算技术的发展,尤其3G(第三代数字通信技术,3rd Generation
随着计算机系统的广泛应用和Internet技术的飞速发展,现代企业的运营对于信息技术的依赖程度日益增强,特别是,各类数据已经成为企业正常运作的重要基础。数据容灾在这种大背
随着计算机、网络、以及多媒体技术的迅猛发展,图像处理技术的研究与应用尤其是音视频编解码技术引起了更广泛的关注。同时,嵌入式系统继计算机网络技术之后成为IT领域又一个