中文信息处理关键问题的研究

来源 :桂林电子科技大学 | 被引量 : 2次 | 上传用户:maotou528
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言文字信息的计算机自动处理水平和处理量已成为衡量一个国家是否步入信息社会的重要标准之一。汉语自身的复杂性导致我国中文信息处理(Chinese InformationProcessing, CIP)水平远远滞后于21世纪中国经济全球化的步伐,因此,如何实现中文自然语言的有效理解,已经成为备受人们关注的极具挑战性的国际前沿课题。本文针对目前中文信息处理领域存在的问题,重点研究了中文语法层词法、基本短语分析和中文语义处理及其在信息检索中的应用技术。本文的创新主要体现在以下几个方面:1.在语法层面上,研究了汉语词法分析和基本短语分析相关技术。重点研究了最大熵模型,给出了必要的数学推导及IFS、SGC、GIS、IIS算法的伪代码描述,针对汉语的特点,提出了一个汉语基本短语分析模型,将汉语短语的边界划分和短语标识分开,假定这两个过程相互独立,采用最大熵方法分别建立模型解决。最大熵模型的关键是如何选取有效的特征,文中给出了两个步骤相关的特征空间以及特征选择过程和算法。实验表明,模型的短语定界精确率达到95.27%,标注精确率达到96.20%。2.在应用层面上,研究了将中文信息处理引入信息检索领域需要解决的关键问题。设计了一个基于潜在语义分析(Latent Semantic Analysis, LSA)的常用问答(Frequently-Asked Question, FAQ)系统,并给出了系统中各个子模块的详细实现过程,其中,在自然语言接口模块中提出了一种新的语义匹配方法,在数据采集子系统中提出了一种新的聚焦网络爬虫主题相关度判断算法。农业领域实验表明,该FAQ系统性能上优于FAQ-Finder系统。
其他文献
在自然界中,植物具有先天免疫能力,并能通过受体对激发子的识别而触发防御信号。激发子是一种在诱导植物增强抗病性及对病原菌产生防卫的反应中起重要作用的分子。本文完成了
随着人们对先进无线通信技术业务需求的不断提高,越来越多的人开始将注意力集中到对下一代更先进的B3G(Beyond 3G)或4G移动通信技术的研究上。从技术角度来看,更高的数据传输
作为GPS接收机中频信号处理的重要组成部分,卫星信号捕获是进行卫星导航解算的前提和基础,其捕获算法将直接影响接收机的硬件规模和整体性能。在高速环境中,GPS信号产生很大
绿僵菌(Metarhiziumanisopliae)是害虫微生物防治中一种经典的丝孢类昆虫病原真菌,因用途广泛、生产和应用性能优越而倍受关注,本研究目的是以研究室保存的金龟子绿僵菌菌株981
本文提出了一种基于自动测试模型研究的SDH光接口、电接口指标自动测试系统,简称SDH指标自动化测试仪,该测试仪在改进测试效率等方面具有重要的意义。 首先,研究了自动测试技
本试验于2013-2014年在山东省泰安市潮泉镇张庄村苹果园进行,以14年生大田盛果期的红富士/平邑甜茶为试材,连续两年于萌芽前分别对正常树和缺锌小叶病树根外喷施2%浓度的硫酸
夏季是桃树全年中生长、结果的重要时期,进入夏季,新梢进入旺盛生长期;8月上、中旬早熟品种成熟;中早熟品种果实迅速膨大;红蜘蛛、夜蛾、食心虫、炭疽病等病虫害相继为害。在