论文部分内容阅读
网络计算模式下的智能信息处理或知识处理,是网络技术,特别是Internet技术与人工智能理论相互交叉、相互融合而形成的一个新兴研究领域,其核心内容就是分布式智能理论和方法的研究。本文围绕这一热门课题从理论和应用两个方面进行了局部的研究和探索。重点研究了Internet分布式计算环境下的智能方法与应用,包括语言知识的量化分析技术,基于Web的模糊信息发现与检索模型,自组织通信网络的分布式智能化控制模型和算法,基于神经网络的入侵检测系统模型,基于智能代理的WWW信息发现系统分析和设计。 1.网络计算模式下统计语言模型实现理论与技术的研究 基于Internet虚拟处理环境的网络计算模式的出现和发展,改变了信息处理的模式和计算结构,在对中文信息处理提出了挑战的同时,也丰富了语言信息的表示、分布模式,大量的、分布式多媒体真实机读语料库,为语言知识的获取提供了丰富的计算资源。 ①汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。为了克服传统的基于规则的分词方法的不足,同时充分利用汉语的特质,我们提出一个具有高查准率的分词算法,该算法采用一种基于字符的统计语言模型—N-gram模型来构造汉语分词模型,同时结合基于机器学习的自组词算法来实现汉语文本的自动分词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。初步实验测试表明该模型和算法具有较高的查准率和查全率。 ②仅仅依靠语音信号的声学模型来进行语音识别,存在着不能利用语言的非声学知识的固有缺陷。本文提出了基于字的N-gram模型(characterbased N-gram model)的汉语语音识别方法,推导了模型参数的估值公式,并给出了模型的训练和识别算法。该方法既具有单字Bigram占空间少的优点,又可充分利用基于词(word-based)的Bigram模型及算法的优点。分析和实验表明,引入统计语言模型有利于有效降低语音识别的难度,容易实现,且具有较高的识别率。 2.基于Web计算的模糊信息检索机制和方法 在系统地研究和分析了现有信息检索方法和模型的基础上,针对目前WWW信息发现与检索系统存在的不足,对当前流行的信息检索模型之一—矢量相关模型VCM进行了分析和改造,将模糊集理论和方法引入检索模型的构造,提出了一种模糊矢量相关模型FVCM,从而对其理论结构及用