【摘 要】
:
随着计算机与互联网的广泛普及,语言信息处理的社会需求日益增大,人们迫切需要用自动化的手段处理海量的语言信息。在这种情形下,作为智能化人机接口重要组成部分的汉字键盘
论文部分内容阅读
随着计算机与互联网的广泛普及,语言信息处理的社会需求日益增大,人们迫切需要用自动化的手段处理海量的语言信息。在这种情形下,作为智能化人机接口重要组成部分的汉字键盘输入技术成为中文信息处理的研究热点之一。在汉字键盘输入法研究中,统计语言模型因其鲁棒性强、简洁、易实现等特点而得到广泛应用。但统计语言模型本身存在数据稀疏性、领域依赖性、规模过大以及解码速度慢等问题。同时,单纯基于统计的语言模型较少地考虑词义、语义、上下文关系等语言规则,造成模型应用结果不合理,影响了输入法的性能。针对以上问题,本文研究了统计和规则相结合的语言模型,并将其应用于输入法。在语言模型平滑和压缩方面,本文采用基于图灵估计的减值法和Katz法结合的方法对模型进行平滑,采用基于单元重要性的方法缩小模型规模;在语言规则提取方面,本文基于语义场来提取词网中词类特定的搭配规则;在语言模型领域依赖方面,本文采用基础语言模型和用户模型相结合的方法来实现语言模型的自适应;在实现方面,本文给出了基于词网格最优路径搜索算法,实现输入序列到输出序列转换过程的高效和输出结果的合理性。通过引入语言规则,本文在一定程度上弥补了统计语言模型的缺陷,在笔画输入法中的应用实践表明,本文工作有效地提高了语言模型的解码准确率和性能。
其他文献
在医疗急救系统中,急救车的调度和导航至关重要,建立一个快速而高效的急救车调度导航系统,尽快地将病人送到最近、最合适的医院抢救,并尽可能减少中间环节耽搁的时间,对挽救病人的
伴随着信息技术以及网络技术的快速发展,多媒体已经成为信息承载与共享的重要途径,数字图像文字识别技术作为当前图像信息检索与分析的重要环节,在机器人视觉、车牌识别、网
基于构件的软件开发(CBSD)提出复用软件构件,而不是采用一切“从零开始”的方式,来组装特定领域的应用系统。CBSD可以充分利用已有的开发成果,减少重复劳动,提高软件的开发效
图像分解和图像增强都是图像处理中关键的预处理技术,而围绕小波变换在这两方面的图像处理算法一直是人们研究的热点。本文的研究工作主要在以下两个方面:首先,传统基于小波
图像分割是从输入图像中提取目标或感兴趣区域的过程,是目标检测和识别过程中的重要步骤。模糊聚类是模糊理论的一个重要的分支,在图像分割中得到广泛应用。本文对应用模糊聚
视频编码的主要目标就是要在编码效率、图像重建质量和编码复杂度之间找到最佳的平衡点。H.264视频编码标准只规定了视频码流编码语法和解码方法,它并没有对编码器给出明确定
在后PC时代,随着嵌入式处理器性能的迅猛提升,嵌入式操作系统的日益成熟和嵌入式网络技术的快速发展,嵌入式系统正日益广泛被应用到工业控制、医疗卫生、交通运输、通信系统
文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题。面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组
Ontology(本体论)最早是哲学上的一个概念。20世纪90年代起,人们将本体的概念引入人工智能、知识工程、图书情报和信息系统领域,从而是本体概念的内涵也随之发生了变化。近年
汽车是人们常用的交通工具,在长期使用过程中会产生故障。由于汽车本身结构的复杂性,以及汽车故障的不确定性和模糊性,给汽车故障的诊断与维修带来很大困难。随着汽车数量的