统计语言模型相关论文
随着我国移动网络行业和大数据技术的快速发展,各类互联网应用层出不穷,导致互联网用户规模呈指数级增长,因此累积了海量非结构化......
目前语音识别技术中运用较成熟的高斯混合-隐马尔科夫模型(Gauss MixedModel and Hidden Markov Model,GMM-HMM),其结构简单,实现方......
合成生物学是最近兴起的生命科学领域的一个迅速发展的重要分支,它与物理学、工程科学、化学、计算机等学科交叉结合。而合成生物......
程序员在编程过程中随时可能遇到困难,此时与程序员已编写代码相关的高质量代码示例有助于程序员理解代码并快速完成编程任务。但......
在词汇级的中文语言处理中,存在两个基本的问题:其一是汉语自动分词,其二是中文命名实体识别。通常的系统都把这两个任务分开处理,也就......
自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种能够模拟人类语言认知过程的计算模型。但是当前......
在迅速发展的Web时代,问答系统在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对问答系统的要求也越来越高,其......
该论文描述了一个专为松下网络OCR引擎开发的OCR后处理系统.这个OCR引擎使用的是比较新但还不成熟的技术,现在它的词层识别正确率......
自然语言处理是人工智能的一个重要分支。汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。汉语......
统计语言模型是自然语言处理中一个非常重要的研究方向。它使用统计学的办法来估计自然语言中词的概率分布并以此来计算一句话出现......
本文主要研究SLM-based检索模型与传统检索模型的对比,以及SLM-based检索模型中的数据平滑技术,包括参数平滑和语义平滑。首先本......
随着网络信息的发展,信息自动分类已经成为人们获取有用信息不可或缺的工具。贝叶斯作为其中的一种分类方式,应用在众多领域。贝叶......
自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种能够模拟人类语言认知过程的计算模型。但是当前......
近年来随着手机技术的发展与手机的普及,基于手机的应用服务也越来越多,包括短信、网络浏览甚至可以进行个人信息的处理工作.一种......
词法分析是自然语言处理领域中最基础的处理步骤,尤其对汉语这种没有分割符的语言来说更是如此。本文研究的汉语词法分析主要包......
传统的通用Web搜索模型检索的是与查询相关的所有领域的信息,并且只能以网页的形式作为返回结果进行展示。从某种意义上说,用户对返......
互联网时代的到来,使得高效的搜索引擎成为人们获取信息的最重要手段之一,信息的日益国际化及语言之间的障碍形成了人们对跨语言信息......
语音识别(speech recognition)是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种......
信息检索模型是对信息检索任务及实现方法的一种抽象描述。信息检索模型是信息检索理论研究的一个核心内容,因此对于它的研究有重......
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的......
语言模型在语音识别中占据着重要的地位,它担负着把拼音转化成汉字的重任,语言模型性能的好坏直接影响到语音识别的结果好坏。当前......
学位
互联网已经成为目前最为重要的广告媒介之一,它能够以低成本将商品和服务向全世界的各个角落展示,这种独特能力吸引了众多的网络广告......
随着互联网的广泛应用,语料库知识的不断扩大,人们希望能从这些语料中进一步挖掘出更多有用的信息,其方法通常是建立一个面向各自应用......
信息抽取是指从海量的文档集合中抽取需要信息的自然语言处理技术,是自然语言处理领域中非常重要的子领域,是近十几年发展起来的新领......
随着智能终端的飞速发展,在移动端市场上,开发一种具备篇章级连续手写能力的输入法是很有必要的。本文提出了一种全新的手写输入模......
近年来,随着自然语言处理技术的发展和大规模语料库的出现,各类自然语言应用中使用的语言模型规模也越来越大。机器翻译是大规模语......
随着语音识别技术深入广泛的应用,它越来越将成为模式识别中的一个非常重要的研究课题,它的发展将会对未来的生活、工作带来极大的......
在信息检索系统中,由于用户查询语句过短而导致的词不匹配、信息迷向和信息过载等问题,成为制约检索质量的主要因素之一。实践表明,根......
随着人们对计算机自动化和智能化的渴望,人工智能的发展和研究应运而生。自然语言处理作为人工智能的重要研究方向之一,在对语言处......
API补全是当今开发者们使用最为频繁的代码补全方法之一。近年来,大数据与人工智能技术发展迅猛,这为API补全带来了新的可能。其中......
随着全社会信息化进程的迅速发展,使用计算机处理语言文字的重要性与紧迫性日益显现出来,自然语言处理系统得到迅速发展。而目前根据......
该论文采用统计的方法,对如何提取远距离依存特征,建立特征依存模型,以及如何将基本统计语言模型和依存模型结合建立联合模型等问......
随着互联网信息的爆炸式增长,搜索引擎在网络信息查找中起到至关重要的作用。而对海量数据,传统搜索算法存在应用局限性。首先,面......
维吾尔文和阿拉伯文是采用阿拉伯文字母的从右向左书写的连写文字。它们识别方法的研究对于多文种文本图像内容的利用具有重要意义......
隐马尔可夫模型(HMM)由于较好地描述了语音的特性,在语音识别的研究中占主导地位,基于HMM的识别算法也因取得了较好的识别效果而得到广泛应用......
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较......
本文在大规模语料的基础上,利用语言模型中稀疏事件的概率估计方法对汉语的熵进行计算,并讨论了语料规模等因素对熵的影响.在4年的......
文本分类在文本信息处理过程中有关键作用,能帮助人们提取有用信息,有效组织文本信息.本文主要介绍了文本分类的背景、国内外的研......
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。传统的统计聚类方法基于贪婪原则,常以语料的似然函数或困惑度(perple......
研究统计语言模型中bigram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出......
Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofread......
针对二元模型,提出了一种基于互信息的回退(MI Back-off)平滑算法.从互信息的角度,分析词之间的搭配关系,根据模型中每个二元对的......
社会信息量的日益膨胀,带来了通信产业的迅猛发展,通信模式也随之日新月异。通信业发展到今天,正在逐步验证着“傻瓜”网与智能终......
本文在统计语言模型构造中,提出了将词间距离信息结合到N-gram统计语言模型中的思路,并称之为距离加权的关联词统计语言模型.该模......
为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模......
统计自然语言处理中,一个很复杂的问题是数据稀疏问题。主要有两种平滑方法解决:回退法和线性插值法。本文分析和比较了几种典型的......