藏文词表示技术研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:shylake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言单元的表示是机器学习的基础工作之一,其旨在便于计算机能够更好地理解自然语言的语言单元。词是文本最基本的语义单元,是理解自然语言的基础。随着深度学习技术的发展,词表示的研究在自然语言处理的领域中发挥不可磨灭的作用。英、汉等语言单元的表示已经取得丰硕成果,并得到广泛应用。与别的语种对比发现,藏文语言单元的表示技术现处于探索和起步阶段,其研究对藏文词法、句法、语义等分析具有重要的理论意义和广泛的应用价值。本文借鉴英、汉文词表示技术,通过分析藏文文本中词汇分布规律和语法特征,从藏文分词中的紧缩格识别、停用词选择和藏文词表示模型优化等三个方面研究了藏文词表示的关键技术。主要工作包括:(1)藏文紧缩格的识别藏文文本分词是藏文词表示的关键技术之一,紧缩格识别是藏文分词中的一个难题,其识别效果对藏文文本分词性能有较大的影响。本文通过分析藏文文本分词的现状及存在的问题,设计了规则和统计相结合的藏文紧缩格识别算法,并验证了该方法的有效性。(2)藏文停用词的选择停用词包含的语义信息较少,对上下文词义表示贡献也小。由于藏文中包含很多停用词,其使用频率很高,影响训练相关的语言模型。停用词选择既是藏语自然语言处理的一项重要技术,更是藏文词表示的关键技术之一。本文通过建立藏文停用词表,设计了藏文停用词识别算法,为优化藏文词表示模型奠定了理论基础。(3)藏文词表示优化模型词表示模型旨在获取词汇序列间的语义信息,如何由上下文揭示目标词的语义是词表示模型的核心。本文通过分析传统词表示技术,改进传统词表示模型,设计了一种由原始文本生成的词表示和剔除停用词生成词表示相结合的藏文词表示模型。通过内部任务评测中的相似性、相关度实验数据中得出,该模型的性能比传统词表示模型有所提升。
其他文献
缎蓝园丁鸟优化算法(The satin bower bird optimizer algorithm,SBO)是一种模拟自然界中缎蓝园丁鸟搭建巢穴求偶机制而提出的一种新的群智能优化算法。这种优化算法具有直观、高效、简单等优点。随着学者们的研究加深,发现该算法存在收敛精度较低低,速度较慢等缺点。本论文针对该算法寻优精度较差,收敛速度较慢等问题,提出了一些改进版本的园丁鸟优化算法,完善其算法的理论和拓
第一部分 阿苯达唑对胰腺癌的抗肿瘤效应及机制目的:检测阿苯达唑(ABZ)对人胰腺癌SW1990和PANC-1细胞株增殖、迁移和凋亡的影响;同时构建胰腺癌异位移植瘤模型,进一步检测ABZ
疑问代词是构成汉越语疑问句的重要元素,其中“怎么”和“sao”就是汉越语中最基本的疑问代词。本文通过运用认知语言学和对比语言学的相关理论,在结合汉越语研究成果和大量
互补问题作为数学规划研究中的重要课题之一,在力学、科技、控制和金融等方面发挥着重要作用。此外,由于在解决实际问题时,需要考虑很多的不确定性因素,如交通、供应和需求等,人们开始越来越多地关注含有随机变量的互补问题的求解。因此,在本文中,基于随机线性互补问题和绝对值方程问题,我们提出了一类广义随机线性互补问题,并研究了求解此类问题的算法。论文的结构和主要研究内容如下:第一章介绍了线性互补问题、绝对值方
利什曼病是由细胞内寄生虫利什曼原虫(Leishmaniap spp.)引起的一组疾病。该病严重威胁人类健康,如果不及时治疗还将引起致命的并发症。利什曼病的发病区域分布很广,主要集中
本文介绍了变指数Lebesgue空间和与广义Schr(?)dinger算子相关的Marcinkiewicz积分算子及其交换子的基本概念及性质,证明了与广义Schr(?)dinger算子相关的Marcinkiewicz积分算子在BMOL空间及从避(Rn)到L1(Rn)的有界性.继而,使用经典不等式估计,利用变指标和附加函数的性质,以及与广义Schr(?)dinger算子相关的Marcinkiewic
随着无锡市政治、经济、文化等方面对外交往的不断扩大,来锡旅游、学习和工作的境外人员数量逐年增加,2015年前两季度临时来锡的境外人员已达20万人次,同时,在锡常住的境外人
目的肝包虫病是游牧民族常见的疾病,而肝部分切除手术是根治肝包虫病的重要方法。控制出血量,维持凝血功能相对正常是肝脏手术成败的关键。由于肝包虫病多发生在长期生活在高
海樽优化算法(Salp Swarm algorithm,SSA)是模拟海洋中生物海樽在海洋中移动和捕食行为而提出的一种新的群智能优化算法。该算法具有结构简单,搜索能力强,鲁棒性较强,并且比较容易实现等特点。但随着研究的深入,研究者发现海樽优化算法也存在着后期寻优精度不高,易陷入局部最优等缺点。本论文针对海樽优化算法所存在的不足之处进行改进,并将改进的算法应用于优化问题,目的在于完善海樽优化算法的理
目的:评估老年人营养风险指数(GNRI)对老年肝癌患者肝切除术后30天内并发症发生预测的临床价值。方法:回顾性分析从我院病案室调阅2015年1月至2019年5月在我院收住入院并行肝