【摘 要】
:
本文以传统蒙古文、西里尔蒙古文、汉文和英文的多语种对照资源库为对象,搭建了蒙汉英多语种词典资源管理平台。平台的资源库涵盖了目前主流的传统蒙古文-汉文、西里尔蒙古文
论文部分内容阅读
本文以传统蒙古文、西里尔蒙古文、汉文和英文的多语种对照资源库为对象,搭建了蒙汉英多语种词典资源管理平台。平台的资源库涵盖了目前主流的传统蒙古文-汉文、西里尔蒙古文-汉文、传统蒙古文-英文和西里尔蒙古文-英文等30多个词典,对照词总条数达到近150多万。该多语种资源库的建立为蒙古文自然语言处理提供了基础资源,并对蒙古语言文字的保护与传承具有重大意义。本资源管理平台主要有根据不同语种查询词条解释、资源库的综合管理与维护功能,使得该资源库的管理和使用更加方便、准确。因为对照词库的词条数量较多,所以本文对资源库建立了索引来提升检索的效率。本资源管理平台针对于查询功能模块,采用了一种B+树的数据结构来对传统蒙古文-汉文、西里尔蒙古文-汉文、传统蒙古文-英文和西里尔蒙古文-英文等词典建立索引。B+树索引是数据库中常用的一种索引技术,B+树索引支持顺序查找和随机查找,因此通过B+树的索引算法有效提高了词典查询效率。由于蒙古文属于黏着语,所以本文根据蒙古文的构词特点对传统蒙古文进行了词干后缀切分处理,使得传统蒙古文的查询更加准确有效。系统中传统蒙古文的默认排序功能与平时的蒙古文字母排序顺序有所区别,因此本文建立了基于规则的传统蒙古文排序系统,并应用在传统蒙古文的检索结果和资源管理维护中。
其他文献
为鉴定猪全基因组范围内蛋白编码基因3’UTR(3’-untranslated region)中反向重复PRE1(inverted repeated PRE1,IRPRE1)元件,对猪全基因组的22342个蛋白编码基因的3’UTR序列
以巴克夏和大约克猪为对照,比较沙子岭、1/2沙子岭(巴克夏×沙子岭)(巴沙)、1/4沙子岭(大约克×(巴克夏×沙子岭))(大巴沙)猪的胴体性状和肌肉品质,探讨氨基酸转
以湖南省凤凰县刺楸(Kalopanax septemlobus)天然种群分布相对集中的9个样地作为资源位,按重要值总和排序确定主要植物种,应用Levins、Shannon-Wiener、Pianka和Schoener公式
以湘沙猪配套系商品猪大巴沙猪为研究对象,探讨不同屠宰体质量阶段(85~95、>95~105、>105~115 kg)对胴体性能和肌肉品质的影响,并分析性状间的相关性。结果表明:胴体性状方面
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
作为企业的EHS(环境、健康、安全)负责人,我的2018年是忙碌的,亦是压力颇大的,其关键词主要在于'绿色印刷'。此时回望这一年的工作,感慨颇多,现结合自己环保工作内容
近年来,环境污染问题对生物种群以及人类的影响越来越严重,也是现实社会中一个很引人重视的问题。考虑到非自治系统更为接近现实自然规律,具有更强的生物意义,本文建立并研究了一
通过盆栽试验,研究不同浓度(50、100、150、200μmol/L)褪黑素浸枝对葡萄扦插苗镉积累的影响。结果表明:褪黑素浸枝能提高镉胁迫下葡萄扦插苗的生物量及镉含量;随着褪黑素浓