基于信息处理的乌兹别克语语音变化现象自动还原技术研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zhaodhsnd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:语音变化现象的自动还原是词干提取的基础。为了提高词干提取的准确率,本文深入研究乌兹别克语中的语音变化现象,并提出音变现象的自动还原模型。分析乌兹别克语中发生语音变化的词干本身的特征,设计音变现象的还原模型,并结合了词干库配对方法来实现自动还原。实验以乌兹比克斯坦的官方网站(www.kutubxona.com)截取的语料为实验对象,验证处理模型的有效性。
  关键词:乌兹别克语;语音脱落;语音同化;增音
  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)32-0177-03
  乌兹别克语属于阿尔泰语系突厥语族,是个典型的黏着性语言。语法特征名词跟不同词缀连接表示不同的语法意义。乌兹别克语中常见的音变现象有音的同化、脱落、增音等[3],上述三种变化已体现在文字上。语音变化是指因发音器官的制约和发音方便的需要,在连续发音中会受前后音的影响而发生的变化。所以语音变化的处理是乌兹别克语文字信息处理、乌-维机器翻译、跨语言信息检索等自然语言处理的重要环节。语音脱落是指名词词干末尾连接固有的构形词缀时,词干中的元音或辅音会脱落。如:“shahar城市”这个名词词干末尾连接名词的领属词缀时词干“shahar”中第二个音节里的元音“a”会脱落,即shahar i=shahri(他的城市)。语音同化是指有些固有的名詞末未连接构形词缀时,词干末尾的辅音换另一个辅音。如:tilak im = tilagim(我的愿望)。增音是指部分名词末未连接构形词缀时,词干和词缀之间会增多一个音,这种现象叫做增音。如:orzu ing=orzuying(你的梦想)。这种语音变化现象对乌兹别克语名词词干提取增加难度,降低词干提取的准确率。所以,在处理乌兹别克语中发生的语音变换现象是乌兹别克语名词词干提取的基础、重点,也是最基本的前提。
  1 相关工作
  在音变还原的研究领域上,属于突厥语族的维吾尔语进行的工作比较广阔。文献[1]中指出,维吾尔语词干在接词缀时按维吾尔语语音和谐规律有些语音会发生弱化、脱落、增音等现象。该论文提出了一种自动还原模型,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。思路是:维吾尔语词被看作是所包含语音的线性序列,先假设音变现象会发生在每个语音上,那么构成一个词的语音序列中每 一个语音就可以有 n ( 0≤ n ≤31)个原形候选,找到它们的原形就类似于词序列自动标注,再利用序列标注的方法即可解决还原问题。文献[4],重点研究维吾尔语中弱化现象及处理算法,并分析了维吾尔语词法结构、音节结构、词干—词缀连接形式等技术。处理弱化问题时,要根据词干库检查弱化属性,并根据语音和谐规律分析是否正确连接。该算法在文本检索、词频统计、文本校对等研究领域得到很好的应用。运行结果表明该算法具有可行性和有效性,并在实践中不断完善。
  2 乌兹别克语语音变化现象分析
  2.1乌兹别克语语音脱落、同化、增音现象的分析
  1)语音脱落
  ①元音脱落:有些以辅音字母结尾的双音节名词词干末尾连接领属词缀“i,im,imiz,ingiz,ing”时,第二个音节里的元音字母会脱落。这种脱落字母有“u,i,a”等三个。如:
  Burun(鼻子) i=burni(他的鼻子), shahar(城市) im=shahrim(我的城市),qorin(肚子) im=qornim(我的肚子)
  ②辅音脱落:乌兹别克语里的“men”和“sen”等两个人称代词末尾连接宾格词缀“ni”、领属格词缀“ning”和词缀“niki”时,这些人称代词词尾的辅音“n”就会脱落。如:
  Sen(你) ni=seni(把你),men(我) ni=meni(把我),men(我) niki=meniki(我的)
  2)语音同化
  ①以“q”结尾的多音节名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干末尾的“q”同化为“g’”,然后继续连接词缀。如:
  Quloq(耳朵) im=qulog’im(我的耳朵),barmoq(手指) ing=barmog’ing(你的手指),oyoq(鞋子) i=oyog’i(他的鞋子)
  ②以“k”结尾的多音节名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干末尾的“k”同化为“g”,然后继续连接词缀。如:
  Ertak(童话) ing=ertaging(你的童话),istak(欲望) im=istagim(我的欲望),tilak(希望) i=tilagi)(他的希望)
  注:单音节词、外来借词和少数一部分多音节词不会发生同化现象。如xalq(xalqim我的人民),bank(bankimiz我们的银行)[4]。
  3)增音
  以元音字母开头的部分名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干和词缀之间增多一个辅音“y”。比如parvo i=parvoyi。Orzu(愿望) im=orzuyim(我的愿望)
  注:发生增音的这些词里还有部分词的末尾连接第一、第二人称领属词缀是增加辅音“y”,但是连接第三人称领属词缀时直接连接“si”。比如:(Orzu im=orzuyim我的梦想),(Orzu si=orzusi他的梦想)。
  2.2语音脱落、同化、增音的还原分析
  1)语音脱落还原
  (1)元音脱落的还原:首先去掉发生元音脱落的词汇末尾的领属词缀“i,im,imiz,ingiz,ing”,即词干提取。然后分析该词干中出现的第一个元音字母。词干中出现的第一个元音字母有“u”“o’”“a”三种。下面分别讨论以上三种情况:   ①如果词汇中出现的第一个元音字母为“u”的话,那么在该词干的最后一个辅音字母前面加元音字母“u”,即词干还原。
  ②如果词汇中出现的第一个元音字母为“o’、o、i”的话,那么在该词干的最后一个辅音字母前面加元音字母“i”,即词干还原。
  ③如果词汇中出现的第一个元音字母为“a”的话,那么在该词干的最后一个辅音字母前面加元音字母“a”,即词干还原。
  (2)辅音脱落的还原:第一步,切取词缀“ning、niki”,其次在剩下的词干末尾增加一个“n”。
  2)语音同化还原
  语音同化的还原:首先去掉词汇末尾的 “i,im,imiz,ingiz,ing”等词缀,其次分析剩下词干的末尾的字母。若词干末尾的字母是“g’”,那么还原为“q”。如果是“g”,那么还原为“k”。
  3)增音的还原
  增音的還原:首先切取词汇末尾的 “i,im,imiz,ingiz,ing”等词缀,然后再一次与词干库进行配对。如果能配对直接输出结果,如果不能配对就继续判断是否以“y”结尾。如果是,就切取最后的辅音“y”即可。此时还原已完成。
  3 语音变化现象的还原方法研究
  3.1语音变化的还原模型的研究
  乌兹别克语音变分析模型的建立是实现还原的关键。此模型根据乌兹别克语中发生音变现象的词汇本身的特征来设计的。
  3.2乌兹别克语语音变化自动还原过程
  乌兹别克语语音变化的自动还原利用上述设计的分析模型,并结合词干库查找方法来实现的。利用乌兹别克斯坦的官方网站(www.kutubxona.com)截取的乌兹别克语文本信息作为实验对象,内容主要是短篇小说。首先对这些文本进行统计和人工处理准备了由“i,im,imiz,ingiz,ing”等名词词缀结尾的8177个名词。利用词干库配对方法的原因是:部分词干的词尾与以上的构形词缀相似。比如(yangi新的)是以“i”结尾,这里的“i”不是构形词缀而是一个词干的词尾。不需要进行还原,直接输出结果即可。
  步骤一:词干库配对。若能配对直接输出结果;若不能配对,去除构形词缀。
  步骤二:再次进行词干库配对。
  步骤三:根据表1中的六种模型来实现语音脱落、同化、增音的还原。
  4 实验及分析
  4.1实验结果
  实验利用已筛选的8177个以“i,im,imiz,ingiz,ing”等构形词缀结尾的名词进行测试。采用计算准确率P来评测实验结果。计算公式如下:
  P = A / B * 100 %
  其中,A表示自动切分正确的词数;B表示语料中的词汇总数;P衡量的是切分方法的准确度。
  测试结果如下:
  4.2实验结果分析
  本测试中,发生语音脱落和增音现象的词汇还原的准确率一律达到100%。词干库未登录词干的出现直接影响同化还原的测试结果。比如:“bargi”这一词去除构形词缀“i”得出“barg”,这个词已经是正确的词干,但是是词典未登录词,所以根据规则自动还原,还原成这个没有意义的词。这样,导致了发生语音同化的词汇还原准确率为96%。下面举例实验结果:
  1)脱落还原 shahri shahr i shahar
  2)同化还原 istagimiz istag imiz istak g→k
  3)增音还原 parvoyim parvo y imiz parvo
  本次研究可知,在8177个词中发生语音变化的词的频率为21.3%。提高乌兹别克语名词词干提取的准确率,首先处理其中的语音变化极其重要。试验中,没有进行还原的词干都不是准确的词干、不表示任何意义。应用规则和词典查找的混合方法进行还原才可以得到正确的词干。由此可知,语音变化处理方案的可靠性和实验结果的准确率直接影响词干提取的准确率。本次试验因出现未登录词而降低了实验结果的准确率,在今后的研究过程中进一步的完善规则库,扩建词干库,提出更科学、可行的处理方案为自动提取乌兹别克语名词词干提取和还原研究打下基础。
  参考文献:
  [1] 麦热哈巴·艾力,姜文武,吐尔根·依不拉音. 维吾尔语词法中音变现象的自动还原模型[J].科技信息,2013(11):222.
  [2]A.nurmonov,Asobirov,N.qosimova,等.Hozirgi o’zbek adabiy tili[M].Toshkent,2013:1-592.
  [3]古丽巴努木·克拜吐里,古丽巴霍尔·伊斯坎达洛娃.乌兹别克语教程[M].北京:中央民族大学出版社,2016:1-348.
  [4]O’ZBEK TILI.[M/OL].http://n.ziyouz.com/#.O’ZBEKISTON.TOSHKANT.2010.
  [5] 米热古丽·艾力,米吉提·阿不力米提,艾斯卡尔·艾木都拉.基于词法分析的维吾尔语元音弱化算法研究[J].中文信息处理学报,2008,22(4):43-47.
  [6]艾尼瓦尔·艾合买提江.初谈维吾尔语与乌兹别克语元音区别[J].科技信息,2013,11:222.
  [7]胡振华.中亚五国及其语言文字(上)[J].中央民族大学学报,1996(4):85-89.
  [8]胡振华.中亚五国及其语言文字(下)[J].中央民族大学学报,1996(5):79-87.
  [9]早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,帕里旦·吐尔逊,吴小川.混合策略的维吾尔语名词词干提取系统[J].计算机工程与应用,2013:49(1).
  [10]买力坎·苏来曼.现代维吾尔语元音弱化的实验分析[J].计算机应用研究,北民族大学学报,2012(6).
  [11]早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,艾斯卡尔·艾木都拉.维吾尔语名词构形词缀有限状态自动机的构造[J].中文信息学报,2009(1):23-6.
  [12]阿达来提 . 乌兹别克语的传据范畴初探[J].民族翻译,2013(1):82-88.
  [13]力提甫·托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报,2004(5):108-113.
其他文献
到目前为止,“离合词”这一名称已经基本为大家所接受,命名上的分歧已基本消除。但是,离合词在现代汉语中到底扮演着什么样的语法角色,到底应该如何界定这一语法单位仍是众说不一
永州是个神奇而又美丽的地方,它有着奇异的山水和深厚的文化。历代的文人墨客一到这里都没有不流连忘返的,而且不少的文人墨客还留下了不朽的篇章。唐代诗人也不例外。我认为唐
当代旅英女作家虹影以小说创作声名鹊起于海内外文坛,其诗人身份及其诗歌创作却少有研究者关注。本文在较为全面地梳理虹影的诗歌创作过程及考察其创作背景的前提下,探讨虹影诗
情景喜剧在我国属舶来品,自从1993年“情景喜剧之父”英达将《我爱我家》搬上荧屏,情景喜剧在我国已经历了十六七年的风雨历程。如果从美国经典剧《成长的烦恼》在我国的首次播
范小青自20世纪八十年代初以“知青小说”涉足文坛以来,其创作经历了两次写作姿态的调整:一次是从八十年代初对宏大叙事的模仿写作,向八十年代中期的苏州地域文化下和世俗日常生
北岛是中国当代颇具哲性意味的一位诗人,也是众多朦胧诗人中具有代表性和影响力的领军人物。从上世纪70年代后期开始创作到80年代末漂泊海外至今,仔细分析他在不同时期的诗歌创