藏语语素库的构造及其内容

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:luobo330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]在藏语当中语法单位最小的认为是音素,而语素没有给予一个特定的答案。没有分析也没有表明,大量认知研究发现语素存在独立的心理表征,语素意识以及分类在语法单位或教学上占重要地位。因此在论述“语素库”构造结构的基础上,探讨了设计现代藏文语法信息词典的理念及“语素库”在语法研究和语言信息处理研究中的应用。
  [关键词]语素 语素库 藏语 信息词典
  中图分类号:C829.2 文献标识码:A 文章编号:1009-914X(2015)45-0274-02
  一、引言。
  语素(Morpheme)作为最小的形、音、义的结合单位,在言语交流或阅读中传达语义或者句法的信息。汉语语素与藏语语素差别迥异;在拼音文字语素为词性和语义两部分组成,藏文中语素有着英语和汉语类似的划分部位,也有着自己独有的构词组合位置。
  为研究文本信息处理中未登录词的识别问题,为研究现代藏语合成词的构造规律问题,为设计一个“现代藏语语法信息词典”提供一可用资源。相应《新编藏文字典》所包含的全部藏字建立了一个单音节的“语素库”。这个“语素库”共有6800个记录。每个记录也包含相当丰富的语法属性信息。
  二、语素的概念及其在藏语中的分类。
  语素是语言学范畴术语。语法单位有大有小,最大的语法单位是句子,比句子小的语法单位,依次是短语、词、语素。藏语传统语法将语言单位分为四级:音素、词、句、和句群。语素作为语言中最小的语义和语音结合体。在不同语言体系中,语素的表达形式也各不相同。因此在这里按照汉文和英语中怎样划分语素为按例;在藏文中慢慢找出适合自己的语法和构词能力的语素分类为如下图(1):
  藏文中“?”隔开符来划分为单音节和多音节(单字、单词等),也可按音节划分为单音节语素和多音节语素。分类时跟着相似的英语规划并给于适合藏文语法的分类方式;在汉文中构造的语素库也为单音节的语素,成词的语素都纳入了《现代汉语语法信息词典》范围内,不成词的单音节语素才作为语素登录项。因藏文没有这样规划明确数据库庞大的词典,从而先不把语素按其自身能否构成词可划分为成词语素和不成词语素,单纯词和不成词都先纳入为单音节的语素库,把单音节作为着重点成立语素库。
  三、 语素作为语素库的一个登录项。
  按藏文语素的划分为结构上的划分和语义上的划分、构词能力,只要是一个语素组成的词都是单纯词。既然没有语法信息词典构建一个词语及语法属性的词库框架,只能按照上述的划分方法在藏文字典的目录下面,把目录下面的每个字所构成的字或词为一个登录项。
  一个藏字可以代表若干个语素,说“”是单纯词,或许是指藏文字母的“”(字母的顺序或辅音字母),又可能指器官的为人或动物的嘴唇,还指谈话内容为“”,指边缘等为“”,指上方或上面为“”等不成词的语素。同样,说“”指触觉问题时是粗糙的反义词,而性格上或语气为温和的(),味觉等其他上指舒服的、温和的。但它还有一个意思,指为“”(意为水里生长的草类),代表另一个语素,也不是单纯词,通常只用于构成合成词。像上述中的这样的语素怎么划分呢。因此,确立语素库登录项的第一件事,就是要把用一个字表记的若干语素区分开。如果某个语素是单纯词,则划为语素;如果不是单纯词,则划为语素登录项。使用汉语中的“语素登录项”这个术语指称作为不成词的登录项的语素,就不会同成词的语素相混淆。
  由于语素登录项通常不独立使用,其语法功能的含义需重新考虑。主要是看它在合成词中的作用,如读“”的“”在“”中,是指人名词后缀,起自由虚词作用;“”在“”等词语中终结词,起不自由虚词性作用。语素在复合词中的作用可用“替换法”进行检测。“”“”在前面的字替换掉用“-疾换岣谋溆镆宸冻搿R虼斯娑ㄓ锼睾陀锼氐锹枷畲胧恰癒”,语素库对语素登录项和语素的语法功能分类是在此基础上进一步作子类的划分,此后起自由虚词性作用的就叫“实语素”,“类别”字段填“Sk”,而自由虚词里面的连词、语气助词、指示代词、疑问代词、否定词、指人名词后缀等又划为一个子类按照上述填段类别。
  为了区分同字同子类不同义项的语素登录项。同一个字的(处于同一条目中的)不同义项也可能分属不同的语素子类,如“”的“ ”,在该条目下,是属格助词义,如“”,是名语素。如藏文中的像辅音字母的语素,分别为名语素Nk、形容语素Ak、数词Numk。为了区分它们,也仿照《现代汉语语法信息词典》的办法,语素库设立“同形”字段。在语素库中有多记录登录“”,在“同形”字段分别填“A”,“B”等。
  在构造语素库时,不对方言的语素义项用法录入库内。收入了非语素字,大部分为格助词就像上面所述那样,切分为,不过“”也可以用来构成“”,因此,语素字和非语素字的界限也不是绝对的。
  四、确定语素库的各个属性字段的含义。
  现在语素库共有6800个记录,记录字段为:
  单字:不同的单字一定是不同的记录。
  类别:规定了语素字的代码是“k”,非语素字的代语码是“x”。语素除填“k外,还在“k”的前面加一个大写字母,表示语素的子类。名语素填“Nk”,时间语素填“Tk”,动语素填“Vk”,形容语素填“Ak”,如此等等。
  同形:为了区分同音同字不同语素的登录项。
  组合:藏字组合成的词,有格助词或辅音字母作为前缀或后缀的。比如“”同“”组合成“”,此字段填“~”,反之“*~”。
  位置:指这字在组合中的位置。如上述“”为例,把恒前置的“”填为“前”,反之为后,位置不确定的不填。
  姓:现在藏族人的姓普遍不使用了,不过不常用也应作语素来研究,在古文或历史当中有很多的人名是姓开头的。不像汉字那样有百家姓,只有早初的四大姓氏和个别的姓氏,如:“”。字段填为“1”,该子类的语素为“Nk”。
  地名:如通常构造地名的词的特征此为填“1”,“”。
  水名:如“”(湟水河),填为“1”。
  五、语素库的应用及模型。
  在藏文当中词库的分类是还没有统一并精细的划分,因此存在着大量的歧义和难处,尽管如此,吉太加老师写的《藏语语法研究》和传统和本身所有的语言学知识结合起来而构造一个语素库。充而分析和规划词类及语法属性拥有一个藏字词库。对单字词的选取比较模糊一点,但这不阻碍语素库的构造,因在这基础上可建立集成的语法信息词典,到时可一一划分注释。
  对于如何在此基础上建立集成词典呢?藏语“语素库”也可称为“现代藏语字词语法知识库”,每个记录的各个字段的内容以及词性语法属性都有着自己的条目和分类。
  下面的图(2)是建立起的语素库的模型和划分项,在各别的条目和语素的词性趋向还划分为A或B的条目和注释;趋向有实语素,实语素还分为子类下有连词、叹词、副词、代词等多个词性,还有名语素和动语素、形容语素等上述所说这儿就不一一划分了。
  有了这个字词库,就得到了藏语构词能力的大部分知识,这些知识对于识别未定义词是
  有价值的。在句子切分当中把一个藏字由它合成的词恒处于前端的字时左侧无歧义切分,反之则右侧,这样句子的复杂度相对来说降低一点。
  利用从字词库中得到的合成词知识,不仅可以估计这个字构成合成词的概率,还可以估计该合成词属于某个词类,甚至可以猜测该合成词的意义。计算机的这种潜在的“智能”对句法分析、文本检索、信息提取等领域都是很有应用价值的。
  参考文献
  [1]李怡.英汉语言语素分类研究[J].安康学院学报.2008年12月第20卷第6期。
  [2胡坦.藏语的语素变异和语言变迁。
  [3]俞士汶.朱学锋.王惠.张芸芸.现代汉语语法信息词典详解[M].北京:清华大学出版社,1998
  年4月,第1版。
  [4]朱德熙.《语法讲义》.商务印书馆,1984年,第1版。
  [5] 俞士汶.朱学锋.李峰.现代汉语语素库的开发及应用,1999年,第二期。
  [6]吉太加.藏语语法研究[M].青海民族出版社,2008年第一版。
其他文献
中图分类号:X734.2 文献标识码:A 文章编号:1009-914X(2015)45-0268-01  “教师应当是心理医生”是现代教育对教师的新要求。现代教育的发展要求教师:“不仅仅是人类文化的传递者,还是学生心理健康的维护者。”  经过这几年的班主任工作,从中体会到大多数学生的异常行为表现,不单纯是品行问题,总是由心理问题得不到解决造成的。因此,特别是在农村中学,班主任必须肩负着心理健康教育
期刊
[摘 要]随着我国计算机网络技术的高速发展,计算机网络技术走进了千家万户的家里,人们也越来越关注计算机网络的可靠性,很多人已经将计算机网络的可靠性作为衡量计算机综合性能的因素,本文针对计算机影响计算机网络可靠性的因素和措施进行一系列阐述。  [关键词]计算机网络;可靠性;影响因素;措施  中图分类号:X734.2 文献标识码:A 文章编号:1009-914X(2015)45-0254-01  1绪
期刊
[摘 要]随着新一轮体育教学模式改革的深入开展,对课堂教学方式提出了更高的要求。要求课堂教学以学生为核心,老师做引导,将课堂还给学生,激发学生参与体育活动的热情。为了实现这一目标,实现高中体育教育的有效性,我们将新的教学理念引入到高中体育教学应用之。本文旨在结合高中体育课堂的教学实际,在相关教育理论的指导下,对提升高中体育课堂教学的有效性进行深入探讨,以期为提升我国高中阶段体育的教学质量,促进学生
期刊
[摘 要]近年来,黑龙江省依兰农场学校积极引入以计算机网络和多媒体辅助手段为平台,不但改变了原有的教学模式,使教师的教育理念实现了转变,也使学生的学习成绩得到较大幅度提升,取得较好效果。本文以阐述信息技术对传统教育的影响为出发点,对信息技术在教育教学的促进作用加以分析。  [关键词]信息技术 教学 课程改革  中图分类号:X734.2 文献标识码:A 文章编号:1009-914X(2015)45-
期刊
[摘 要]本文主要是对聚类算法在大数据平台上的应用进行介绍,本文以聚类算法中的k-means算法为例,首先介绍了聚类算法及其原理,进而进一步扩展到k-means算法在大数据平台上的应用,其中主要讲述Mahout这个基于大数据平台之上软件,并着重介绍了Mahout功能及其原理。  [关键词]大数据 聚类算法 k-means Mahout  中图分类号:D922.21 文献标识码:A 文章编号:100
期刊
[摘 要]本文对未登录词中藏文地名的结构及其在文本中的出现进行了深入的研究,建立了一个地名库和特征词库,在此基础上提出藏文地名识别算法和地名歧义消歧方法。实验结果表明,该算法的召回率为75.2%,准确率为68.1,取得了较好的识别效果。  [关键词]藏文地名识别,未登录词,分词  中图分类号:TP391.43 文献标识码:A 文章编号:1009-914X(2015)45-0278-01
期刊
[摘 要]“凉都”品牌的内涵十分丰富,既要体现气候资源优势,又要体现旅游资源和文化资源特色。贵州省六盘水市钟山区在发展乡村旅游、民族风情旅游的同时,积极发展壮大民族特色文化产品,提升“凉都”品牌,推进新农村建设及全面建成小康社会的步伐。  [关键词]发展 壮大 民族特色产品  中图分类号:U284.2 文献标识码:A 文章编号:1009-914X(2015)45-0283-01  “十八大”报告提
期刊
[摘 要]目前,我国在对《刑法》中的著作权、商标权、专利权以及商业机密等几方面知识产权保护的相关制度还存在相对单一和短缺、所需保护的对象不清楚等问题,本文重点对刑法保护的理念进行了详细的解析,同时将刑法对知识产权保护中应注意的附属刑法和惩罚刑法等制度的应用进行了完善提高。  [关键词]知识产权;刑法保护;弊端  中图分类号:TM58 文献标识码:A 文章编号:1009-914X(2015)45-0
期刊
[摘 要]随着我国市场经济的建立和发展,企业在劳动用工实行劳动合同制的过程中出现了一些不规范的种种问题,引起很多劳动合同纠纷,企业尤其是人员数量比较大的国有企业更应该规范自己的劳动合同管理,为构建企业和谐劳动关系,消除社会一些不稳定隐患。  [关键词]国有企业 劳动合同 规范  中图分类号:U284.2 文献标识码:A 文章编号:1009-914X(2015)45-0281-01  引言  国有企
期刊
[摘 要]随着社会的进步与发展,计算机走进了广大人民的学习、生活、工作中,且逐渐得到了普及,没有电脑就无法学习,没有电脑就无法工作。而对于计算机的应用能力也成为了当代大学生就业找工作的基本条件之一,这样的社会大背景下,促使各个高校加强了对于大学生计算机应用教育的重视,开设了一定的计算机课程,甚至利用课余时间进行培训,来提高大学生的就业法码。但是在计算机应用教育中针对学生开展的德育教育工作也具有相当
期刊