高搭配力度多词序列识别的递归算法

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:yilvQINGFENG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多词序列(又称为词语序列、词项或ngram)是指n个连续的单词组成的序列,在语言学许多分支中被越来越多的学者所研究。这些研究的重点之一是lexicalbundles(通常翻译为词束),通常被认为是对搭配研究的扩展(Cortes,2004:397)。按Biber(2007:264)的定义,词束以频数为准则,既词束是出现频数最多的多词序列。Biber(2007:283)在该文中同时承认,频数并非研究格式化多词序列的唯一标准--出现次数多和预制化并非完全一致。Altenberg(1998:102)认为,词束作为研究口语习语的原材料是有用的,但是词束中的许多组合在习语研究中意义不大,因为它们是简单的重复或者是更大结构的组成部分。 本文是建立在以下假设上的:高搭配力度是多词序列预制性的标志。本文研究的多词序列是搭配按照另一个准则--搭配力度准则进行延伸而形成的多词序列,它在结构上体现了一种比词束更预制化的倾向。 这种新的结构化的多词序列的递归定义如下: 1.研究者指定的某个(某些)单词作为这些多词序列的根节点。 2.如果字符串X是m-word高搭配力度多词序列或者高搭配力度多词序列的根节点,且collocability(WL,X,-1)>=CLT-OFF,那么字符串WLX是(m+1)-word高搭配力度多词序列。 3.如果字符串x是m-word高搭配力度多词序列或者高搭配力度多词序列的根节点,且collocability(WR,X,+1)>=-CUT-OFF,那么字符串XWR是(m+1)-word高搭配力度多词序列。 解释: 1.collocability(WL,X,-1)表示节点词为X,跨距为-1/-1时,搭配词WL(节点词左一位置搭配词)相对与节点词的搭配力度,可以用T值,Mi值或者Z值来衡量。 2.collocability(WR,X,+1)表示节点词为X,跨距为+1/+1时,搭配词WR(节点词右一位置搭配词)相对与节点词的搭配力度,可以用T值,Mi值或者Z值来衡量。 3.CUT-OFF为研究者指定的临界搭配力度。当搭配词相对与节点词的搭配力度大于该值时,节点词可以与搭配词排列而形成更长的高搭力度多词序列。 实验发现高搭配力度多词序列的特点:高频;非对称:有界。 搭配理论是语法和词语的交汇点(卫乃兴,2002:120)。卫乃兴(2002:107)指出,搭配不仅是单词间的联系纽带,而且是文本中意义的载体。当前语言研究证实,形式和意义密不可分,词汇和语法密切相关,两者存在共选关系(濮建忠,2003:220)。选择词汇的同时也意味着同时对含义做出了选择,反之亦然。本文的实验结果也与这种观点一致:如果我们选择语法词(the,of,and,it)作为根节点,生成的高搭配力度多词序列中,有相当大的比例是典型的词项或者词项的组合。在这个过程中,我们以grammaicalwords为根词,得到了lexicalitems(或者是lexicalitems的组合),这一过程也体现了语法与词语的密切关系:Lexisisgrammmical,grammarislexical。 同时,在高搭配力度多词序列的生成过程中,如果临界搭配力度较小,这个算法会生成比较长的语言单位(例如句子);如果临界搭配力度比较大时,会生成短的语言单位(例如词项或者词项的组合)。从这个角度讲,这也验证了语法和词语的区别不是绝对不可逾越的。 当节点词频率不是太高,且节点词的搭配词分布相对均匀时,一系列搭配词与节点词相搭配,这些模式(例如putit+in/on)其实是类连接(即putit+prep(in/on))。 实验发现:如果选取一些高频词(例如the,and,of)作为根词,按照搭配力度为准则延伸后可以得到结构比较规范,并且和文本的内容高度相关的lexicalitems(或者是lexicalitems的组合),可以作为文章的候选关键词组。 我的论文由五章组成。第一章介绍了多词序列的重要性和搭配理论。第二章综述了研究所涉及的语言模型。第三章给出了高搭配力度多词序列的递归定义,并且给出了一个以单词to为根的高搭配力度多词序列的例子。在第四章,这种方法被运用为算法,从BEC中提取以the,of,and,it为根节点的高搭配力度多词序列,然后加以分析。最后一章探讨了高搭配力度多词序列的特征,本研究的局限性,高搭配力度多词序列的应用和今后研究方向。
其他文献
中国半导体市场的巨大容量和发展速度让世人有目共睹,这其中主要的推动力来自消费类电子、数据处理及有线和无线通信等应用领域,国内企业的持续成 China’s huge semiconduc
结合渝怀铁路 2 5、2 6标段桥梁深水钻孔灌注桩基础的施工实践 ,从成孔过程、成桩过程、超前预控和成桩无损检测等几个方面简要地阐述了深水钻孔灌注桩施工中质量控制的要点
陌生化手法是指那些作者有意识创造的、能给阅读过程制造难度从而让读者产生新鲜独特的审美享受的语言手段。俄国形式主义文论认为,文学的本质特征是文学性,即那些使特定作品成
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
本文通过对荣华二采区10
本文通过对荣华二采区10
期刊
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
在《全日制普通高中英语课程标准》(2001)中,培养学生的综合语言运用能力被视为高中英语教学的目标之一。而且,综合语言运用能力的形成建立在语言技能、语言知识、情感态度、学
麦尔维尔是公认的美国十九世纪文学史上最伟大的作家之一,其代表作《白鲸》以其惊心动魄的捕鲸场面,对哲学孜孜以求的深层探索,并配以浪漫史诗般的风格达到了美国十九世纪小说的
受诸如视频和静态图像使用的增多以及软件无线电等可重复配置系统需求的增长,数字信号处理(DSP)的应用继续膨胀。其中许多应用把重 Due to the increasing use of video and