论文部分内容阅读
多词序列(又称为词语序列、词项或ngram)是指n个连续的单词组成的序列,在语言学许多分支中被越来越多的学者所研究。这些研究的重点之一是lexicalbundles(通常翻译为词束),通常被认为是对搭配研究的扩展(Cortes,2004:397)。按Biber(2007:264)的定义,词束以频数为准则,既词束是出现频数最多的多词序列。Biber(2007:283)在该文中同时承认,频数并非研究格式化多词序列的唯一标准--出现次数多和预制化并非完全一致。Altenberg(1998:102)认为,词束作为研究口语习语的原材料是有用的,但是词束中的许多组合在习语研究中意义不大,因为它们是简单的重复或者是更大结构的组成部分。
本文是建立在以下假设上的:高搭配力度是多词序列预制性的标志。本文研究的多词序列是搭配按照另一个准则--搭配力度准则进行延伸而形成的多词序列,它在结构上体现了一种比词束更预制化的倾向。
这种新的结构化的多词序列的递归定义如下:
1.研究者指定的某个(某些)单词作为这些多词序列的根节点。
2.如果字符串X是m-word高搭配力度多词序列或者高搭配力度多词序列的根节点,且collocability(WL,X,-1)>=CLT-OFF,那么字符串WLX是(m+1)-word高搭配力度多词序列。
3.如果字符串x是m-word高搭配力度多词序列或者高搭配力度多词序列的根节点,且collocability(WR,X,+1)>=-CUT-OFF,那么字符串XWR是(m+1)-word高搭配力度多词序列。
解释:
1.collocability(WL,X,-1)表示节点词为X,跨距为-1/-1时,搭配词WL(节点词左一位置搭配词)相对与节点词的搭配力度,可以用T值,Mi值或者Z值来衡量。
2.collocability(WR,X,+1)表示节点词为X,跨距为+1/+1时,搭配词WR(节点词右一位置搭配词)相对与节点词的搭配力度,可以用T值,Mi值或者Z值来衡量。
3.CUT-OFF为研究者指定的临界搭配力度。当搭配词相对与节点词的搭配力度大于该值时,节点词可以与搭配词排列而形成更长的高搭力度多词序列。
实验发现高搭配力度多词序列的特点:高频;非对称:有界。
搭配理论是语法和词语的交汇点(卫乃兴,2002:120)。卫乃兴(2002:107)指出,搭配不仅是单词间的联系纽带,而且是文本中意义的载体。当前语言研究证实,形式和意义密不可分,词汇和语法密切相关,两者存在共选关系(濮建忠,2003:220)。选择词汇的同时也意味着同时对含义做出了选择,反之亦然。本文的实验结果也与这种观点一致:如果我们选择语法词(the,of,and,it)作为根节点,生成的高搭配力度多词序列中,有相当大的比例是典型的词项或者词项的组合。在这个过程中,我们以grammaicalwords为根词,得到了lexicalitems(或者是lexicalitems的组合),这一过程也体现了语法与词语的密切关系:Lexisisgrammmical,grammarislexical。
同时,在高搭配力度多词序列的生成过程中,如果临界搭配力度较小,这个算法会生成比较长的语言单位(例如句子);如果临界搭配力度比较大时,会生成短的语言单位(例如词项或者词项的组合)。从这个角度讲,这也验证了语法和词语的区别不是绝对不可逾越的。
当节点词频率不是太高,且节点词的搭配词分布相对均匀时,一系列搭配词与节点词相搭配,这些模式(例如putit+in/on)其实是类连接(即putit+prep(in/on))。
实验发现:如果选取一些高频词(例如the,and,of)作为根词,按照搭配力度为准则延伸后可以得到结构比较规范,并且和文本的内容高度相关的lexicalitems(或者是lexicalitems的组合),可以作为文章的候选关键词组。
我的论文由五章组成。第一章介绍了多词序列的重要性和搭配理论。第二章综述了研究所涉及的语言模型。第三章给出了高搭配力度多词序列的递归定义,并且给出了一个以单词to为根的高搭配力度多词序列的例子。在第四章,这种方法被运用为算法,从BEC中提取以the,of,and,it为根节点的高搭配力度多词序列,然后加以分析。最后一章探讨了高搭配力度多词序列的特征,本研究的局限性,高搭配力度多词序列的应用和今后研究方向。