论文部分内容阅读
语言是一个由多种单位构成的复杂系统,语音、词汇、句法等子系统各司其职。语言同时是一个动态、开放的协同系统,各种语言属性互相影响。语言本身及其属性都会受语内及语外因素影响而逐步发生演化。在语言系统中,词汇具有极其重要的作用。无论在听觉层面还是视觉层面,长度都是词汇最基础也最显著的属性之一。词汇长度不仅能在一定程度上反映语言单位的复杂性,呈现文本的整体特征,词长的变化还会引起其他语言属性发生改变,进而带来语言的整体演化。词长因其特殊性,得到了语言学、心理学、教育学、交际学、信息学等不同学科领域的关注。特别是计量语言学,将词长视为研究语言整体特性的关键切入点,相关研究层见叠出。计量语言学研究主张以大规模真实语言材料为研究对象,采用数学定量方法,以揭示人类语言的普遍特性、自适应机制、演化规律及其动因。现有词长计量研究已取得丰硕成果,但仍存在以下局限:首先,就研究工具而言,大部分研究对词汇定义的探讨有限,在选择词长测量单位时一般基于前人研究或个人经验,故存在测量方法不统一的情况,尚无研究对比不同测量方法对结果造成的影响;其次,在语料特征方面,目前考察的文本类型较为单一,以文学、书信为主,多数研究选用的语料规模较小,缺少系统的跨文体分析;再者,从研究维度上看,现有研究多从共时角度出发,且文章大多重数据而轻分析,鲜有基于统一、大量、真实语料的多维度历时考察。基于上述背景,本文聚焦17-19世纪德语词汇长度的共时跨文体特征及历时演化趋势,采用计量方法从平均词汇长度、词长分布特征、文本内部词长走势、词长与其他语言属性的关系等方面展开系统研究分析,尝试回答以下问题:1)在共时层面,不同文体的德语词汇长度具有哪些共性与差异?哪些因素造成了这些跨文体特征?2)在历时层面,1600年至1899年间,不同文体的德语词汇长度分别呈现怎样的演化趋势?其演化动因是什么?本研究语料选自德语文本历时语料库(Deutsches Textarchiv,简称DTA),涵盖四个文体类型,总词次约2000万。在开展主体实证研究之前,本文充分探讨词汇定义,据此设计实验方案,并利用DTA语料库中的“报刊”文体语料展开前测。结果表明,音节是最适合书面德语的词长测量单位。鉴于德语屈折变化丰富,词汇的形符、类符、词形、词目拥有各异的语言学意义,在具体研究时应根据研究目的选择适当的词汇形态作为测算对象。本研究在对DTA语料库“文学”“应用文”“学术”三类文体300年间的360篇语料进行跨文体、跨时段、多维度分析后,主要得出如下结论:1)在共时层面上,不同文体的词汇长度特征既有个性,又显共性。语料的差异性集中体现于整体的词长特征:无论是全文平均词长,还是各词类的平均长度,抑或多音节词的占比,同时期语料均呈现出“学术>应用文>文学”的特点。造成跨文体差异的主要原因是各文体不同的写作目的和语言使用偏好。三类文体语料的相似性主要体现在三个方面:第一,各文本的词汇长度分布特征非常相似,基于词形形符得到的分布数据可用统一数学模型(单位移超泊松分布)描述。第二,词汇长度与词汇使用频率存在相关性,“词长越短使用频率越高”的特点符合幂律函数=。上述两点均为“省力原则”在德语中的体现。第三,在一篇文本内部,词汇长度呈现出波动上升的趋势。这与写作策略及篇章信息结构相关,受到人类认知特点影响。2)从历时维度看,德语词汇长度在17-19世纪间整体呈增长趋势。具体而言,“学术”语料的词长历时增速最快,“应用文”次之,而“文学”语言的演化速率较为平缓。这主要是因为学术文本和应用文对语言表达的精准度要求更高,且为了满足新的表达需求常使用复合、派生等构词法创造新词,而这往往会令词汇长度增加。其次,不同词类的演化特征不尽相同。名词、形容词、动词的增速最快,说明上述词类具有较强的构词能力。此外,词长分布模型的参数值可以在一定程度上反映文体的历时演化特征。整体而言,语言是一个自适应动态系统,词汇长度的演化过程受到社会、文化、认知、交际等因素的共同作用。本研究首次从共时和历时两个方面系统考察了德语词汇长度的跨文体特征与演化规律,在思路方法、研究语料、研究视角等方面均有创新。在思路方法层面,本文重视“词”的概念探讨,以理论指导实践,基于先导研究结果优化主体研究设计,并找到了最适合书面德语的词长测量单位,有助于改变目前词长测量单位不统一、结果难对比的研究现状。从研究语料上看,本文突破目前时间维度、文体类型单一的局限性,在选择语料时兼顾同质性与异质性,系统考察边界条件对结果的影响。不仅验证了计量语言学的定律与假设,还佐证并拓展了文体学、历史语言学、语言类型学的相关观点。在研究视角方面,本文构建起多维的词长研究范式,以共时研究为横轴、历时研究为纵轴,结合语法、认知、社会、文化因素展开多维分析,并与现有研究充分对话,展开跨语言比较。既深化了对德语词汇文体特征及其演化规律的了解,也为人类语言共性探究提供了实证基础。