论文部分内容阅读
句子构建的描述在自然语言处理和语言测试领域都有很大的价值。然而,现在盛行的两大基于规则的句法分析系统——短语结构语法和依存语法,不能完全反映真实语言,。为了弥补这个不足,本研究提出了将模式语法作为描述句子构建的新视角,因为它具有符合真实语言的规律的以下三个特征:受到真实语料库提供的实证支持;与人类心理一致的句子构建线性分析;认为形式和语义具有紧密联系且其半固定结构有较大灵活性。而之前关于模式语法的研究仍主要停留在词汇层面,为了补充其在句子层面上的不足,本研究通过检验模式特点其反映句子结构复杂性的能力,对该可能性做了初步的验证,从而探索了使用模式语法来描述句子构建的可能性。通过基于语料库的量化方法,本研究试图通过检查模式语法是否反映了人类语言的普遍规律,以及是否满足了语域变异的功能基础,来确认其在反映英语句子结构复杂性上的可行性。本研究采用的是包含了四个语域的BNC Baby语料库,其中的句子均以列表形式做好了模式划分,并建立了五个模式测量指标,其中两个基本指标是模式流量(NPF)和平均模式长度(MPL),它们从“深度”和“长度”两个角度反映了句子的结构复杂程度,这些为定量分析提供了坚实的基础。之后,为了进行语域之间的比较,又添加了更多相关的指标。研究结果显示,通过五项指标显示的句子结构复杂程度反映了语言的经济原则和工作记忆能力的局限性这两条语言普遍规律。通过比较四个语域(对话、小说、报纸和学术)中由相关指标揭示的模式特征,所总结出来句子结构复杂性变化的三个方面——程度、类型(详细阐述或精简压缩)和信息密度,它们都能够由情境特征的差异来进行解释,所以也满足了语域变异的功能基础。这样,使用模式语法反映英语句子结构复杂性的可行性获得了证实,这也进一步暗示了将模式语法应用于句子构建描述的可能性。本研究通过将模式语法与句子结构复杂性及其跨语域的变异联系起来,在NPF和MPL两个指标的基础上,初步提出了一种二维的模式测量指标系统来描述句子结构,模式语法研究的范围从词汇层面扩展到了句子层面。由于本研究考虑了句子中模式本身和模式配置的特征,且测量指标系统简明又全面,所以在自然语言处理和语言测试领域都具有潜在的应用意义。