论文部分内容阅读
意象是诗词创作与理解过程中的重要元素,寄托了深刻的思想情感。意象具有多层性、隐喻性的语义特点,理解意象的语义对于理解诗意有至关重要的作用。传统的意象研究多从文学、美学角度出发,在方法上多是对特定诗人、诗文和具体意象的个案分析。对于意象在古诗中的具体分布、意象与情感的结合方式、意象的作者分布等问题一直缺少较为宏观的定量研究和数据支撑。究其原因,在于传统的研究范式缺少计算方法和数据库技术的支撑,而新兴的数字人文研究,又大都停留在浅层的字面信息统计上。本文以经典的《唐诗三百首》诗词文本为样本,首先建立了新型的深度标注意象语料库,采用深度学习的方法标注了唐诗的分词与词性信息并进行了人工校对,然后又标注了意象的字面义与深层隐喻义等信息,进而统计了意象字面信息内部构成特点,尝试从意象字面义到深层义进行多层次统计分析,并探寻意象与作家风格、题材内容之间的关系。统计得到的意象分布数据和内部词汇构成、深层情感等语义知识,可服务于机器自动作诗等应用。本文的工作主要包含以下几个方面:第一,建立诗词分词词性标注语料库,通过机器自动标注加人工校对的方式,共标注了17718个词的分词和词性信息。对《唐诗三百首》进行机器自动分词和词性标注实验,得到分词和词性标注任务的F值分别为85.59%和77.47%,能够用于机器辅助标注任务中,同时分析了古诗词语料特点,通过对比实验验证了语料规模等因素对标注效果的影响。第二,尝试制定了意象标注体系。针对意象语义多层性、隐喻性的特点,并结合意象的语言单位构成特点,设计了符合意象语义特性的标注体系。该体系涵盖诗词题材、意象字面语义类、意象深层语义类、意象内部语义组成等多个字段,采用知网的义类体系,对《唐诗三百首》分词及词性标注语料进行静态意象的深层标注,重点关注从认知角度分析意象字面义和深层义的语义联系。第三,进行多角度的计量分析。在320首唐诗中标注了4496条意象数据,结合意象的理论研究成果,进行统计分析并得出如下结论:(1)意象用例呈现长尾分布,符合齐夫定律,以“月”“夜”“風”“山”等常见的自然类泛称意象为主,意象语义类分布则相对较为平缓,以各种事物的部件、人物为主,高频意象带有明显的隐喻性。(2)李白、杜甫等著名诗人的作品中,意象分布并不密集,怀古诗、战争诗这两种题材的诗词使用意象频繁,意象能够在一定程度上体现诗人的风格和题材内容。(3)意象的内部构成方面,单个词构成的单纯意象与多个词构成的复合意象占比接近。复合意象内部多个词之间主要呈现并列关系或修饰关系,修饰词以颜色、季节为主,修饰对象主要是“山”“風”“月”等事物。(4)在意象的深层义相关统计方面,将静态意象的深层义按照深层义词性分为认知属性类、隐转喻类和事件类。意象的认知属性表明诗词的整体情感呈现消极倾向;在隐喻和转喻的使用对比上,转喻的使用多于隐喻的使用。隐喻中,花和部件常作为源域;转喻中,整体-部分转喻、范畴-成员转喻是使用最多的转喻类型,呈现“以点带面”的认知倾向;意象所指代的事件主要以思念、战争、隐逸和分离为主,反映了诗歌的主题内容。综上,本文构建的意象语料库能够较为完整地表示意象在语言形式层面、浅层语义层面、深层语义层面的多层次、多维度信息,使用计量统计的方法能够宏观、全面地对比展现意象在不同语义类别、不同诗人、不同表达手法上的分布特点,能够对意象理论研究和诗词文本生成研究提供有益的补充。