论文部分内容阅读
随着数字人文的发展,利用计算机对人文学科进行辅助研究已经逐渐成为一种趋势。而古汉语领域,诗词曲赋、散文、戏曲、小说等文学作品,《三国志》、《史记》、《汉书》等史学作品,记载着中华五千年的文明,对这世界上唯一从未间断传承的古老文明累积的大量古籍进行自动的、有条理的研究对于整个人类文明的发展有重要意义和价值。随着计算语言学和知识图谱领域的发展,面向现代汉语领域的自然语言处理技术日趋成熟,以知识辅助现代汉语的语义理解成为研究热点。然而,关于古汉语领域的研究却十分稀少。若能够利用计算语言学的技术,对古汉语进行自动分词、词性标注、命名实体识别、句法解析,实现对古汉语的语法分析;利用知识图谱的技术,实现对古汉语的语义分析,则能够以规范统一的流程对大量的电子化古籍进行研究,避免了大量重复的人工劳动,从一种新的角度来辅助古汉语领域的研究。因此,本文研究面向古汉语的自然语言处理和知识图谱的技术,从而辅助古汉语语料的语义理解。具体地,主要包含以下几个方面的工作:(1)提出了一种针对古汉语语料的、高效的两步新词发现算法AP-LSTM-CRF,融合了并行化的Apriori算法和Bi-LSTM-CRF切分概率模型,利用数据挖掘的关联规则算法和深度学习的方法有效地挖掘古汉语语料中的新词。实验证明AP-LSTM-CRF在宋词和宋史数据集上均优于多个对比算法。(2)提出了一种古诗词知识图谱的构建方法,并利用该方法构建了一个内容覆盖全面、包含多层词语语义联系的古诗词图谱。古诗词图谱可以从语义的角度对诗词进行各种不同维度的分析研究。此外,古诗词图谱还适用于各种关于古诗词的推理和分析任务。(3)构建了古诗词数据挖掘和知识图谱展示的可视化系统。主要功能包括,对古诗词分词的效果进行展示,对古诗词图谱进行展示,基于古诗词分词和古诗词图谱对各朝代诗词进行数据分析并将结果以交互性图表的形式展示,基于古诗词图谱对诗词题材、情感进行自动分类并将分类结果可视化展示。