面向古汉语语义理解的自然语言处理技术研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sffntm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字人文的发展,利用计算机对人文学科进行辅助研究已经逐渐成为一种趋势。而古汉语领域,诗词曲赋、散文、戏曲、小说等文学作品,《三国志》、《史记》、《汉书》等史学作品,记载着中华五千年的文明,对这世界上唯一从未间断传承的古老文明累积的大量古籍进行自动的、有条理的研究对于整个人类文明的发展有重要意义和价值。随着计算语言学和知识图谱领域的发展,面向现代汉语领域的自然语言处理技术日趋成熟,以知识辅助现代汉语的语义理解成为研究热点。然而,关于古汉语领域的研究却十分稀少。若能够利用计算语言学的技术,对古汉语进行自动分词、词性标注、命名实体识别、句法解析,实现对古汉语的语法分析;利用知识图谱的技术,实现对古汉语的语义分析,则能够以规范统一的流程对大量的电子化古籍进行研究,避免了大量重复的人工劳动,从一种新的角度来辅助古汉语领域的研究。因此,本文研究面向古汉语的自然语言处理和知识图谱的技术,从而辅助古汉语语料的语义理解。具体地,主要包含以下几个方面的工作:(1)提出了一种针对古汉语语料的、高效的两步新词发现算法AP-LSTM-CRF,融合了并行化的Apriori算法和Bi-LSTM-CRF切分概率模型,利用数据挖掘的关联规则算法和深度学习的方法有效地挖掘古汉语语料中的新词。实验证明AP-LSTM-CRF在宋词和宋史数据集上均优于多个对比算法。(2)提出了一种古诗词知识图谱的构建方法,并利用该方法构建了一个内容覆盖全面、包含多层词语语义联系的古诗词图谱。古诗词图谱可以从语义的角度对诗词进行各种不同维度的分析研究。此外,古诗词图谱还适用于各种关于古诗词的推理和分析任务。(3)构建了古诗词数据挖掘和知识图谱展示的可视化系统。主要功能包括,对古诗词分词的效果进行展示,对古诗词图谱进行展示,基于古诗词分词和古诗词图谱对各朝代诗词进行数据分析并将结果以交互性图表的形式展示,基于古诗词图谱对诗词题材、情感进行自动分类并将分类结果可视化展示。
其他文献
合同是商业活动中约束活动双方权利与义务的文件,在诸多大型金融集团中,合同审核业务常作为其业务流程的重要环节。由于合同文档信息量大且页数多,在其人工审核时,会消耗大量人力、财力,且存在一些无法避免的操作风险。目前一些通用合同文档的审阅工具,无法满足一些针对资产处置合同的审核场景,其次,一些审核系统作为办公自动化系统(OA系统)的子系统,依赖该系统的业务,无法完成特定场合的合同审核业务,并且存在着一些
新闻门户网站为了获取最新的新闻,需要对数以万计的网站比如地方新闻网、个人博客、行业论坛进行定时访问。普通用户比如招投标人员、数据分析师,平时需要定期访问各个政府招标网站、行业咨询网来筛选最新信息。为了提供这类通用性工具,帮助需求人群快速完成特定网页的采集和监控,本文设计与实现一套可定制化规则的新闻抓取系统。本文主要工作包含①底层使用WebMagic作为基础抓取框架,借助Zookeeper完成分布式
在积聚、沉淀、酝酿十余载之后,2021年我国新能源汽车市场迎来爆发式增长新阶段.在电动化、智能化、网联化技术变革驱动下,新能源汽车市场全年保持高速增长,尤其2021年下半年市场渗透率持续提升.据中国汽车工业协会的统计数据,2021年前11个月我国新能源汽车累计产量突破300万辆,销量近300万辆;预计2021年全年销量有望达到340万辆;2022年产销突破500万辆.我国新能源汽车已由过去以政策驱动为主转向了市场驱动.为此,《汽车纵横》梳理出2021新能源汽车十大年度事件,以过往为鉴,绘明日蓝图.