【摘 要】
:
试题自动标注是多标签文本分类在智能教育场景下的重要子任务。特定学科(如数学、物理)的试题自动标注研究通常取决于自身的学科特性。然而,许多的试题自动标注方法往往只能获取单一的试题句子表示,不仅存在语义抽取不充分的问题,而且忽略了试题与知识点之间的复杂关系,难以实现准确的试题自动标注研究。另外,特定学科的试题自动标注数据集也非常少。因此,本文重点针对特定学科的试题数据研究准确有效的试题自动标注。本文的
论文部分内容阅读
试题自动标注是多标签文本分类在智能教育场景下的重要子任务。特定学科(如数学、物理)的试题自动标注研究通常取决于自身的学科特性。然而,许多的试题自动标注方法往往只能获取单一的试题句子表示,不仅存在语义抽取不充分的问题,而且忽略了试题与知识点之间的复杂关系,难以实现准确的试题自动标注研究。另外,特定学科的试题自动标注数据集也非常少。因此,本文重点针对特定学科的试题数据研究准确有效的试题自动标注。本文的主要工作内容和创新如下:(1)针对特定学科的试题数据集非常少,本文通过收集真实的数学试题构建了一个数据集,采用人工标注为试题数据集标注了18种知识点标签,每道数学试题对应着多个知识点标签。因此,基于多标签的数学试题自动标注研究旨在解决数学试题多知识自动标注任务。本文主要基于所构建的数学试题数据集来实现试题自动标注研究。(2)为了解决数学试题语义抽取不充分的问题,本文提出了基于门控机制的特征融合模型(Feature Integration Model Based on the Gating Mechanism,GFI)来实现数学试题的多知识自动标注任务。该模型通过门控机制(Gating Mechanism)将试题的局部关键特征和上下文逻辑特征中的重要信息进行融合来增强数学试题的语义表示。另外,在GFI模型中还引入了数学符号库(Mathematical Symbol Base,MSbase)来丰富数学符号的重要含义。(3)为了解决数学试题复杂语义捕获的问题,在GFI模型的基础上,本文又提出了多跳注意力机制模型(Multi Hop Attention Mechanism Model,MHA)来实现数学试题的多知识自动标注任务。该模型通过多跳注意力机制(Multi Hop Attention Mechanism)来关注数学试题中不同的重要信息。另外,由于A Lite BERT(ALBERT)预训练模型的优势和效率,在MHA模型中仍采用ALBERT来完成研究中的词嵌入任务。(4)本文在所构建的数学试题数据集上对提出的GFI模型和MHA模型进行了实验验证。最终实验结果表明,GFI模型与MHA模型均能实现较好的标注准确性,并且MHA模型获得了比GFI模型更好的结果。
其他文献
通过对悬索桥主缆线形、索塔偏位、吊索垂直度、桥面线形的数据分析,评估索夹滑移对结构变位的影响。实测索力对比成桥索力,滑移的吊索索力减少、相邻吊索索力增大。建立有限元模型模拟索夹滑移,分析索夹滑移前后桥梁各构件的受力情况。
山西是富煤缺水地区,省域内关闭煤矿数量逐年增多,但其矿坑水资源相对丰富,是值得开发利用的地下水资源。在山西省关闭煤矿中选取北岩煤矿作为典型评价对象,从定性因素和定量指标两方面对其矿坑水资源赋存情况进行分析与研究,并结合当地实际情况综合评述其开发前景,以期为其他关闭煤矿矿坑水资源有效开发利用提供技术参考。
现代飞机是由许多子系统组成的复杂系统,系统结构层次多,关联度高,故障之间存在横向和纵向传播性。因此,在健康管理技术实施过程中,应最大程度利用故障特征监测技术,并借助各种算法和智能模型来监控、诊断、预测和管理飞机的运行状态。鉴于此,将机器学习中的决策树算法应用到故障诊断技术中,建立了复杂的数学模型,提出了一种基于飞机状态参数构成的决策树的飞机级故障诊断建模方法,对飞机健康管理应用的发展具有一定的参考
为探讨四川省级森林经营样板建设对大英县森林质量的影响,本研究以样板建设林分为对象,采用固定样地监测调查方法,分析了柏木人工林资源量与结构变化。结果表明:省级森林经营样板建设显著改善了项目区柏木人工林的森林结构和质量,降低了林分密度,增加了林木生长空间,有效促进了林分的水平生长、垂直生长和单株材积生长。
<正>习近平总书记指出,铸牢中华民族共同体意识是新时代党的民族工作的主线,也是民族地区各项工作的主线。高等院校肩负着为党育人、为国育才的重大使命,是开展铸牢中华民族共同体意识宣传教育的重要阵地,在厚植各民族师生爱国主义情怀、深化民族团结进步教育等方面发挥着不可替代的重要作用。
供给侧结构性改革的提出加速了我国煤矿落后产能的退出,但同时关闭煤矿的合理再利用提上日程。为探讨关闭煤矿潜在的可利用资源及其利用前景,基于关闭煤矿彻底废弃的负面效应分析,对其潜在资源类型进行了划分,并对各种资源的利用前景进行了分析,最后指出其在二次利用中亟待解决的问题。研究表明:我国关闭煤矿潜在资源主要包括剩余煤炭、矿井水、煤层气、地下空间以及生态开发与工业旅游资源;厘清剩余煤炭资源赋存特征、提高关
本文的主要研究内容是基于数字音乐的音频声学特征进行音乐的流派分类和自动标注。音乐的流派分析和标签标注需要大量的音乐特征,但传统的音乐特征设计需要结合音乐领域的专业知识,而且在处理不同类型的任务时这些特征并不通用,往往需要耗费大量的人工成本。深度学习的应用降低了对音乐流派分析和标签标注时对人工的依赖。本文立足于音乐本身,使用深度学习的方法对音乐流派分类、音乐标签的自动标注和基于流派、标签的离线音乐推
随着中国债券市场规模不断扩大,2014年以来,中国信用债违约事件日益增加。文章在构建银行间债券市场信用债知识图谱的基础上,针对其多种关系的特点,提出基于注意力机制的关系图卷积神经网络及债券知识图谱构建的异构信息处理(R-GCN-BKG)的违约债券预测算法,并对债券违约的影响因素进行分析。实验结果表明,R-GCN-BKG模型在处理违约债券的预测任务上取得良好效果,其准确率为92%、召回率为90%、精
“电离平衡常数”是新教材新增内容,是高中化学重要的基本常数之一,在化学基本概念和基本理论内容中占有重要地位。结合课标要求、教材编写、学科思想方法,分析电离平衡常数引入的背景与意图,在引领教师加强化学学科理解的同时,拓展电离平衡常数的应用,发展学生化学学科核心素养。