面向K12数学的试题知识点自动标注研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:xpzcz1992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着教育和信息化技术的融合,在线教育呈现蓬勃发展趋势,在线试题数量大规模激增。如何高效组织和管理这些试题资源,有效实现试题推荐、快速组卷、自适应测试等智能化过程,逐渐成为该领域的研究重点。试题知识点的自动标注是管理题库数据、提高教育自动化和智能化的基础所在,其本质是文本的多标签分类。目前,针对数学试题的知识点自动标注研究还很少,相较于普通文本,数学文本因为包含符号、公式等特殊元素,具有更加复杂的结构和语义,若直接应用通用领域的文本分类技术,很难达到知识点预测的准确度要求。因此,本文以K12数学试题为研究对象,基于通用领域文本分类的理论和技术,并结合数学文本的特殊性,对数学试题知识点自动标注中的关键问题进行了研究,包括数学公式的解析与嵌入、试题的特征抽取与表示、基于标签语义和多标签平滑的分类模型的构建等,具体内容如下:(1)在数学试题的词嵌入表示方面,采用向量语义模型进行词表征。试题文本中除了中文字词,还包含数学符号、公式等内容。数学公式具有不同于普通自然语言文本的结构和语法特点,因此通过公式解析和学习,得到每个公式的预训练向量。(2)在数学试题的文本表示和特征抽取方面,本文利用神经网络自动抽取数学试题的特征。试题的知识点具有特定的语义,并且和试题文本具有对应关系,因此引入标签语义注意力,指导神经网络模型提取试题文本中的重要信息,以此提高模型的分类效果。(3)在数学文本分类模型研究方面,研究目标是建立鲁棒性高、泛化能力强的多标签分类器。为此,使用融合文本特征的多标签平滑技术,对损失函数进行修正,提高模型对新数据的预测能力,进一步提高模型的分类效果。(4)在高中数学试题组成的数据集上训练模型,通过若干对照实验,验证本文所提方法的有效性。实验结果表明,本文设计的标注模型是可行有效的,通过引入标签注意力、并融合文本特征进行多标签平滑处理后,其分类效果更佳。
其他文献
亚热带森林作为我国典型的地带性植被,是全球陆地碳汇最重要的贡献区域之一。然而随着全球气候变化的持续加剧,原本降水充沛的亚热带地区频繁地发生极端干旱事件,严重影响森林生态系统的碳水循环和碳汇功能。生态系统碳汇功能对干旱的响应依赖于植物个体碳水生理过程的响应程度,其外在表现即树木生长速率的快慢。然而,由于树木生长和碳水生理过程对极端干旱的响应具有阶段性和复杂性,其具体机理尚不明确,尤其是水分和养分利用
学位
人口老龄化成为我国发展的新常态,伴随着家庭基本养老单位日益缩小,未来政府在老年人照护体系中的责任将越来越明确,发展多样化的养老方式势在必行。掌握老年人的健康预期寿命演变轨迹,了解不同养老方式对老年人健康状态和健康预期寿命的影响也成为完善养老服务体系重要的一环。而现有研究中鲜少涉及这一方面,因此本文围绕这一问题探究,并借此为完善养老照料体系提出可行性建议。具体方法与结论如下。首先,基于2002-20
学位
随着基础教育课程改革的不断推进,指向知识深度理解与迁移的项目式学习成为素养时代关注的焦点。新修订的高中课程标准中许多学科如语文、信息技术、地理等均提出要使用项目式学习;实践中,项目式学习也进入了越来越多的课堂。然而,传统的评价方式已无法满足项目式学习的评价需求,指向高阶思维与核心素养的表现性评价被认为是适合项目式学习的一种评价方式。如何设计项目式学习中的表现性评价是教师面临的一大挑战。本研究基于已
学位
笑是一种基本的社会文化现象。尽管已有丰富的研究探究机构互动中的笑,对课堂上的笑的研究仍处于课堂互动研究的边缘地位。科学本身的严肃性,使得科学课堂上的笑声尤为独特,而国内目前尚无这方面的研究。本文基于社会建构主义理论,采用基于视频的互动分析法,以上海某学校六年级科学课堂长达61小时的视频录像为主要分析材料,从中选取66个笑声互动片段进行多模态会话分析,探究科学课堂笑声发生的情境、师生参与的方式以及笑
学位
随着互联网和新闻媒体的发展,众多信息发布网站层出不穷,网站内容监管的重要性也与日俱增。由于互联网的便利性,舆论传播和发酵的速度极快,依靠人力监控很难在第一时间发现问题。现有的敏感词检测方案也多是在网站发布内容时检测其中的敏感词,但敏感词会随着时事而变化,内容发布时的检测已无法满足舆情监控的需求。因此,必须通过自动灵活的网站敏感词监测系统来对网络舆情进行监测和处理,从而保障网络安全和社会稳定。基于上
学位
呼吸系统疾病是一类常发性疾病,其致死风险在城乡均排名前列。探究影响该类疾病发病因素,降低其死亡率已成为近些年的研究重点,但在诸多研究当中,包含时空效应分析的研究较少。本文使用广州市2016-2019年呼吸系统疾病门诊数据与51个环境监测站获得的大气污染物数据,研究该地区呼吸疾病死亡病例与环境因子的关系,同时考量时空随机效应的影响,最终实现疾病制图。模型拟合基于贝叶斯框架,并使用INLA算法进行参数
学位
PageRank算法是一种计算图网络数据中节点重要性的算法,通过入链节点的重要性和入链节点的数目来计算每个节点重要性,可以广泛应用于搜索引擎推荐、社交网络人群重要性排序以及文献作者排序等实际问题中。但在实际问题中,由于图网络结构的拓扑结构,同一节点对不同节点的重要性贡献是不同的,这时使用原始的PageRank算法计算网络中节点重要性不够准确,而基于无向结构的PageRank算法虽然可以改变计算过程
学位
随着互联网行业的高速发展和物质生活的极大丰富,国内外涌现出大量的互联网电商平台。持续膨胀的数据量以及日益复杂的业务场景,对支撑电商平台的基础架构的性能和稳定性提出了重大考验。在保证系统性能和稳定的同时科学地控制运营成本是管理者关注的重要方面。本文通过对基于微服务及云原生架构的互联网电商平台的业务特点和Kubernetes集群的负载指标进行分析,指出了存在的资源浪费和服务抖动问题:负载指标变化规律与
学位
聋哑残疾的患病人数是中国五大残疾人数之首。据统计,截止2020年中国有2780多万的聋哑人。因聋哑人群体语言听觉能力的缺失导致与他人沟通困难,给工作生活带来了诸多不便,产生许多社会问题。针对聋哑人沟通的难题,研究人员做了大量的基于手语、文字等方面的研究,并在手语和文字的翻译效率、准确性等方面有了非常大的进展。然而,手语翻译方案存在使用广泛性不够,标准繁多,价格昂贵等问题。实时文字翻译方案交互效率低
学位
随着嵌入式系统结构和交互的日益复杂以及软件在嵌入式系统应用比重的增加,如何保障复杂嵌入式系统的高安全性和高可靠性逐渐成为了现今的挑战。目前,传统系统安全分析方法如故障模式及影响分析(FMEA)、故障树分析(FTA)、可靠性框图(RBD),已广泛运用于学术界和工业界。但是面对系统的高度集成化、复杂化、软件密集化的发展趋势,传统的系统安全分析过程往往难以应对。在常规的安全分析过程中,安全工程师通常使用
学位