【摘 要】
:
近年来随着教育信息化、个性化教育等观念的逐渐深化,在网络上进行自主学习已经成为学生获取知识的重要途径之一。在线教育平台会为学生提供不同形式的知识学习方式,如通过视频、文档的形式进行知识传播。然而,由于平台中的教学资源数据之间是相互独立的关系,分散地存在于网页结构中,学习资源之间并没有通过逻辑关系建立连接,难以形成系统化的知识体系结构。该问题导致课程信息背后隐含的丰富语义信息被人忽略,课程数据可利用
论文部分内容阅读
近年来随着教育信息化、个性化教育等观念的逐渐深化,在网络上进行自主学习已经成为学生获取知识的重要途径之一。在线教育平台会为学生提供不同形式的知识学习方式,如通过视频、文档的形式进行知识传播。然而,由于平台中的教学资源数据之间是相互独立的关系,分散地存在于网页结构中,学习资源之间并没有通过逻辑关系建立连接,难以形成系统化的知识体系结构。该问题导致课程信息背后隐含的丰富语义信息被人忽略,课程数据可利用价值大大降低。针对以上提出的问题,本论文使用python语言,基于开放领域网页数据源,设计并开发了一个金融类课程知识图谱,实现了对金融类课程信息的体系化构建。论文的具体工作内容如下:(1)对金融类课程知识图谱进行了针对性问题及目标分析,并列举了待解决的关键技术点,根据项目需求分析的指导,设计了金融类课程知识图谱的构建流程,包括数据源获取、数据预处理、金融类课程本体模型设计与建立、金融类课程语料关键词提取、信息抽取(实体与关系抽取)以及基于Neo4j的数据存储及展示。(2)数据源获取与预处理操作。设计分页数据爬取流程与方法,使用网页爬虫技术对中国大学Mooc网站中的课程属性信息(课程名称、授课机构、授课教师、课程概述、先修课程)进行爬取,并对初始语料池进行必要的预处理操作,包括对于空值项、过长项以及粘连项的数据清洗操作与之后的分词处理,在原始数据基础上分离出了更好的样本语料池。(3)金融类课程本体模型的设计与建立。分别从语义关系、语义类型以及本体对象三个维度对金融类课程本体模型进行了设计与描述。从这三个维度来看,金融类课程知识图谱内的语义关系可分为四类,分别为:课程上级分类的上下位关系、所属关系、教授关系以及先修关系。语义类型也可分为四类:课程实体、机构实体、标签实体以及人物实体。并在模型基础上,对金融类课程本体对象进行了实例化构建。(4)金融类课程语料关键词提取与知识存储模块的实现。分别使用基于TF-IDF与信息熵的关键词提取算法,对课程概述属性中包含的文本类型数据进行与金融专业相关的关键词提取工作,将提取到的关键词集合作为后续领域命名实体识别模型的外部词典,辅助其中的自动化序列标注任务。并实现了将关系型数据库中的结构化数据转换为三元组数据存入图数据库中进行关系链接与持久化保存的知识存储模块,对存储结果进行了展示。(5)基于Bi LSTM-CRF算法的金融类课程实体识别方法。首先,设计了对原始无标注语料进行自动化标注的方法并实现了相关工作,然后将金融类课程标注性语料作为基于Bi LSTM-CRF算法的命名实体识别模型的训练数据集,训练出了金融类课程实体识别模型,然后对构建效果进行了对比实验分析,并应用于课程先修关系的抽取工作中。
其他文献
射频功率放大器作为射频模块的核心部件,广泛应用于物联网、传能、通信、雷达、检测等领域。作为各类射频模块中最大的耗能部件,它的功率输出能力和转换效率会直接对整个射频模块的性能产生重大影响。如何使射频功率放大器输出最大功率时实现更高的效率,已然成为当前高效率射频功率放大器的重要研究内容。本文针对高效率F类功率放大器展开研究,通过对比分析目前的文献研究成果,发现窄带F类功率放大器仍存在调试难度大、电路品
在大数据时代下,计算机系统所需处理的数据量爆炸式增长,片上网络和众核系统的逐渐成熟一定程度上缓解了系统遇到性能瓶颈的问题。但随着众核系统在计算力、通信力方面的提升,这些核心在处理数据时访问内存的频率也会增加,若不优化与内存访问服务相关的系统架构,则内存带宽无法匹配处理器核巨大的数据流通需求。增加片上网络中存储访问控制器,即内存控制器的数量可以看做增加带宽的一种方法。但随着核心逐渐增多,在满足处理器
随着人工智能技术的发展,在许多任务中,以神经网络为代表的机器学习模型已经表现出接近甚至超越人类水平的性能。但是,此模型通常是无法扩展其“功能”的静态模型。每当有新数据出现需要进行训练时,模型就需要使用全部数据重新开始训练。在现实世界中,这种做法在部分应用场景中会变得非常棘手。由于存储限制或隐私问题,很多数据可能会在给定时间后就会消失,甚至根本无法存储,这使得神经网络能够随着时间的推移进行适应和更新
随着时代的进步和科技的发展,互联网的使用更为频繁,随之而来的便是大量数据的产生.这些人们生活中产生的形形色色的数据,如若加以利用,便能给人们的生活带来更多便捷.数据挖掘就此应运而生.它通过分析数据本身的结构和数据间的关联性,将无用的信息过滤,进而提炼出更具有价值的信息.聚类作为一种典型的数据挖掘方法,也是一种无监督学习方法,能够在没有先验知识的情况下将数据划分为若干簇,使得不同簇的数据间相似性尽可
交通标志的检测识别是智能驾驶系统的关键技术之一,交通标志中含有大量有用信息,能实时提示驾驶员做出正确反应,极大地减少交通事故的发生,但由于现实环境中天气、光线、遮挡等因素的影响,交通标志的检测识别存在一定的难度。传统的检测算法在特征提取方面因受人工设定因素的影响,无法满足交通标志在多类别下检测识别的准确性与实时性的要求。基于深度学习的检测算法具有自动提取特征、计算量小等优势,受到研究者的青睐。本文
随着新型网络技术的高速发展和用户业务需求的多样化,信息网络的规模不断扩大,传统网络的诸多问题日益凸显,网络功能虚拟化(Network Function Virtualization,NFV)作为一种新型技术为解决这些问题提供了一条途径。NFV技术将网络功能与专有硬件解耦,并通过在通用硬件设备上部署虚拟网络功能(Virtualized Network Function,VNF)以完成用户请求服务,增
目前推荐系统的一大研究热点是基于用户交互序列挖掘其中隐含的用户兴趣,在取得显著效果的同时,个性化推荐场景中也存在着数据稀疏性和冷启动问题。本课题基于上述几个问题进行了深入研究,具体如下:本课题利用图嵌入(Graph Embedding)技术来解决数据稀疏性和用户商品冷启动问题。在常规的图嵌入算法基础上,通过引入商品辅助信息,利用随机游走算法对商品的各类属性进行建模并获取对应的Embedding向量
水库防洪调度是一个复杂多目标优化问题,具有决策变量维度高、不同决策维度之间具有链式相关性的特点,因此进化多目标优化算法在求解该类问题时会因为搜索空间过大、决策变量相关性强而导致收敛缓慢,求解效率低下,甚至无法跳出局部最优解而导致求解失败。另一方面,进化多目标优化算法需要输入洪水完整过程线才能进行求解,因此多目标优化算法往往被用作离线求解方案,在线调度目前主要利用调度规则进行决策,但调度效果不如人意
为了将人工智能应用于从世界收集的大量无标注数据,一大关键难题是要用弱监督或无监督的学习方法来学习有用的表征。传统医学影像学的图像分辨率往往不足以充分表示清晰的细胞信息,数字病理时代的全切片成像技术带来了多尺度、高精度的更清晰的数字可视化数据,使得病理图像具备更多微观细节信息。卷积神经网络强大的特征提取能力能够有效提取数字病理图像中的特征,然而病理医生的缺失以及病理图像的标注困难使得带有标签的样本不
随着通信技术的快速发展,天线在军用领域和民用领域发挥着越来越重要的作用,其设计要求也越来越高。天线测量作为分析天线的重要方法,是天线研究领域不可或缺的一步,天线的高性能依赖于精密的测量系统与先进的测量技术。随着天线测量技术的发展,天线测量的研究方向由远场测量转向近场测量,通过探头将近区场幅度相位信息收集起来,再采用近远场变换对近场测量的数据进行处理,从而得到天线辐射远场的特性。近年来,为了提升天线