【摘 要】
:
在大数据时代,各行各业每天都会产生海量的数据碎片。人们可以通过互联网获取想要的数据信息,但是人脑对信息的查询和存储能力有限,而知识图谱技术能够将复杂多样的信息进行结构化存储,简化人类对信息的检索过程。在知识图谱的构建过程中,共指消解技术可以替换掉文本中相对模糊的短语,从而帮助计算机更好地理解文本的内容,提升计算机对文本中信息抽取的效率。共指消解的目标是找出文本中指向现实世界中同一对象的短语。随着深
论文部分内容阅读
在大数据时代,各行各业每天都会产生海量的数据碎片。人们可以通过互联网获取想要的数据信息,但是人脑对信息的查询和存储能力有限,而知识图谱技术能够将复杂多样的信息进行结构化存储,简化人类对信息的检索过程。在知识图谱的构建过程中,共指消解技术可以替换掉文本中相对模糊的短语,从而帮助计算机更好地理解文本的内容,提升计算机对文本中信息抽取的效率。共指消解的目标是找出文本中指向现实世界中同一对象的短语。随着深度学习的快速发展,基于深度学习的共指消解模型是目前研究的主流方向,但是这些方法通常需要较长的训练时间和大量的计算资源,仍然存在可以优化的空间。本文结合知识图谱的特点的对中文共指消解模型进行了探索和优化。本文首先基于深度学习的共指消解方法,在Ontonotes Realease 5.0的中文语料上进行实验和分析,并根据实验结果从提升模型性能和模型准确度两个角度提出可优化的方向。结合自然语言处理相关知识以及算法原理,我们发现原模型在处理数据时,可以通过加入中文所特有的分词信息来加深对中文语义的理解,从而预筛选掉一部分不符合语法语义的短语,以达到节省计算资源、提高共指关系识别能力的目的。在选择分词模型时,本文通过实验对比了五种分词方案,结合分词算法的评价指标,以及共指消解模型对不同分词错误的容忍度,得到了合理的分词方式(Bert+Softmax模型),并将其应用到共指消解任务中。实验结果显示,加入分词信息以后的模型不仅节省了将近1/4的训练时间,各个评价指标也都有了1-2%的提升。随即我们还探索了不同的预训练模型对共指消解任务的适用性,Ro BERTa预训练模型使得共指消解模型的平均F1值又提升了将近1.5个百分点。本文最后将实验中得到的最优模型应用到了通过爬虫获取的金融新闻文本中,统计并分析金融领域所关注的指称的消解效果。测试结果表明,我们的模型在爬虫文本上具备一定的共指消解能力,能较准确地识别名词短语之间的共指关系。
其他文献
随着中国证券行业的发展,上证指数得到了投资者的重视。投资者为如何在上证指数的投资中获得稳健超额收益进行了诸多探索,其中,技术分析或是较适合广大投资者的分析方法。技术指标在中国证券市场上有较丰富的实践经验,但缺少相应的理论指导。因此,对技术指标是否具有预测上证指数走势的能力和如何基于技术指标构建投资策略进行研究在理论和实践上均具有意义。首先选取了三个技术指标规则,分别是移动平均规则、动量规则和平衡成
听障儿童由于听觉信息输入的缺乏,可能导致其言语系统、认知系统的发育异常,使其构音能力受到影响,出现构音音系障碍。当前国内对构音音系概念的完整认知较为欠缺,多集中于构音障碍,而对听障儿童音系障碍的认识不足,导致对听障儿童的干预多侧重于构音治疗,而缺少音系治疗。基于此,本研究将从构音音位习得及音系历程两个维度出发,探究听障儿童构音音系特征,并将训练说话动作为基础的构音治疗法与以建立语音认知为重点的音系
近几年国内融资租赁行业发展由市场规模扩张转向对市场融资功能的深度挖掘,其中租赁公司对于企业的信用风险问题愈发重视,但是在如何构建风险定价模型的技术环节上缺少大规模的具体实践映证。对此,本文契合现在业界总体对风险控制要求提高的行业趋势,结合我国LPR利率市场化改革背景,以贷款市场报价利率为基础,通过将市场化利率预测模型和信用风险计量模型进行风险结构化整合,得到适合我国风险市场化实际实务需要的租赁定价
随着移动端互联网的日新月异,大量互联网企业随之涌出。这些企业为扩大自身产品影响力、抢夺优质用户、抢占目标流量,每年都会在APP产品内花费大量营销资金。而这些巨额营销资金也正被不法人员觑觎:这些产业化规模化的黑产通过虚假账号、批量注册等不法手段违规获取营销资金,给企业、用户和社会带来了无法估计的损失。对于互联网企业而言,防范黑产风险已然迫在眉睫。众多公司内部设立风控部门,通过各种算法和规则与黑产进行
近年来,我国制造业进入产业转型升级的关键时期,各大企业对于人才的争夺愈发激烈,而股权激励这个在上世纪引进我国的全新概念,也逐渐被搬上了公司管理的主舞台。股权激励不同于其他传统的奖励模式,它在国内属于激励中的新生儿,可以将股东与企业高管捆绑在一起,以此来预防诸如经理等高级员工为了自身利益而损害公司的长远利益,使企业能保持长期稳定的发展。我国的股权激励历史具体可以追溯到20世纪90年代,当时我国正处于
股票预测旨在预测股票的未来趋势,以帮助投资者做出良好的投资决策,利用统计模型预测股票已经成为股票市场的热点研究内容。股票价格波动不仅与自身状态相关,还与其他股票的状态变化存在密切联系,以往的股票预测研究中主要通过股票的行业关系或供应链关系学习股票间的相互影响,没有考虑股票价格波动呈现的相关性。本文通过股票收益率波动刻画股票价格波动,基于已有的通过图注意力网络联合股票行业关系学习股票间相互影响的股票
在金融市场中,波动或波动性(fluctuation)是指金融资产在某段时间的变化,统计上一般以特定时间内标的资产价格涨落的标准差来衡量。波动率(volatility),作为金融市场中特有的名词,是指金融资产(包括股票、债券和利率等)价格波动的强弱程度。实际上波动率是不可观测的,只能基于标的资产的损益的标准差来估计资产在某个阶段的波动率。波动率的建模并解决风险管理和衍生品的定价始终是金融市场的热点及
多因子选股是目前量化投资领域中最具代表性的策略模型,在国内外投资领域被广泛使用。多因子选股的核心是挖掘因子,任何与股票收益高度相关并且能够为预测股票收益带来帮助的量化指标都可以被称作因子。传统的因子挖掘大多集中在对于基本面数据的研究,此类因子通常有明确的经济含义,且预测周期较长,不过收益空间有限。近几年,以股票的价格、成交量、换手率等交易数据进行组合构建的短周期技术面因子开始受到量化研究者的关注。
近几年,城市交通结构发生显著变化,私家车出行越来越普遍,导致在上下班高峰期交通发生严重堵塞,给居民出行带来严重不变。此外,大量的私家车出行会导致严重的空气污染,石油短缺,呼吸道疾病等,降低居民的生活水平。从2011年开始,我国正式启动公交都市建设计划,建立公交专用道,提高公交车运营效率,以便达到减少私家车出行的目的。但是,由于驾驶员法律意识和社会公德意识不强,造成公交专用道被占用,使得公交车出行带
随着电商平台的涌现,电商触达的业务领域已经涵盖了大众消费的多个方面,也给消费者带来诸多便利。在阿里巴巴、京东等头部电商迅猛发展态势之下,消费者对电商模式接受度也越来越高,电商交易量呈现线性增涨。电商业务已经逐渐渗透了“衣、食、住、行”这几个关乎民生的重要板块。但在“住”的领域还并没有巨头清晰的影子。当下,1990年至1995年出生的年轻一族,面临着购房装修的需求,成为了家装市场上的消费主力,他们是