基于截断核范数矩阵填充的远监督关系抽取

来源 :吉林大学 | 被引量 : 0次 | 上传用户：luck88

【摘要】

：

在当今互联网高速发展的时代,如何快速、准确地理解网络上的海量异构数据,是研究者们关注的热点问题之一。关系抽取被定义为信息抽取的一个重要子任务,是从非结构化的自然语

【作者】

：

王烨

【出处】

：

吉林大学

【发表日期】

：

2004年期

【关键词】

：

远监督学习关系抽取低秩矩阵填充截断核范数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在当今互联网高速发展的时代,如何快速、准确地理解网络上的海量异构数据,是研究者们关注的热点问题之一。关系抽取被定义为信息抽取的一个重要子任务,是从非结构化的自然语言文本中提取结构化信息必不可少的过程。根据训练数据的来源,可以将关系抽取分为以下几类:全监督关系抽取、无监督关系抽取、弱监督和半监督关系抽取。然而面对海量异构数据的挑战,这些方法都存在一定的局限性。近年来研究者们提出的远监督关系抽取是一种适合大数据下关系抽取任务的方法。它通过对齐知识库中的关系实例和文本集中的语句,为分类器提供大规模的训练数据。远监督关系抽取基于以下假设条件:如果文本集中某条语句中包含了知识库中某个实体对,那么就认为这条语句潜在的表达了该实体对在知识库中对应的关系标签。显然,该假设条件过于理想化,导致远监督关系抽取存在噪声数据的问题。例如某个句子虽包含知识库中某个关系对应的实体对,但该句子并未表达这个关系。本文使用低秩矩阵填充技术进行远监督关系抽取,并进一步将最小化矩阵核范数的问题转化为最小化截断核范数的问题,提出了使用基于截断核范数的矩阵填充技术进行远监督关系抽取的方法。将远监督关系抽取问题转化为矩阵填充问题,在填充矩阵的同时恢复潜在的低秩矩阵,降低噪声数据的影响。矩阵核范数的大小等于矩阵奇异值的和,然而对最小化矩阵的秩有直接关系的是奇异值的个数,奇异值的个数等于矩阵的秩。矩阵经奇异值分解操作得到的奇异值序列从大到小排列,呈快速衰减的趋势。核范数的大小与矩阵的秩无法完全等价,在最小化矩阵的秩的操作中,核范数的减小不一定代表矩阵的秩减小,因此远监督关系抽取的准确率将受到影响。截断核范数是指从核范数中去掉最大的那部分奇异值后的剩余部分,最小化截断核范数是指对截断后剩余奇异值的和进行最小化求解。基于截断核范数的矩阵填充方法具有低秩矩阵填充方法进行远监督关系抽取准确率高、容噪性好的特点,同时基于截断核范数的矩阵填充方法比基于核范数的矩阵填充方法能够更好的保留矩阵的有效成分,并且截断核范数对于矩阵的秩函数有更好的逼近效果。本文通过寻找奇异值的最后显著跳跃点来选择恰当的截断位置,并且利用TNNR-ADMM和TNNR-APGL两种算法求解最小化截断核范数的凸优化子问题。对比实验表明:本文方法的抽取效果优于之前提出的使用基于核范数的方法,本文使用NYT’13数据进行远监督关系抽取,准确率与基于核范数的方法相比有所提高。

其他文献

HPLC-DAD测定大茶树和小茶树的西湖龙井茶中EGCG的含量

[目的]采用HPLC-DAD对西湖龙井茶中的表没食子儿茶素没食子酸酯（EGCG）的含量变化进行分析.[方法]采用AgilentC18色谱柱（4.6 mm×150 mm,5μm）,流动相：甲醇：水（2％乙酸）15∶85;流速：1

期刊

HPLC-DAD西湖龙井茶表没食子儿茶素没食子酸酯含量

中国大学生数码媒体艺术大赛2004

2004年12月18日．中国大学生数码媒体艺术大赛2004(Digital Media Art Competition．简称DMAC 2004)“获奖作品颁奖仪式在北京电影学院举行．来自全国的100名入围作者及辅导老师共

期刊

图形处理图像处理电脑“中国大学生数码媒体艺术大赛2004”

甲基强的松龙治疗急性播散性脑脊髓炎临床观察

目的探讨甲基强的松龙对急性播散性脑脊髓炎（acutedisseminatedeneephalomyelitisADEM）的临床疗效及其免疫功能影响。方法90例ADEM患儿随机分为实验组和对照组，每组均为45例，实验

期刊

急性播散性脑脊髓炎甲基强的松龙地塞米松疗效免疫Acute disseminated encephalomyelitis Methylprednisol

如何调整键控

键控是After Effects的基础技巧，J J Johnstone讲述避免缺陷的窍门。

期刊

键控EFFECTS调整AFTER

请你评议（七）

论文实例摘录某作者为了观察维生素K1及硫酸镁佐治毛细支气管炎的效果,于2008年1月至2011年3月将住院治疗的222例毛细支气管炎患儿随机分为两组。对照组66例,治疗组156例,两

期刊

毛细支气管炎维生素K1住院治疗临床症状雾化吸入治疗组硫酸镁患儿

对网络管理中的流量监测方法探讨

随着现代网络技术的飞速发展，通过对网络流量的监测，及时发现企业局域网内流量异常的主机，或者根据系统设置的阈值提前预警，从而更好的保护正常业务对网络带宽的需求，是网络技术发

期刊

网络管理网络流量监测Network managementNetwork flowMonitoring

地佐辛与芬太尼在神经外科麻醉恢复期的效果比较

目的观察地佐辛、芬太尼在神经外科手术中的镇痛、镇静效果和不良反应.方法将80例择期行神经外科手术的全麻患者随机分为地佐辛组和芬太尼组各40例.手术结束前15 min,两组

期刊

神经外科地佐辛芬太尼Neurosurgery Dezocine Fentanyl

向家坝水电站首座冷水厂整体搬迁有序进行

3月21日下午，向家坝水电站左岸一期工程384m高程冷水厂完成内部设备约束解除工作，全面进入设备拆除实施阶段。完成拆除后的冷水厂设备将整体搬迁至向家坝右岸二期工程消力池245

期刊

向家坝水电站整体搬迁水厂有序首座内部设备设备拆除二期工程

尿端粒酶生存素和CK19联合检测在膀胱癌早期诊断中的应用

目的评价尿端粒酶、生存素（Survivin）和细胞角蛋白19（CK19）测定在膀胱癌早期诊断中的应用价值，寻找早期诊断膀胱癌的有效方法。方法选择80例经病理诊断明确为早期膀胱移行细胞癌和

期刊

膀胱癌尿端粒酶生存素细胞角蛋白19脱落细胞学BTCC Urinary telomerase CK19 Survivin

混浊介质后向散射特性的Mueller矩阵表征和实验测量

Mueller矩阵是公认的能很好地表述介质偏振特性的一种方法，由于散射光偏振在生物组织无创伤诊断技术等诸多领域中的重要应用价值，对组织散射特性的Mueller矩阵的研究成为国际上

学位

光散射后向散射偏振光混浊介质Stokes矢量Monte Carlo模拟Mueller矩阵

基于截断核范数矩阵填充的远监督关系抽取

其他学术论文