基于行列式点过程的多语言多文档摘要研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:ycboyyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化的发展在极大地提高了使用者工作效率的同时,也使得网络中的信息规模大幅度增加,不同语言、不同风格的信息在网络中大量存在。因此,将不同语言同一主题下的文档集压缩为对应语言、既包含主要信息又短小精悍的摘要异常重要,多语言多文档摘要提供了一个有效的解决方法。本文将此作为主要研究对象,旨在利用有限的语料,采用无监督的方法生成语言无关且内容准确、丰富、可读性好的摘要。本文提出了多语言多文档摘要中的语言差异、小样本、冗余度、多样性四个问题。以此为目标,定义了主题多样性和句法多样性,并将同时具有这两种性质的摘要称为多样性摘要。本文中针对不同类别的语言制定了不同的语言差异弱化方案,并将文档表示为最小语义单元序列集。在此基础上,将层次潜在狄利克雷分配和行列式点过程作为主要研究对象。基于前者,深入挖掘文档的潜在主题信息,提出了多语言环境下的层次主题特征,并针对不同领域的语料提出了多特征融合方案,以此来建模句子质量以及相似性。本文将两种方法进行融合,提出了结合句子长度的L-DPPs抽样算法、面向摘要的Sun-DPPs抽样算法和句子二次过滤算法以及最小语义单元为基本单位的Topic-DPPs算法来增强文档摘要的多样性。最终,我们提出了可扩展的无监督语言无关多语言多文档摘要框架——UIDS,并在MMS-2015、BIRNDL-17、MSS-2017相关的摘要评测语料上进行实验,验证了本文中所提出方法的有效性。
其他文献
<正>以住建部唯一授权挂牌的"国家标准康养示范区"——太阳谷项目为例,通过具体的养老细节设计以及引入的国际养老机构服务来阐释"居家养老、医养结合"的康养理念。当你老了,
本文对酒精所致精神障碍患者社会支持、应对方式与生活质量方面近十年期间的相关文献进行阅读、分析和汇总,分析得出此类患者获得的社会支持要大大低于健康人群,其对社会支持
<正>随着习近平新时代中国特色社会主义思想写入宪法,中国特色社会主义进入了新时代。宪法修改落地和以审判为中心诉讼制度确立,给法医鉴定管理体制带来了挑战。囿于体制和传
会议
在公路工程施工与养护过程中,摊铺机已成为保证工程质量与工期,降低工程造价,节约工程施工成本的主要手段和主要装备.为了保证路面的铺层厚度,防止摊铺材料的浪费或不合理使
<正>我们在审查对一起非法行医案件时,发现鉴定机构对法律研读不细,证据意识不清,适用标准错误。1.案件事实2016年3月,刘某未取得医疗机构执业许可证,向闫某额头部注射"美容
会议
工程成本控制是长期动态的过程,工程成本涵盖了从项目可研至项目竣工结算等各个阶段。招标阶段属于前期建筑工程成本控制的一个重要阶段。
目的探讨高血压脑出血的CT表现。方法采用螺旋CT扫描,分析了77例高血压脑出血患者的发病年龄、出血部位和出血量。结果 77例患者的发病年龄段以50~69岁最多,共42例,占54.55%;7
《刑法修正案(九)》规定的刑事禁止令不属于刑罚制度,而是限制公民自由的措施。根据刑事职业禁止令的特点,我国的刑事职业禁止令应当属于保安处分。刑事职业禁止令适用条件缺
采用ALC板(蒸压加气混凝土板)作为屋面板时,可直接在屋面钢梁上拼装,但对其防水构造及细部节点施工要求很高。结合深圳市前海展示厅扩建工程的应用实际,制订了一套ALC屋面板
死体营养型寄生物核盘菌(Sclerotinia sclerotiorum(Lib.)de Bary)是重要植物病原菌,该菌寄主广泛,可以侵染包括多种重要作物在内的四百多种植物,并造成严重的病害。核盘菌寄