结合标签分类和语义查询扩展的文本素材推荐方法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:zonsun168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在各类规划、调研报告的编制过程中,编制人员往往需要根据拟定的目录或标题去收集阅读大量文本素材、进行分类整理再甄选使用,不仅工作量大而且质量无法得到保障。随着大数据时代的到来,参考材料愈发多源多类,如何帮助文档编制人员从繁重的文本素材收集、整理、分类的工作中解脱出来已经成为了一大挑战。为了减少文档编制人员的工作量,提高文档编制的效率,文本素材推荐方法应运而生,利用信息检索等技术,根据拟定好的目录结构,从海量的编制材料中自动、精确地检索和推荐出适用的文本素材。然而,在数字政府规划文档编制领域当中使用现有的文本素材推荐方法存在推荐效果不佳等挑战。为此,本文从信息检索的角度出发,在数字政府规划文档编制领域,开展结合标签分类和语义查询扩展的文本素材推荐方法研究,提出了一种多因素加权融合的文本素材推荐方法。该方法通过差分进化算法融合基于目录标题-文本素材标题相似度比较的文本素材推荐方法、基于目录标题-文本素材内容相似度比较的文本素材推荐方法,以及基于标签分类的文本素材推荐方法,通过线性加权的方式组合从目录标题到文本素材之间的目录标题-文本素材标题相似度、目录标题-文本素材内容相似度,目录标题标签-文本素材标签匹配度,能够充分利用文本相似度、语义扩展下的文本相似度、标签分类等信息。通过在10个数据集上的实验验证,实验结果表明该方法性能提升显著,能够大大降低人工素材选择的工作量,同时减轻素材分类的工作量,降低文档编制的难度。论文的主要工作如下:(1)针对文本素材推荐时,文本素材在原始参考文献中的标题信息经常被忽略的问题,提出了一种基于目录标题-文本素材标题相似度比较的文本素材推荐方法。该方法利用在数字政府领域语料库训练得到的词向量模型,对目录标题和文本素材标题进行词向量平均表征,然后使用余弦相似度计算目录标题-文本素材标题的相似度,最后通过相似度倒序排序推荐Top N的文本素材。实验结果表明,该方法优于编辑距离、VSM模型等基线方法,且融合该方法的文本素材推荐方法效果更好。(2)针对文本素材推荐时,以目录标题(短文本)检索文本素材内容(长文本)存在的短-长文本匹配效果不佳的问题,提出了一种基于目录标题-文本素材内容相似度比较的文本素材推荐方法。该方法同样利用在数字政府领域语料库训练得到的词向量模型,从文本素材标题-内容知识库中对目录标题从向量表征层面进行语义查询扩展,拼接得到扩展后的目录标题词向量平均表征,然后使用余弦相似度计算目录标题-文本素材内容的相似度,最后通过相似度倒序排序推荐Top N的文本素材。实验结果表明,该方法与基线方法相比,文本素材推荐方法效果更好。(3)针对文本素材推荐时,从文本素材划分到目录标题下的分类信息缺乏考虑的问题,提出了一种基于标签分类的文本素材推荐方法。该方法基于文本素材标签分类训练集,使用线性支持向量机训练得到的模型对文本素材进行标签预测和预测概率归一化,计算目录标题标签-文本素材标签匹配度,通过标签匹配度倒序排序推荐Top N的文本素材。实验结果表明,融合该方法的文本素材推荐方法效果更好。(4)为了充分利用文本标题、素材内容和标签分类等信息更好的进行素材推荐,提出了一种多因素加权融合的文本素材推荐方法。该方法利用差分进化算法学习前三种方法得到的三种相似度(目录标题-文本素材标题相似度、目录标题-文本素材内容相似度、目录标题标签-文本素材标签匹配度)的最优线性组合的参数,得到线性加权融合后的待推荐目录标题-文本素材的相似度。实验表明,本方法在Top N Rank、MRR、MAP、P@N,R@N,F1@N等评价指标上均优于上述提出的三种文本素材推荐方法,也优于以往的文本素材推荐方法。
其他文献
党的十九大报告中提出“推动社会治理重心向基层下移”,党的十九届四种全会提出“建设人人有责、人人尽责、人人享有的社会治理共同体”,“十四五”规划和2035年远景目标纲要提出“构建基层社会治理新格局”。可以看出,相关社区治理的最新要求为我国社区发展注入了更强动力,在实现社区服务到社区建设到社区管理的发展阶段后,社区逐渐向以社区治理体系和治理能力现代化为目标的社区治理方向发展。在转变和发展过程中,它将侧
当我们谈及装置艺术时,对装置艺术的研究主要集中在空间、材料以及叙事等内容上。在20世纪,思想发生了重要的变革。以现象学为例,我们发现时间和空间不再是一种抽象,纯粹不变的形式,而是总发生着某些关联。本文以梅洛-庞蒂的《知觉现象学》中的空间观念来从新审视装置艺术中的“场域”,探讨装置艺术中身体的存在和所扮演的角色,以及身体如何给我们以一种新的视角去理解装置艺术的存在。第一章将主要讨论装置中的空间的基本
【目的】掌握我国农民专业合作社的研究现状、研究脉络及研究热点,以期为农民专业合作社领域的研究者提供参考。【方法】采用文献计量法,以CNKI数据库中的核心期刊论文和CSSCI期刊的论文为主要数据源,统计分析2000年1月—2022年7月农民专业合作社领域文献的发文量、作者、发文机构和关键词,并用CiteSpace 6.1.R2软件对文献的作者合著、合作单位、关键词和突现词进行可视化分析。【结果】我国
西藏畜禽养殖业发展速度较快,近年来养殖规模持续扩大,在畜禽养殖过程中所使用的饲料总量有所增加。牧草是饲料的重要来源,要想能够进一步提高牧草产量需要优化牧草种植技术,对其进行合理加工,确保能够满足畜禽养殖对于饲料的需求。
本文制备了聚多巴胺修饰的注射用丹曲林钠纳米粒(DS-DA)冻干制剂和注射用丹曲林钠混悬剂冻干制剂(DS),并制备了 β-环糊精包合的丹曲林钠注射液(DS-β-CD)。主要考察了 DS-DA纳米粒冻干制剂制备过程中多巴胺浓度、反应pH、反应时间、冻干保护剂的种类和浓度对冻干制剂的粒径及电位的影响,筛选得到当多巴胺浓度为0.8mg/mL、溶液pH为8.5、反应时间为24小时、冻干保护剂选择4%(g/m
目的:探讨分析幽门螺旋杆菌相关性胃溃疡的药物治疗方案及疗效。方法:研究时间为2018年11月—2020年11月,研究对象为确诊的82名幽门螺旋杆菌相关性胃溃疡患者,分为常规、研究两组,每组41例患者,接受不同的疾病治疗方案,观察比较两组患者的治疗效果、幽门螺旋杆菌根除率和疾病复发率、不良反应发生率与炎性因子改善情况。结果:研究组患者的治疗有效率较高,P<0.05;患者疾病复发率相比较无明显差异。两
双馈异步风电机组可以提供无功功率参与电网无功调节,但是其无功功率范围具有不确定性,导致在制定风电场无功电压控制策略时存在困难。对此提出双馈风电场无功支撑范围评估方法,并基于评估结果优化风电场参与电网调压的无功控制策略。首先,基于双馈风电机组有功功率数据,估算出机组的无功功率极限,并分析了风电场的无功容量构成及计算方法。然后,通过两阶段评估方法评估风电场容量。第一阶段获得风电场最大无功支撑范围,第二
“三农”发展事关国民经济发展,而解决“三农”问题关键在于解决农村土地问题。21世纪以来,国家层面制定了多部关于促进农村土地流转的政策法规,但土地流转形势并不乐观。究其原因,土地对于中国农民来说,不仅仅是一项固定资产,而是承载着重要的社会保障功能。工业化、城镇化使得大多数农村青壮年劳动力选择外出务工,“六一三八九九”部队占据农村人口的大部分,中老年农民成为农业生产的主力军,对于这部分群体来说,其更重
<正>摘要 目前缺乏对新型冠状病毒肺炎(COVID-19)疫苗相关性心肌炎病人心肌损伤模式和严重程度的研究。目的探讨接种 COVID-19 疫苗后心肌炎心肌损伤的 MRI 影像特
期刊