基于时间翘曲距离的短文本语义相似度研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:psiteddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动智能终端设备,社交网络的普及与发展,新闻摘要、微博博文、商品评论等短文本数据大量涌出,如何从海量的短文本数据中挖掘出具有商业价值的信息成为众多中文自然语言处理研究学者关注的课题。文本相似度作为机器翻译、情感分析、信息检索等人工智能商业应用的核心工作,发挥着巨大作用。本文围绕中文短文本,对如何精确挖掘歧义词汇语义特征信息,并与文本整体语序结构有效结合,进行相似度计算开展了研究,主要工作如下:⑴针对传统基于字符统计的方法只能对文本字词进行浅层统计,基于语义词典和句法依存分析的方法存在特征表达主观性较强,知识库局限的问题,提出一种Word2vec结合改进DTW算法与匈牙利算法的语义相似度计算方法。通过Word2vec对大规模文本语料进行训练,获取客观表达字词特征信息的词向量,将词向量转换成空间中的点,短文本词向量序列转换成空间中的点序列,通过加权公共子序列长度优化的DTW算法与匈牙利算法计算点序列连成的曲线之间的对齐距离,依照对齐距离越小相似程度越高的原则来计算短文本之间的相似度。⑵针对静态词向量无法有效结合当前上下文语境,区分歧义词汇特征信息表达的问题,提出一种BERT结合时间翘曲距离的语义相似度计算方法。通过BERT模型特殊的掩码训练机制与自注意力语义增强机制对短文本从整体层面进行语义特征提取,将提取到的短文本特征向量转换成空间中的点序列,通过CTW算法计算点序列连成的曲线之间的时间翘曲距离,依照时间翘曲距离越小相似程度越高的原则来计算短文本之间的相似度。实验结果表明,本文所提出的Word2vec结合改进DTW算法与匈牙利算法的相似度计算方法能够根据语序的凌乱程度,对语义相近的短文本进行良好的相似度等级划分,对一般场景下的短文本,能够进行合理有效的相似度计算。本文所提出的BERT结合时间翘曲距离的相似度计算方法能够较好地挖掘歧义词汇特征信息,对短文本之间的相似度进行有效的计算,相较其他方法,对词汇歧义的短文本有更为精准的区分。
其他文献
在音乐的世界里,流传着这样一句话:音乐的根本是科学,音乐的思想是哲学,音乐的表达是艺术,音乐的作用是教育。正如著名的俄罗斯作曲家、音乐教育家柴可夫斯基所言:“音乐是上
<正>One after another round of discussion upon&#39;How enterprises should face the financial crisis&#39;was carried on fiercely among enterprises deputies durin
目的:通过对比替格瑞洛与氯吡格雷在冠状动脉粥样硬化性心脏病(Coronary Atherosclerotic Heart Disease,CHD)合并Hhcy的经皮冠状动脉介入治疗(Percutaneous Coronary Interv
历代医家对"七损八益"的认识各不相同,而"以道驭器"为古代知识分子认知世界的指导思想,在这一思想的影响下,内经中的"七损八益"不应只是房中术语,各医家注中凡能体现"调和阴
随着我国经济的迅速发展和城市化进程的不断推进,人们对于用电的需求量也越来越大,国家电网的规模越来越大。但是在电网运行中影响安全的因素却日益增多,电网运行的机理日益复杂
【摘要】共青团作为中国共产党执政兴国的重要政治力量,对推动国有企业改革转型发展发挥重要作用。就国有企业管理而言,共青团具有极其特殊和重要的地位。基于此,本文主要针对新
报纸
<正>病理性瘢痕包括增生性瘢痕和瘢痕疙瘩[1],目前认为它们是源于修复与再生失调异常的创伤愈合过程[2-3],其确切的发病机制并不清楚[4],除了引起器官的畸形或功能障碍外,主
为借鉴定向生长碳纳米管的方法来实现碳洋葱尺寸可控的周期性阵列生长,基于碳纳米管和碳洋葱会相伴相随产生,文章对化学气相沉积法制备碳纳米管和碳洋葱所用催化剂进行了综述
采用卡尔费休方法,在787 k F卡氏水分测定仪上测定原油的含水率。研究了不同滴定溶剂对原油含水率测定结果的影响。结果表明,在本实验条件下,最佳滴定溶剂为溶剂B∶氯仿∶二