【摘 要】
:
随着文本信息的迅猛增长,数据挖掘已成为知识发现的重要方法。短文本相似性(short text similarity,STSim)度量是数据挖掘研究的重要技术。为了更好的提高短文本相似性度量精
【基金项目】
:
山西省优秀青年基金项目“加权共现潜在语义向量空间模型及其在文本主题聚类应用中的惩罚性矩阵分解研究”(201801D211002),山西省高等学校优秀成果培育项目“共现潜在语义向量空间模型及其在文本主题聚类与推荐应用中的研究”(2019KJ004),国家自然科学基金项目“共现潜在语义向量空间模型及其语义核的构建与应用研究”(71503151)
论文部分内容阅读
随着文本信息的迅猛增长,数据挖掘已成为知识发现的重要方法。短文本相似性(short text similarity,STSim)度量是数据挖掘研究的重要技术。为了更好的提高短文本相似性度量精度,本文提出了基于加权网络改进的中文短文本相似性度量的一种新模型。首先,基于词语间的共现频次对语义网络进行加权,利用加权复杂网络表征短文本;其次,考虑短文本加权复杂网络权重识别度低的特点及每个词语节点的位置,计算短文本中每个词语的加权复杂网络综合特征值;最后,根据新模型计算短文本相似性,并通过聚类实验评价其优劣。实验结
其他文献
在新医改背景之下,公立医院的内部管理制度必须进行改进与完善,通过对内部管理制度的强化,医院可以充分发挥出内源动力,促使医院更好的为民众提供医疗服务。因此公立医院必须
时代的不断发展以及社会的不断进步,加快了计算机时代的到来。在计算机时代的背景之下,一种新型的产业出生了,即互联网行业。互联网行业自诞生以来,吸收了大批商业性人才,带
相对其他水产技术推广人员,湛江市水产技术推广中心站(以下简称“湛江推广中心站”)水生动物防疫检疫实验室(以下简称“实验室”)主任徐会平的工作稍显得有那么一点寂寞。“