共词网络LDA模型的中文短文本主题分析

来源 :情报学报 | 被引量 : 0次 | 上传用户:orientaladam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想。结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis)。在传统LDA模型的基础上加入共词网络分析,考虑词汇在不同文档间的共现情况,构建词汇社交网络;利用词汇社交网络隐含空间降维的方法,以自同构等价规则,合并在网络中结构特征相同的词汇,在不损失信息的前提下,降低了词汇矩阵稀疏性;考虑词汇搭配关系(网络节点的邻接),以共词网络特征向量中心度调节主题模型中的词汇权重,通过递归累加,提高与重要词汇搭配的词汇的重要性;在传统LDA主题模型吉布斯采样(Gibbs Sampling)过程中,同时增加隐含位置聚类模型的社区发现算法,提高了具有相同搭配关系词汇划分在同一主题下的概率。实验证明该模型在短文本分析中有较好的效果。
其他文献
期刊
针对h指数缺乏中短期评价问题,本文从期刊评价的时间窗口进行了深入分析,认为根本原因是期刊论文被引峰值滞后期导致的流量指标与存量指标同时存在问题。在此基础上,提出了两个
专利的寿命长短在根本上取决于专利价值的高低,因此本文使用专利寿命这一易于计量的指标来表征专利价值这一难于计量的指标。文献计量学通常认为文献价值与被引频次正相关,但本
用电成本是企业主要的能源成本之一,通过分析浙江省降低销售电价、开展电力直接交易试点、降低上网电价等政策的效果和存在的问题,提出取消供电领域基本电费等不合理规费、健
第19届中国全电展、第8届上海国际分布式能源、燃气发电设备展览于4月21日-22日在上海新国际博览中心举行。期间,由上海市节能协会、中国内燃机工业协会联合举办的“2019分布