论文部分内容阅读
针对空间向量模型孤立地看待每个词表示文本缺少结构化信息的问题,文章提出基于图结构的融合主题模型LDA和深度学习降噪自动编码机文本表示的方法。该方法在保有词袋模型信息的基础上,引入词与词之间顺序的信息,构造一个统一维度的二维矩阵,利用LDA主题与词的概率关系,索引原始矩阵中的主要信息,训练降噪自动编码机模型,获得最终的文本表示。基于公开数据源20Newsgroup的20个类别的新闻组,采用分类的方法验证文本表示的结果。结果表明,文中方法在1-NN和SVM分类方法上, F-值均高于其他对比的文本表示方法