基于自编码器的短文本聚类算法优化研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:soochow_deer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用系统的广泛使用,微信、微博和百度等平台产生了海量的短文本数据,如何对这些数据进行有效的管理和运用成为自然语言处理领域的研究重点。文本聚类作为一种无监督学习技术,既不需要对数据标签进行手工标记,也不需要提前训练数据处理模型,具有较强的数据加工能力和领域适应性,被广泛应用于舆情监管、兴趣挖掘、文档整合等领域。短文本数据具有特征稀疏性、语法不规范性等特点导致传统的文本聚类方法在短文本聚类中往往无法获得有效的聚类结果,直接影响了短文本聚类的准确性。近年来,伴随着深度学习技术的发展,研究人员尝试构建深度神经网络模型以解决短文本聚类中特征稀疏、语义缺失而导致聚类准确率较低的问题。自编码器作为一种典型深度神经网络模型,网络结构优势在于可生成有效数据处理特征,因此本文研究了基于自编码器网络模型的短文本聚类算法,主要工作如下:(1)构建了基于自编码器的短文本聚类特征学习模型。模型将含有上下文语义信息的BERT词向量输入到自编码器进行参数初始化和簇中心选取,在编码器中结合t-SNE提出了一种新的软分配迭代优化算法并将KL散度最小化到辅助目标分布,以同时优化聚类分配和特征表示。在该过程收敛后,对短文本进行编码并使用K-means进行最终聚类。辅助目标分布提高了模型的强化预测和分配置信度。(2)提出了基于相异混合自编码器的短文本聚类算法。利用将编码器生成特征向量映射高斯混合模型的空间分布,通过极大似然估计思想获取分布参数构造相异混合模型,该模型与自编码器组成相异混合自编码器。相异混合模型的相似性度量和自编码器中真实数据与重构数据的损失共同组成相异混合自编码器的损失函数并进行迭代优化,最后与传统聚类算法结合进行聚类。实验中,模型使用不同的相似性度量函数从中选取最优的聚类效果。(3)设计并实现了短文本聚类实验平台。该平台引入基于自编码器的短文本聚类特征学习模型,运用MVC框架进行分层设计,通过输入模块,将短文本数据集上传到平台对文本数据添加、编辑和删除;使用文本表示模块,对文本清洗、去停用词、文本过滤和向量化表示的过程进行并行化设计与实现;在短文本聚类模块,设计基于自编码器的短文本聚类算法对向量化数据进行聚类分析;运用结果处理模块查询下载短文本聚类的结果,最后实现了短文本聚类平台。为了验证文本所构建短文本聚类模型的有效性,从百度问答、今日头条、新浪新闻中爬取三个中文短文本数据集,通过与TF-IDF和SIF表示的K-means聚类以及STC2模型进行实验对比,本文两种模型的标准化互信息和准确度指标具有一定的改善。
其他文献
本文使用TRU树木雷达的无损检测技术调查了陕西关中地区不同胸径古国槐的空腐现状和根系分布,旨在了解古槐的空腐规律、根系分布特征及其健康情况,为古槐的保护管理、复壮加固和安全隐患排查提供有力的理论依据。论文根据胸径共选取不同径级的古槐样树40棵,通过树木雷达扫描结果,分析了古槐的空腐现状;研究了古槐空腐与胸径、树干高度的关系以及古槐树干的空腐规律;分析了古槐根系的分布特征,以及胸径、树高、冠幅、空腐
退耕还林(草)工程是黄土高原生态系统修复重建的重要措施,具有改善土壤理化性质的功能,特别是养分可利用性的增加。氮(N)和磷(P)的可利用性不仅调节着整个陆地生物圈的植被生产力,并可通过影响植物—土壤—微生物改变生态系统的能量流动和养分循环。植物重吸收过程和土壤矿化作用为生物地球化学模型中的关键过程,对于植被的恢复和维持生态系统的稳定具有至关重要作用。基于此,本研究通过空间代替时间的方法,选择农田、
氮素是影响森林植被生长发育的重要营养元素之一,目前全球氮沉降呈上升的趋势,氮沉降在增加土壤速效氮的同时也会促进氮在植物体内的累积,最终影响森林植被的生长发育。森林更新一直以来是一个非常重要的生态学过程,影响森林自然更新的其中一个重要因素是凋落物,它对建群种幼苗生长的影响也是国际上针对森林凋落物生态功能研究的热门话题。以往关于凋落物和氮沉降的单独研究有很多,但是,在全球氮沉降大背景下,氮添加与凋落物
在全球气候变化背景下,我国黄土高原降水格局呈现出季节波动增强和极端降水事件增加趋势。降水格局变化势必会引起草地群落特征和物候期发生重要改变。目前,关于降水变化对水分限制的黄土丘陵区草地群落特征和物候期的定位观测试验研究仍然较少。基于此,本研究采用遮雨棚法模拟不同降水变化,共设置7个处理:(DP60:-60%,DP40:-40%,DP20:-20%,CK:0%,IP20:+20%,IP40:+40%
植酸盐作为一种饲料中的抗营养因子可以抑制肉仔鸡对蛋白质、矿物元素、葡萄糖、氨基酸等的吸收,从而影响肉仔鸡的生长发育。植酸酶作为一种重要的饲料添加剂,可以有效的降解家禽饲料中存在的植酸盐并起到释放出无机磷的作用,提高磷在肉仔鸡体内的吸收率,帮助肉仔鸡正常的生长和发育。但植酸酶本身作为一种蛋白极易受到外界环境中不利因素的干扰而丧失活性,限制了植酸酶的使用范围和条件。使用无毒、廉价、生物降解性好和生物相
聚类算法是数据分析中的一项重要技术,它在各个研究领域中都有着广泛的应用。简单的来说,聚类算法就是对数据自身的属性进行分析,然后根据属性之间的相似度关系将它们划分为多个簇类,使得簇内数据对象之间的相似度关系尽可能大,簇与簇的数据对象之间相似度关系尽可能小。本文着重研究了密度聚类算法,并针对它的一些问题提出改进算法,将改进后的算法应用到电影推荐当中,不仅减少了算法的计算量,还提升了推荐性能。具体的研究
随着多媒体信息技术的不断发展,多媒体信息的传输已经成为了日常生活中至关重要的一环。由于现在互联网空间中存在着大量多媒体信息,如何将需要的信息从海量无关信息中准确检索出来已成为目前多媒体信息领域的热点问题。本文从语音检索技术切入,对如何在密文语音中利用感知哈希检索出需要的语音进行了一系列研究。本文主要对利用特征变换生成感知哈希序列,语音加密技术,语音检索技术等等进行了研究。本论文的主要工作概括如下:
随着大数据、云计算等技术的快速发展,数据的安全性变得尤为重要。为了确保数据的安全,数据拥有者在将数据上传到云服务器之前要对数据进行加密,且加密后的内容不具备明文的特性,即使攻击者获取到云端服务器的加密数据也不能从中得到任何明文与密钥相关的信息。云服务器可以对密文进行检索,这样既节省了本地的存储空间,又提高了数据隐私安全。可搜索加密技术的提出很好的解决了如何实现服务器对密文数据的高效检索问题。可搜索
车联网通过车与车、车与路等实体之间的相互联系,实现信息共享,以此提高交通效率。但攻击者可以通过无线信道窃取、篡改车辆发送的消息,从而破坏车联网的正常通信,威胁车联网的安全,并有可能引发严重的交通事故。由于车辆的高速移动性,使得节点之间的通信必须在有效时间内得到认证,因此,设计安全高效的车联网消息认证方案尤为重要。本文利用边缘计算和聚合签名等技术,结合基于身份的密码体制、异构聚合签密和无证书聚合签名
随着在线教育的快速发展,在线学习平台积累了丰富的试题资源,使学习者面临“信息过载”和“学习迷航”等问题。利用学习平台所积累的学习者行为数据和历史作答数据,评估学习者认知水平,结合知识结构进行试题推荐技术研究,对于提升用户的学习效率优化学习路径,具有重要应用价值和研究意义。认知心理学理论所构建的传统认知诊断模型在评估学习者认知水平通常基于静态场景,模型难以反应学习者的行为与试题之间的复杂关系,而基于