【摘 要】
:
随着科学技术的喷涌式发展和智能移动终端的广泛普及,互联网行业来到了一个飞速发展的黄金时代。在人们日常产生的海量短文本信息中同样蕴含着巨大的价值等待挖掘。对海量的短文本信息进行文本聚类是人们整体把握这些文本信息前提,同时也是人们是对文本分析和预测的前提。因此更好的对短文本进行聚类也成为了目前学者们的热门研究方向。目前传统的word2vec模型虽然可以很方便的表示文本,但是这种模型训练出来的词向量属于
论文部分内容阅读
随着科学技术的喷涌式发展和智能移动终端的广泛普及,互联网行业来到了一个飞速发展的黄金时代。在人们日常产生的海量短文本信息中同样蕴含着巨大的价值等待挖掘。对海量的短文本信息进行文本聚类是人们整体把握这些文本信息前提,同时也是人们是对文本分析和预测的前提。因此更好的对短文本进行聚类也成为了目前学者们的热门研究方向。目前传统的word2vec模型虽然可以很方便的表示文本,但是这种模型训练出来的词向量属于静态的词向量并不能解决短文本中一词多义的问题。而ELMo模型可以表示出词语与上下文之间的语义联系,在解决一词多义问题的同时还不会使模型维数过高。本文提出了一种基于ELMo语言模型的短文本聚类算法,本文的主要工作如下:针对目前短文本聚类的发展情况,首先详细的介绍了短文本聚类在自然语言处理方面的重要程度以及在短文本聚类过程中所出现的问题和解决方法。并对目前学者们常用的几种文本聚类算法、距离计算函数做出了基本介绍。针对传统词向量无法区分词语的一词多义问题,本文提出使用ELMo模型进行训练动态词向量,并且使用GRU网络减少词向量的训练时间,最后融入注意力机制加强词语与上下文之间的联系,从而提高了词向量对词语表达的准确性。针对传统K-means聚类算法初始聚类中心对聚类结果影响大的问题。本文提出了一种优化的K-means聚类算法。该算法选择RWMD距离作为文本距离,同时通过LDA模型判断文本集中主要主题数来确定类簇数量,最后选择距离最远的几个点当作聚类初始中心点进行聚类。实验结果表明本文提出的聚类算法相比于传统的聚类算法准确性得到了提升,且收敛速度相对较快。
其他文献
随着人们消费需求逐渐向多样化以及个性化转变,企业所面对的订单类型多为多品类订单,同时销售市场日渐从商品销售逐渐转向服务型销售,而在订单履行过程中订单配送服务是其服务水平的重要体现,对于具有可拆分性的多品类订单,在“一地多仓”存储模式下,其订单履行过程可分为订单拆分和配送两阶段,目前企业多采用单一的“最小拆单率”原则或“就近原则”进行实时拆分,只能实现部分订单拆分优化,同时多将订单拆分与订单配送作为
随着5G技术的不断部署与应用,车载自组织网络(Vehicular Ad-hoc Network,VANET)面临前所未有的发展机遇。但由于车载网中节点动态性强,网络拓扑结构变化快,从而导致车辆节点的认证速率慢,消息丢包率高等一系列问题。另一方面,一些恶意车辆利用节点的互联性,发起类似篡改、冒充、重放等恶意攻击,对交通状况与车辆安全造成很大的隐患。不仅如此,攻击者可以借助车载网非法获取用户隐私信息如
以互联网和信息化为核心的新一代技术革命已成为国家发展的重要战略。在智能交通领域,车载自组织网络技术和应用已成为该领域研究热点。然而,车载自组织网络因具备了节点高移动性、网络拓扑结构频繁变化和城市道路复杂等固有特性,使得车载自组织网络中的数据传输面临严峻挑战。为了满足城市环境中数据传输效率的需求,针对城市场景下车载自组织网络路由协议的研究就显得尤为重要。针对上述问题,本文充分考虑车载自组织网络固有特
东江流域作为我国最具代表性的饮用水源型河流,肩负向粤港澳大湾区核心城市香港、广州、深圳、东莞等供水的重任,东江流域水网密集,人口分布与水源分布高度重合,水源水质受人为因素干扰极大,显现典型的复合污染状况,水质的安全面临较大的风险。其中,氮素超标是影响东江水源水质的重要原因,且氮素污染所导致的水华现象频发。与区域重要饮用水源地的地位相比,东江流域水污染监控能力十分薄弱。本研究针对东江流域的氮污染问题
服装是人体热舒适调节的主要方式,因此服装热阻模型也是热舒适研究中的热门话题。目前,服装热阻模型方面的研究主要集中在室内,室外服装热阻模型研究相对较少,且大多数研究者建立的服装热阻模型并未筛选人的主观热感觉,因而所预测的服装热阻是某种气候下多数人的平均着装水平,而不是“中性”或理想状态。目前有关于服装在维持室外人体中性热感觉方面的规律尚未完全展开研究。室外气候条件具有不可控性,因而可供人们选择热舒适
聚偏氟乙烯(PVDF)以其独特的性能优势成为膜研究领域的热点,但PVDF疏水性强,表面能低,易被蛋白质污染,限制了其在水处理领域的应用。改性PVDF膜材料可以获得性能优异的改性膜。本实验以1-乙基-3-甲基咪唑六氟磷酸盐(一种离子液体,[EMIM]PF6)和氧化石墨烯(GO)作为改性添加剂对PVDF膜进行改性,改变PVDF膜的成膜过程,并通过对膜的各项性能进行测试和表征,制备出性能优异的改性膜,提
随着人体热舒适领域的深入研究,不同热环境下人体热特性研究逐渐成为各国学者关注的焦点。个体差异广泛且显著地影响热反应,因个体差异的存在,导致不同受试者即使暴露于相同的热环境,其热反应也有所不同。个体差异是一个综合性的概念,其指个体因其独特存在性而导致的个体间差异。个体差异包括许多方面,例如性别、年龄、身体素质、适应性等,而性别、年龄等客观差异则是研究的重点。学者们通过研究,得到了差异下人体热偏好的规
在我国,经济快速增长已今非昔比,各个城市的发展越来越快,大量修建地铁来缓解日常工作出行时对城市道路交通的压力,而地铁站空调系统能耗占到了整个能耗的40%左右,应因地制宜的选择合适的空调系统为站厅站台公共区提供通风降温服务,而蒸发冷却空调作为节能、绿色、环保的空调能最大限度发挥出其节能优势,降低能源消耗。本文针对地铁运营过程中能耗巨大,入不敷出,仍需政府大量财政补贴问题。利用传热传质机理对直接蒸发冷
荞麦是我国著名的小杂粮,素有“五谷之王”的美称,富含各种微量元素和维生素,具有很高的食用价值和医疗保障作用,未来发展前景十分可观。我国是荞麦生产大国,常年种植面积约130万hm2,总产量75万吨,种植面积和产量居世界第2位。从全国荞麦生产情况来看,存在的主要问题是生产条件差,农民收入低,耕作粗放,种植技术不规范,多采用人工撒播或畜力拉犁播种,机械化程度极低。分散的种植模式和粗放生产造成产品含杂率、
流致振动是蒸汽发生器、换热器内传热管潜在失效机理之一,主要包括流弹失稳、湍流激励和旋涡脱落,其中流弹失稳对传热管的破坏最为严重,能使传热管剧烈振动以至快速失效。为了更好的模拟蒸汽发生器、换热器等设备内多支撑传热管束流致振动响应特性,本文针对支承板支撑4跨模拟传热管直管束开展流致振动试验和理论分析研究。试验件由49根三角形叉排布置的模拟传热管组成,管子两端固定,中间三处采用支承板支撑。试验测量获得了