【摘 要】
:
社交媒体的不断发展使其逐渐成为互联网用户发表观点和意见的主要平台。每天有大量活跃的互联网用户发布数量巨大的承载用户信息的微博、推特等短文本,其中蕴含丰富的反应社会舆论、社会热点和用户兴趣等有价值的信息。因而,面向这些海量短文本内容的语义分析和信息抽取具有重要的研究意义和应用价值。主题模型作为一种无监督的表达学习方法被广泛用于文本分析中。无需标注信息,该方法能有效地从原始文本数据中学习文档层面的潜在
论文部分内容阅读
社交媒体的不断发展使其逐渐成为互联网用户发表观点和意见的主要平台。每天有大量活跃的互联网用户发布数量巨大的承载用户信息的微博、推特等短文本,其中蕴含丰富的反应社会舆论、社会热点和用户兴趣等有价值的信息。因而,面向这些海量短文本内容的语义分析和信息抽取具有重要的研究意义和应用价值。主题模型作为一种无监督的表达学习方法被广泛用于文本分析中。无需标注信息,该方法能有效地从原始文本数据中学习文档层面的潜在低维特征表示和文本所表达的主题。然而,该类方法对于短文本却并不适用。社交媒体中的海量短文本,通常具有传播广泛迅速、噪音多、数据量大、文本长度短等特征。上述特征导致短文本中文档层面的词共现信息异常稀疏,因而不可避免地导致了该类方法在其中的应用效果不佳。为了解决该问题,稀疏主题模型在传统主题模型的基础上引入稀疏假设(即每篇文档只和少量主题相关,每个主题也只和少量词相关),使模型学习到语义更加分明和清晰的潜在表达,从而能在一定程度上缓解短文本共现信息稀疏的问题。目前基于该假设的方法主要有两类:(1)其中一种方法侧重在LDA等概率主题模型中引入稀疏先验或辅助变量以间接控制学习到的潜在表达的稀疏性。(2)另一种方法关注于在非概率主题模型中引入稀疏正则化约束,用于直接控制潜在表达的稀疏性。相对于常规概率和非概率主题模型,这两种方法都能学习到更加具有语义解释性的文本表达和主题。然而,在稀疏建模和模型求解方面,这些方法的建模过程仍然存在一系列挑战:(1)不完全的稀疏潜在表达学习。已有的稀疏主题模型通常只能学习到文档、主题和词中某一两个层面的稀疏表达,无法有效获取在文档、主题和词所有层面的稀疏潜在表示;(2)不准确的稀疏结构建模。已有的稀疏主题模型的稀疏机制无法捕获稀疏表达之间的相关性和短文本中复杂的稀疏结构;(3)较差的模型扩展性。由于层次化生成过程,传统概率和非概率主题模型扩展性往往有限。一旦需要实现新的功能,这些模型需要在生成过程中引入新的额外变量和重新推导求解算法,严重降低了模型的泛化能力;(4)有限的语义表示能力。由于其浅层的概率和非概率建模,和深度模型相比,传统主题模型的语义表示能力及其有限,学习到的表示和主题往往语义连贯性不强。为了解决上述挑战,本文将稀疏正则化、稀疏贝叶斯学习、词嵌入、神经网络、神经变分推断和神经语言模型等技术与主题模型相结合,提出了一系列面向短文本的稀疏主题建模方法。具体来说,本文的工作可以分为以下四部分:(1)为了解决不完全稀疏表达学习问题,本文提出了一种非概率稀疏主题模型(Sparse Topical Coding with Sparse Groups,STCSG)。该模型使用sparse group lasso正则化约束直接控制文档、主题和词层面表示的稀疏程度。此外,本文基于交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)提出了高效的求解方法用于求解该模型的非凸优化学习问题;(2)为了解决不准确稀疏结构建模问题,本文提出了一种新的贝叶斯层次主题模型(Bayesian Sparse Topical Coding,BSTC)。该模型使用层次拉普拉斯和NormalJeffrey层次稀疏先验有效约束文档、主题和词层面的稀疏度,能自动利用稀疏表示之间的语义相关性改善文本表示的学习,并能被期望最大化和变分推断算法有效推导求解;(3)为了解决模型扩展性差的问题,本文结合深度学习技术,提出了一种新的神经主题模型(Neural Sparse Topical Coding,NSTC)和它的一系列稀疏扩展模型。该模型使用神经网络建模传统稀疏主题模型的生产过程以简化其复杂的推断过程和提高扩展性。此外,该模型在生成过程中引入基于词嵌入的语义相关性信息约束主题的生成,以进一步改进表示学习的语义相关性和连贯性;(4)为了解决语义表示能力有限的问题,本文结合神经变分推断和神经语言模型,提出了语义强化神经稀疏主题模型(Semantic Reinforcement Neural Sparse Topic Model,SR-NSTM)和它的有监督扩展模型。在该方法使用神经变分推断技术提高主题模型的扩展性,使用拉普拉斯先验分布约束潜在表达的稀疏性,并使用双向LSTM神经网络编码文档层面的表达实现语义强化,进一步改进主题模型的表达学习。本文的方法在基准数据集上的结果表明,本文的方法比以往先进方法在短文本表示学习和语义抽取上更加有效。
其他文献
近红外菁染料及其掺杂的荧光二氧化硅纳米粒子具有优异的光物理性能,被广泛用于生物荧光成像和癌症的光动力治疗(photodynamictherapy,PDT)。然而,近红外菁染料存在水中自聚集倾向大和光稳定性差等缺陷,影响荧光成像和PDT效果。因此,本文开发了一系列包覆七甲川氨基菁染料的荧光二氧化硅纳米粒子(fluorescent silica nanoparticles,FSNPs),通过强化其光物
环境污染和能源危机已成为备受关注的全球性问题。光催化(PC)、光催化燃料电池(PFC)、微生物燃料电池(MFC)技术和集成催化系统等在应对资源与能源危机方面具有巨大的潜力。尤其是利用催化技术的燃料电池技术,可以通过引入高级氧化(AOPs)过程将污染物降解与产电相结合,从废水中回收能源。对于这类燃料电池技术,催化剂的性能至关重要。采用Fe、g-C3N4和TiO2等非贵金属材料可制备出低成本、高活性的
大型输电网是构筑国家经济发展的重要脉络,国家电网中高压电力线路分布范围非常广泛,但是野外架空电力线路周围空间内常存在着影响线路稳定运行的各种灾害与风险。诸如山林火灾、邻近线路生长的植被都可以轻易地造成输电故障。林区电力走廊中,火灾是电力线和植被之间相互影响的一个重要因素,无论是山火邻近还是输电线触及植被放电导致火灾,总是会给输电系统的正常运行带来影响。一方面,由于森林植被和线路不足百米,火灾对输电
血管系统遍布全身各个组织器官,是组织和血液进行物质交换的主要途径。对于代谢活动异常旺盛的肿瘤组织来说,血管系统在肿瘤进展中更是起着不可替代的作用。因此,肿瘤血管系统已被认为是一种很有前途的治疗靶点。近年来,针对肿瘤血管系统的血管靶向疗法发展迅速,已逐渐成为当前研究的热点。但是就目前而言,现有的血管靶向药物在一定程度上还是不能很好地满足临床应用标准。因此通过与纳米技术结合,设计出具有多种生物功能的纳
随着人类工业化水平的急剧提升,环境污染和能源危机已成为人类社会进程中的重要限制因素。因此,发展新的清洁能源以替代传统化石能源成为迫在眉睫的事情。在众多新型能源中,氢燃料由于具备能量密度高、制备原料丰富以及环境友好等特性,成为未来新能源的发展趋势。目前,利用有效的半导体材料为媒介来实现光照条件下分解水制氢是氢气制备最有效的手段之一,有望在解决能源危机的同时不对环境造成破坏,具有重要的研究意义。在整个
科技的迅猛发展使得全球进入“2.0时代”,随之带来了信息的爆炸、环境的破坏、公共卫生健康隐患等一系列问题.特别地,当人们在各种公共社交平台上发表观点时,由于传播途径的多样性,信息导向具有不可预测性.而这种行为轻则引起网络社交平台的瘫痪,重则引起舆论、谣言的大肆传播,造成社会恐慌.此外,公共卫生健康问题也是人们讨论的热点话题,尤其是面对突发性疾病如何合理的建立模型及设计有效的控制策略一直是人们关心的
硫化氢(H2S)是一种气体信号分子,在植物应对镉(Cd)胁迫响应中发挥重要作用。D-半胱氨酸脱巯基酶(DCD)是植物体内生成H2S的关键酶之一,但其是否参与植物镉胁迫应答以及在此过程中如何被调控还不清楚。在本论文中,我们首先证明了DCD通过生成H2S参与拟南芥镉胁迫应答。镉胁迫下,DCD介导产生的H2S通过上调镉输出相关基因的表达以及过氧化物酶的酶活来降低镉和活性氧的积累从而提高植物对镉胁迫的抗性
随着芯片集成度不断提升,按比例将传统硅基晶体管的特征尺寸缩减变得越发困难。一方面,传统硅基晶体管已经接近其物理极限,工艺技术上难以突破。另一方面,随之而来的短沟道效应和介质隧穿效应等不利因素的影响造成器件的静态功耗增加,芯片发热量增大,进一步影响器件的可靠性和稳定性。亟需寻求一种替代传统硅基材料的新型材料,来进一步缩小晶体管特征尺寸,提升芯片的集成度。相比于传统的硅基半导体材料,二维半导体材料具备
地球内磁层由于其高电离度及地球內禀磁场的存在,使得在此区域内存在着大量带电粒子,并且这些粒子被束缚在地球周边,形成分别由不同能量粒子组成的等离子体层、环电流和辐射带。内磁层一直以其活跃的粒子状态以及各种震荡波动成为近些年来空间物理学家研究的重点。在内磁层中,磁声波作为一种分布范围广,发生频率高的等离子体波也越来越受到关注。本文基于范艾伦探测器的观测,对磁声波在内磁层中表现出来的各种特性进行统计分析
SF6气体作为一种优异的绝缘介质,被大量地应用于电力行业,但其极强的温室效应对全球大气环境始终存在威胁。为进一步加强绿色发展,积极应对气候变化,环保型气体绝缘介质的研究工作越来越受到关注。在全球绿色发展的大趋势下,环保型气体绝缘电气设备的研发及其应用过程中的相关技术问题已成为当下重要的研究课题。C4F7N气体是目前最具潜力应用于高压电气设备中的环保型绝缘气体,随着C4F7N/CO2混合气体绝缘设备