【摘 要】
:
潜在主题模型(LDA)是一种常用的文本分析方法,它把文本看成一个单词的集合,通过分析词语的含义和使用背景来挖掘文本的潜在信息。近年来,LDA已被广泛运用到文本分析,数据可视
论文部分内容阅读
潜在主题模型(LDA)是一种常用的文本分析方法,它把文本看成一个单词的集合,通过分析词语的含义和使用背景来挖掘文本的潜在信息。近年来,LDA已被广泛运用到文本分析,数据可视化,推荐系统,信息检索等领域。训练LDA模型时要解决的一个关键问题是为每个单词分配主题,估计主题分布参数(?)和主题上词分布参数Φ。本文首先基于Dirichlet-Multinomial共轭结构得到(?),Φ的后验分布和后验估计表达式,并利用贝叶斯公式推断出主题潜变量的后验分布,得到CGS抽样公式。紧接着从最大化后验分布出发,利用变分贝叶斯把原优化问题转化为最大化后验分布的变分证据下界(ELBO),得到新的主题抽样公式。在优化过程中,结合蒙特卡罗模拟和EM算法构造出MCEM算法。在算法E步中,对主题潜变量进行抽样;该过程基于Metropolis-Hastings算法,按照doc-to-doc的顺序访问每个token,同时交替从两个简单的建议分布word-proposal和doc-proposal中为zdn分配主题。单次抽样中,在混合多项分布下,分别采用Alias Sampling和Random Positioning对成员分布进行抽样,把算法复杂度控制在O(1)内。在M步,更新计数矩阵Cd,Cw。本文创新地使用两个简单的混合多项分布作为建议分布,交替为zdn分配主题,并在O(1)时间内完成单次抽样,这样不仅能有效避免抽样的自相关性,还提高了模型的泛化能力。
其他文献
当前空间信息服务的实现机制,主要是依靠Web Service技术为基础,根据OGC组织制定空间信息服务规范,如WMS, WFS, WPS等。这些标准在实现空间信息资源共享与互操作方面起到了一
【目的】本研究旨在通过对比与分析眶上外侧与翼点两种手术入路治疗颅内前循环破裂动脉瘤的各种相关数据,为临床工作在术式选择方面提供参考。【方法】选取本院收治的73例颅内前循环破裂动脉瘤患者作为研究对象,根据手术方式的不同分为两组:A组(35例)采用经眶上外侧入路显微手术,B组(38例)采用经翼点入路显微手术。对比两组患者的性别、年龄、术前合并症、Hunt-Hess分级、改良Fisher分级、动脉瘤位置
信息时代的不断发展,使传统社区运维管理突显出很多弊端,随着智慧城市建设速度加快,社区运维管理方式转型势在必行。从社区运维管理现状入手,深入社区居民中展开调研,并对调
目前,在对比汉语习得的相关研究中,少有以斯瓦希里语与汉语的对比研究文献,而专门针对动词这种常用词类的研究就更少了。笔者在本文中尝试以汉语中的动词“打”和斯瓦希里语中的“piga”词语为分析实例,从语义、语法角度对这两种语言进行对比分析。对30名学生进行了访谈调查,针对斯瓦希里语学生“打”字词语教学和习得中的问题提出了参考性建议。进一步对受访者的回答进行分析探讨,以便增强本文研究的实践依据。笔者希望
分类与回归技术已经被广泛应用于人脸识别,卫星图像识别,信息安全等等多个领域。而集成学习能够有效地提升单个模型的分类与回归效果。然而前人的研究大多只关注集成学习器的
中空介孔材料因大的比表面积、低密度、化学性质稳定等优势,在能源储存、吸波、催化、气敏、药物传输等领域都有着广泛的应用。其中,中空介孔SiO2作为催化剂的载体,不仅可以避免活性物质团聚,而且减少了电荷载流子的传输距离、促使污染物分子富集,增强活性中心的催化活性。然而,这种复合材料的制备通常需要借助繁琐且耗时的硬模板法,而且催化剂难以磁分离。为了减少复合催化剂的制备流程,我们直接以介孔SiO2空心球为
随着三维互联网应用的迅速发展,虚拟环境中布料动画的需求越来越多。无论是在计算机3D游戏动画领域,还是在三维动画影视等领域,人们对于逼真性高、交互性强等动画效果的要求
近年来,随着Web技术的迅速发展,网络资源呈现爆炸式增长,资源的数量越来越庞大,资源总类日渐繁多。如此丰富的资源为人们的学习和生活带来了便利,人们可以通过网络方便的获取
相比于传统的化石能源,可再生能源受到了越来越多的关注。开发直接甲醇燃料电池和电解水产氢技术,是解决能源和环境问题的有效方法。直接甲醇燃料电池作为一种应对未来能源危机的理想装置,在阳极和阴极侧分别发生甲醇氧化反应(Methanol Oxidation Reaction,MOR)和氧气还原反应(Oxygen Reduction Reaction,ORR)。目前,贵金属Pt、Pd材料虽然是有效的MOR催
由于原材料、能源与薪酬上涨等原因使大量经营中低技术产品的制造业生产难以为继,面临诸多成本高、利润率变低、而客户对质量与交货期的要求却越来越高的压力。面对如此困境,