【摘 要】
:
随着互联网上电子文档数量的爆炸式增长,如何有效地理解和挖掘这些电子文档的隐含语意,已经成为机器学习、自然语言处理等领域的热点问题。潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)定义每篇文档由所有主题混合而成,其中主题定义为词典上特异的概率分布,混合比例θ可作为文档在主题空间的特征表示。监督主题模型利用文档监督信息,同时对文档词语和标签建模,能够获得更有预测能力的
论文部分内容阅读
随着互联网上电子文档数量的爆炸式增长,如何有效地理解和挖掘这些电子文档的隐含语意,已经成为机器学习、自然语言处理等领域的热点问题。潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)定义每篇文档由所有主题混合而成,其中主题定义为词典上特异的概率分布,混合比例θ可作为文档在主题空间的特征表示。监督主题模型利用文档监督信息,同时对文档词语和标签建模,能够获得更有预测能力的文档主题低秩表示。本文对主题模型及其应用展开深入研究,主要贡献如下:(1)本文提出一种结合深度学习的监督主题模型(DL-sLDA)框架,利用深度网络强大的非线性拟合能力建立文档主题分布与标签之间的映射关系,通过改变网络结构和激活函数的类型,DL-sLDA可用于分类和回归任务。在无监督主题模型的基础上,DL-sLDA在模型生成假设中加入描述文档主题分布与标签映射关系的步骤,使之能够同时对文档词语与标签建模;对于模型参数的求解,本文提出一种基于平均场理论(Mean Field Theory)的变分期望最大化(EM)结合深度网络训练的方法共同完成贝叶斯框架下模型参数的近似。实验表明:DL-sLDA既保持了无监督主题模型隐含主题的提取能力,在预测实验中也取得了超过目前流行的监督主题模型框架的效果;与其他流行的非主题模型的文本分类模型(如DAN)相比,DLsLDA取得了可以与之相比较的结果,而DL-sLDA的优势在于能够发现隐含的主题信息,具有可解释性。(2)本文提出一种结合LDA主题模型和词向量模型word2vec的文本特征提取方法。LDA定义了一个全局的从关键词到主题,从主题到文档的层次关系,从而能够提取文本的高层(high level)主题特征;word2vec是一种常用的词向量方法,通过两层神经网络学习当前词语与周围词语之间的关联,训练完成的隐藏层即为词向量。较LDA,word2vec能够学习到比较精细的词语语义与语法一级的低层(low level)特征。本文提出一种融合高层的主题特征与低层的词向量特征的方法以构建更好的文档表示,分类实验表明本文所提方法优于单独使用词向量或主题信息的特征表示。
其他文献
青虾(Macrobrachium nipponesis)是我国最重要的淡水经济虾类之一,因其具有高繁殖力,强适应性,杂食性,肉质鲜美,营养丰富,可常年上市等优点已成为水产养殖业发展的主导品种之一。但是,随着青虾养殖规模的扩大和水域生态环境的逐渐恶化,致病性微生物对青虾的危害也日趋严重,病害的发生已经严重制约了青虾养殖的健康可持续发展。2017年至2019年期间,江苏省扬州市部分青虾养殖场出现大规模
P2P借贷打破了以往点对点的借贷行为的空间限制,通过网络技术拉近了借贷双方的距离,通过数据分析和网络信息安全管理获得需求信息和风险信息,实现了借贷行为的数字化、信息化
上海市积极尝试制定并实施了“柔性延迟申领养老金”的政策,但由于缺少具体的激励措施,响应该政策的企业职工人数较少。渐进式延迟退休构想未受到公众的普遍信任,顺利推行延迟退休改革的关键是建立内在激励机制。论文将研究对象聚焦于1992年底以前参加工作且在养老保险制度改革后退休的上海市企业职工,以内容型激励理论、过程型激励理论和行为改造型激励理论为分析框架,运用深度访谈、保险精算、案例分析等方法,从政策受众
对于计算密集型任务与计算复杂型任务,传统的处理方式大多基于CPU实现。由于CPU是通用处理器,当处理计算密集型任务或计算复杂型任务时,速度不会特别快,难以满足现今高速复杂的网络环境。FPGA可以通过配置不同的编程数据产生不同功能的电路,并且电路的并行性远超CPU,大大提高程序的处理速度。所以,本文设计了一套基于FPGA的RTPS报文解析与AES-256数据加解密系统,提高对RTPS报文解密、解析以
随着近年来云南水电铝产业的快速发展,大量水电铝项目纷纷落地云南。然而水电铝带来的污染问题也受到了广泛关注,尤其是大量水电铝项目落地岩溶区。危废渣库及暂存库的选址问
保险是我国金融市场重要的组成部分,随着我国居民收入的不断提升,居民购买保险的意识也在不断增强,保险行业借此机会也得到了快速发展。随着社会保险率的不断提升,保险市场的竞争程度也在迅速上升,出于开拓市场的需要,保险业务员有时会采取一些顾客导向偏差行为来维持顾客忠诚度,给保险公司的客户管理带来困难,寿险公司也不例外。人寿保险销售在研究顾客导向时,国外研究人员通常从信息不对称角度出发,并通过研究人寿保险市
龙门山构造带位于四川盆地的西北缘,呈北东-南西向展布,是我国西南部一条重要的构造带。龙门山构造带最显著的特征是其独特的逆冲推覆构造及其伴生的飞来峰群。虽然前人对龙门山构造带及其飞来峰群的各方面做过大量研究,但对位于龙门山北段的唐王寨-仰天窝复式向斜的构造地质模型认识还存在一定的分歧。本文主要通过野外地表地质调查,结合钻井资料和地震剖面精细解释,并运用平衡剖面技术与构造物理模拟实验,对研究区的构造特
近年来,物联网信息采集技术逐渐成为一个研究热点。Contiki是一种无线传感网技术(Wireless Sensor Network,WSN),具有传输距离长、抗干扰能力好、部署灵活、支持IPv6的特点,适合应用于医疗监测场景。但是在该场景下,存在病人携带信息采集节点在传感网部署范围内进行随机移动的现象,Contiki所使用的路由协议无法保证节点连接稳定性,会出现数据包丢失的问题。为解决上述问题,本
金口河地区位于四川省乐山市、眉山市、雅安市和凉山州交界部位,属于四川盆地西南缘与青藏高原东边缘的过渡地带,区内新构造运动活跃、褶皱隆升强烈,复杂的地质环境条件制约了当地的经济建设活动,因此在该地区开展构造稳定性研究具有重要的实际意义。本文综合分析了区域地质构造特征与地震活动的时空分布规律,并通过详细的野外调查,查明了研究区的地层岩石及断裂构造发育情况。区域地跨羌塘-三江造山系和扬子陆块区两个一级大
在大数据快速发展的进程中,数据交易和数据保护之间的矛盾日益凸显,对此,未来的个人信息保护法应该有所回应。数据交易适用除外制度就是一种特别的制度安排,具体是指对符合要