【摘 要】
:
随着web2.0时代的到来和社交媒体的广泛兴起,短文本出现在互联网的各个角落。信息检索,广告关键字,网页标题,锚文本,在线问题,微博以及评论等信息都属于短文本。短文本更新速
论文部分内容阅读
随着web2.0时代的到来和社交媒体的广泛兴起,短文本出现在互联网的各个角落。信息检索,广告关键字,网页标题,锚文本,在线问题,微博以及评论等信息都属于短文本。短文本更新速度快,易于产生,内容丰富多彩且规模量大,但是其本身字数少,内容稀疏,没有足够的信息量统计推断,使得机器理解其语义面临极大的挑战。此外,由于短文本通常不遵循语法,也使得传统的自然语言处理技术如词性标注和句法解析等,难以直接应用于短文本分析。但是短文本理解是关乎人工智能发展的基础性研究,对许多实际的应用场景具有至关重要的意义。文本聚类是文本分析的基础手段。话题模型是短文本聚类的有效方法,但其在短文本聚类应用中面临着高维、稀疏的问题。其中,词共现信息缺乏使得话题模型难以挖掘其潜在结构。研究发现:短文本词向量中存在的少量单词对簇结构学习尤其重要,相对而言噪声词产生的影响也较为明显。因此本文提出一种框架式具有词判别力学习的短文本话题模型,在诸如LDA、BTM及GSDMM模型中引入二项分布,来学习词对簇结构的判别力。多个基准测试数据集上的实验结果表明:新的词判别力模型LDA-λ、BTM-λ及GSDMM-X不仅可以促进簇结构的学习,还可以加快原有模型的收敛速度。为了进一步提高话题模型在短文本聚类应用中的效果,本文使用少量带有监督信息的样本指导聚类过程。利用多条件学习理论,将LDA、BTM以及GSDMM模型扩展为半监督聚类模型Semi-LDA、Semi-BTM以及Semi-GSDMM,以学习有监督信息样本与无监督信息样本的潜在结构。本文在多个基准测试数据集上进行了实验,并且对比了加入词判别力学习后的半监督话题模型Semi-LDA-λ、Semi-BTM-λ以及Semi-GSDMM-λ。实验结果表明:加入监督信息有助于提高话题模型在短文本聚类中的有效性。
其他文献
可重构计算(Reconfiguration Computing)作为一种新型的体系结构和时空域信息处理模型,既具有接近于专用集成电路的高性能,又具有通用处理器的高灵活性,填补了传统软/硬件之
随着物流业的蓬勃发展,叉车的销量越来越大,电动叉车作为叉车家族的一份子,由于其节能环保、使用成本低、维护保养简单等特点,也受到了越来越多的关注。由永磁同步电机构成的交流
随着三维动画广告在电视屏幕上的频频播映,计算机动画已经悄无声息地走进了人们的日常生活。在计算机动画中的人体动画中,脸部表情动画(Facial expression animation)是最困
DNA微阵列技术是生物信息学中一项很重要的技术,它能够同时监控成千上万个基因的表达值。通过分析DNA微阵列的数据集,生物学家能够得到非常有用的信息用于基因预测和基因调控
计算机技术的发展使得医疗模式不再复杂,慢慢走向分子医疗和信息化医疗阶段:首先现代医疗模式利用分子生物技术、DNA测序技术对人体进行DNA测序,接下来将得到的结果与人类标
现实世界中的许多复杂系统,如互联网、物联网、食物链网、神经网络以及社会网络等,都可以描述成由节点集通过边连接构成的复杂网络。社区发现作为复杂网络的一项重要研究内容吸
网络给我们的生活、工作和学习等方面带来了巨大的便利,同时网络也存在各种各样的风险,它是一把双刃剑。随着互联网的发展,它的开放性、共享性和互联程度越来越大,网络的重要
随着物联网时代的到来,人们对网络服务质量的要求会越来越高,不仅仅是对网络传输速度的要求高,同时对于网络的传输性能也提出了更高的要求。影响网络传输性能的重要因素之一
RF-SIM(RFID-Subscriber Identification Module)卡是基于无线射频技术,可实现近距离无线通信的手机智能卡,可用于移动设备、消费类电子产品、PC和智能控件工具等设备。中国
网络安全问题的凸显,使个人防火墙成为保护主机安全的主要手段,目前国内外学者都对智能化的个人防火墙进行了不同层次的研究,信息筛选技术作为最成熟的防火墙技术在防火墙的