【摘 要】
:
随着社交媒体的快速发展,信息呈现爆炸式增长,从海量的信息中挖掘有价值的内容具有十分重要的现实意义。本文围绕微博话题发现技术和实体关系抽取技术展开研究,提出基于改进
论文部分内容阅读
随着社交媒体的快速发展,信息呈现爆炸式增长,从海量的信息中挖掘有价值的内容具有十分重要的现实意义。本文围绕微博话题发现技术和实体关系抽取技术展开研究,提出基于改进短语袋主题模型的话题发现方法和PV-CSM开放式实体关系抽取方法,推进话题发现和实体关系抽取技术在社交文本挖掘领域的发展。论文的主要成果和创新点包括:(1)提出了一种基于改进短语袋主题模型的微博话题发现方法。微博话题发现的方法大多基于词袋模型(词之间相互独立)进行特征抽取,未考虑词之间的关联信息,难以挖掘有效信息,且用孤立的词表示话题,导致话题表述可读性差且有歧义。针对上述问题,提出一种基于改进短语袋主题模型的话题发现方法。该方法首先结合Apriori算法和词的高斯分布特性快速生成频繁短语集;然后利用短语袋主题模型,并结合短语中词项在同一主题下概率分布的方差,修正“主题-短语”分布;最后用生成的主题短语表述话题。在NLP&&CC微博语料上进行实验,该方法主题聚类困惑度降低到406.47,结果表明,基于改进短语袋主题模型的话题发现方法利用短语中词项的关联信息和在同一主题下“主题-词语”分布的差异性,提升了话题发现的准确性,并用主题短语表述话题提高了话题的可读性,降低了歧义性。(2)提出了一种PV-CSM开放式实体关系抽取方法。针对微博数据短小杂乱的特点,以及现有方法未考虑句子间语义相似性导致抽取的实体关系对准确率低且冗余的问题,提出一种基于PV-CSM的开放式实体关系抽取方法。该方法首先通过关系词和论元抽取规则得到实体关系三元组,通过置信度计算规则筛选三元组得到候选实体关系对;然后利用PV-CSM构建句子向量,计算句子相似度抽取出相似句子组;最后通过组内句子所包含实体关系对的置信度,合并组内实体关系对。在NLP&&CC微博语料上进行实验,实体关系抽取的准确率、召回率和F1值分别达到71.31%、64.51%和67.73%,结果表明,PV-CSM开放式实体关系抽取方法利用句子的分布信息和语义信息划分相似句子组,并结合置信度合并组内实体关系对,提高了实体对抽取的准确率和召回率,并达到了去冗余的效果。
其他文献
英语在中国是一种没有自然语言环境的外语,所以中国的英语学习者只能在课堂上有意识地积累单词语法的形式学习,而不是在自然环境下,在运用语言的过程中学习英语。在整个语言
人口老龄化进程的加快促使老年人成为居住区景观的使用主体,这一现象在安置小区中更为突出。因此,在我国国情的基础上创造出宜居的环境,提升安置小区行动缓慢的老年人,即SG群体的身心健康和生活质量,成为风景园林设计师亟待解决的专业问题。本论文以当今世界老龄化现状、安置小区的景观使用主体以及居住环境对居住者身心的影响为研究背景出发,阐明了论文的研究目的是总结出居住区户外环境适老化设计的要点及注意事项,以期能
在我国高等教育事业快速发展的背景下,推动高校学生社团工作对提高我国高等教育人才培养质量、充分发挥社团育人功能,进而建设高等教育强国等方面起到重要的促进作用。随之而来的是,高校学生社团的管理范围包括哪些内容、如何实施有效管理等成为了高校在学生社团工作上关注的焦点。因此,对高校学生社团管理问题进行深入、细致的研究具有较为深远的意义和实用的价值。高校学生社团管理是指遵循高等教育根本目的和大学生成长规律,
随着全球能源短缺和环境污染问题的日益严重,发展和推广新能源汽车逐渐成为有效解决上述问题的重要手段。动力电池系统作为纯电动汽车唯一的动力来源决定了其整车性能、成本
高光谱图像具有光谱分辨率高、“图谱合一”的特点,蕴含了丰富的光谱信息和空间信息,能够为小目标、隐蔽目标、伪装目标的检测与识别提供极大便利。本文基于高光谱图像特点,
本研究以采自河南省不同地区的15个居群的野生狗牙根(Cynodon dactylon(L.)Pers.)为研究材料,采用表型性状和SSR分子标记相结合的方法对供试狗牙根居群的遗传多样性进行分析,本研究结果可以为河南省野生狗牙根种质资源的开发利用提供理论参考。研究结果如下:(1)基于表型性状的狗牙根居群遗传多样性分析结果表明,各供试性状的变异系数从大到小依次为草层高度>匍匐茎叶长>匍匐茎
全球气候变暖,生态环境恶化,传统经济发展模式弊病日益显现,推行绿色环保的低碳经济发展模式势在必行。而发展低碳经济模型的关键在于推动技术创新,尤其是绿色技术创新,从而
雷达属于主动传感器,通过收到的雷达回波对目标进行识别。其探测距离较远且精度高,具有全天候、全天时的作战优点;但是,雷达面临着反辐射导弹、电磁干扰等威胁。红外传感器属
随着无人驾驶技术的不断发展和进步,无人驾驶履带车辆逐渐成为世界各国履带车辆发展的重点之一。由于履带车辆的转向机构种类和传动方式较多,对于无人履带车辆的横、纵向运动
随着滚动轴承转速的提高,轴承环间高速气流对轴承腔内油液的润滑有着重要的影响。轴承高速运转过程中,润滑油在高速旋转气流和离心力等的作用下产生雾化。轴承腔内润滑油的雾化将会影响轴承的润滑效果,同时也会影响轴承的冷却。因此本课题针对高速滚动轴承环间润滑油入射过程液滴的变化规律以及雾化机理展开了研究。本课题所研究的对象为高速角接触球轴承,在轴承外圈内壁开设沟槽的基础之上,通过对轴承滚动体复杂边界条件进行网