基于LDA模型的实体解析技术的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:qianchen912009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的飞速发展,数据获取途径日益多样化,数据质量问题越来越被重视,数据中的歧义问题就是一个备受关注的数据质量问题,在一个或者多个数据库中,同一个现实世界实体可能有多种描述方法,或者多个实体会有同一中描述方法。实体歧义问题存在于不同领域中,如学术网络、基于关键字的检索数据、电子邮件、电影数据库的人名歧义、关系数据库中的记录歧义等。LDA模型是为文本文档集合以及其他离散数据集合建模的一个生成模型,主要用于文本处理中的主题发现。本文对LDA模型进行扩展提出了LDA实体解析模型,即将实体解析问题转换为一个概率问题,在原有LDA三层模型的基础上增加一层,通过修改实体的属性获得实体的引用。在参考和改进前人对LDA模型的推导的研究基础上,使用Gibbs抽样实现了LDA实体解析模型的参数推导,并提出了一种简单的方法大概估计实体的个数,使用Blocking技术将实体引用分配到不同的分区,这不仅可以减少实体引用比较的计算量,而且可以大概估计实体的个数。为了验证基于LDA模型的实体解析方法的有效性,实现了被广泛使用的实体解析方法:基于实体引用聚类的方法和基于社会网络分析的方法,并在网页数据和文献合作数据上验证基于LDA模型的实体解析方法与其他两种已有实体解析方法,并且使用不同的评测方法进行比较。实验表明,相对于其他两种方法,基于LDA模型的实体解析方法准确性比较高,取得了较好的效果。
其他文献
目的:探讨降钙素原(procalcitonin,PCT)及内毒素对于腹腔感染脓毒症患者预后的评估价值。方法回顾性分析腹腔感染脓毒症86例的临床资料,根据预后(存活和死亡)和病情严重程度(局部感染
<正>精液分析,特别是精子计数是一项十分重要的用于评估男性生殖能力的临床检验项目,也是男科疾病诊断、疗效观察的实验依据。因而,这一检测结果的准确与否就非常重要,它能为
北京市三中院日前公开宣判赵某等8人侵犯著作权上诉一案。据悉,该案是中华人民共和国成立以来破获的盗版图书册数最多、少儿出版物码洋最大的案件,查获仓库8处,起获图书360余万
报纸
本文从哲学角度反思译者主体性与翻译的关系,澄清翻译中涉及的本体与现象、意义与解读、翻译主体与译者主体性等关键概念,提出"原作、译者、译作"三位一体的翻译主体概念。研