【摘 要】
:
随着公安经济侦查业务的扩展,历史数据的日益增多,人工智能技术的广泛使用,针对经济犯罪信息的智能化检索模式已成为经济犯罪侦查领域的迫切需求。目前多数检索引擎大都使用关键词匹配的模式,没有考虑文本内在的语义,导致检索结果的准确率与查全率均不高。为了解决这一问题,主题模型以其挖掘文档隐含概念的优势大量被用在信息检索中,但是仍存在以下问题:第一,其无监督的学习形式,导致生成的主题解释性不够明确;第二,主题
论文部分内容阅读
随着公安经济侦查业务的扩展,历史数据的日益增多,人工智能技术的广泛使用,针对经济犯罪信息的智能化检索模式已成为经济犯罪侦查领域的迫切需求。目前多数检索引擎大都使用关键词匹配的模式,没有考虑文本内在的语义,导致检索结果的准确率与查全率均不高。为了解决这一问题,主题模型以其挖掘文档隐含概念的优势大量被用在信息检索中,但是仍存在以下问题:第一,其无监督的学习形式,导致生成的主题解释性不够明确;第二,主题模型更适合处理长文本,对特征较少的查询语句不适用。为解决以上问题,本文从智能检索的语义特性出发,提出了一种基于主题模型的智能检索方法。该方法从文档的检索模型和用户提问两个角度进行研究,运用主题模型结合聚类算法挖掘文档的潜在语义,构造文档索引;应用本体技术处理用户提问语句,标准化检索式。首先选择经济犯罪领域专家知识作为主题模型的先验知识,改进了无监督主题模型的主题偏离实际语义的缺陷,实现了半监督性质的主题建模,生成了符合经济犯罪特征的文档主题标签。其次,研究了文档的聚类方法,结合了Bagging集成学习思想,改进了传统k-means算法,以解决原始语料经过主题模型训练生成的文本主题分布较为稀疏的问题。再次,构建了经济犯罪领域本体,描述各个实体间的逻辑关系,并完成本体的持久化,在检索阶段识别出查询语句的语义和逻辑关系,重构用户检索条件,发掘出用户真实检索要求;最后,根据查询与文档的综合匹配率,按照相似度排序结果列表,以提高检索准确率和召回率。在基于主题模型的智能检索方法的基础上,开发了经济犯罪智能检索系统。以某经济犯罪领域数据为样本实例,验证了本文改进的主题模型和智能检索方案的效果与价值。
其他文献
电子商务的迅猛发展使得淘宝网商家和消费者之间在频繁的交流过程中形成了独具淘宝网特色的语言风格——"淘宝体"。本文以淘宝体常用词"亲"和"哦"为例,分析了淘宝体风格语言
随着工业化、城市化的深入推进和经济持续增长,资源型老工业城市环境治理将面临更加严峻的挑战。因此,要进一步转变经济发展方式、优化能源结构、创新城市环境治理体制机制,
旅游特色小镇区别于传统意义上的行政单元和产业园区,烟台南山养生谷康养旅游特色小镇具有发展的机遇和优势,但也面临缺乏整体规划、配套不完善、现有建筑不符合康养小镇风格
立法保护程度加强与司法体制健全贯穿着我国专利保护制度从建立到完善的整个过程。在此过程中,立法保护与司法保护分别通过不同的机制,对我国的技术进步产生影响。本文概述了
理论上一次或少次交配就能够满足雌性昆虫最大生殖成功所需精子,多次交配通常会带给雌性一定代价,如损失大量时间、消耗体能、增加暴露自己和被天敌捕食风险、增加感染疾病和
随着我国社会的进步和经济的发展,许多城市都面临着汽车保有量的快速增长和城市交通拥堵日趋严重的问题。优先发展城市公共交通是解决城市交通问题的主要途径,许多城市在积极发展以公共汽车为主要运输方式的公共交通(以下简称公交,以区别于轨道交通)的同时,也在大力发展轨道公共交通,公交系统与轨道交通系统既存在互补也存在竞争。广州的公交系统与轨道交通系统之间也存在这种关系,而且近些年公交的吸引力逐年下降,公交企业
BiOCl由带正电荷的[Bi2O2]2+层和带负电荷的双Cl-层沿着C轴方向交替堆叠成了独特的层状结构,[Cl-Bi-O-C1]层通过C1原子间的范德瓦尔斯作用堆叠在一起。强的层内化学键和弱的
修订后的《残疾人教育条例》提出要"保障义务教育",要"禁止任何基于残疾的教育歧视",对各级政府、社会及家庭对残疾儿童义务教育的各自职责提出了要求,凸显了残疾儿童义务教
剖宫产术有较大的手术伤口以及较广的创面,术后非常容易出现并发症,因此,术后有必要采取科学、有效的护理措施,确保产妇快速康复。近年来,大量学者对剖宫产术后的护理方法进