论文部分内容阅读
公安系统在多年的工作实践中,一方面不断在推进信息化建设,另一方面,其在公安工作专门数据和社会信息都已经有了相当规模的数据积累,运用数据挖掘技术分析犯罪因素是公安系统一个重要且有意义的课题。与传统数据分析技术相比,数据挖掘从已有的数据中提取模式规律,并且把数据提炼成知识。本文使用多种分类、聚类方法和提出的改进贝叶斯网络方法对犯罪人员的背景信息,心理信息和基因信息进行综合挖掘,以求发现影响以及造成犯罪的因素。具体研究工作有以下几点:1)应用多种分类和聚类方法对犯罪人员数据集进行初步挖掘,分析犯罪因素。在分类中选择了的决策树ID3分类器、决策树C4.5分类器和朴素贝叶斯分类器。选取了聚类方法中的k-means划分聚类和BIRCH层次聚类进行分析。但针对犯罪因素分析这一特殊问题,分类与聚类算法对知识的表达不够细致与清晰。2)由于传统K2算法采用随机模式生成变量序列来限制搜索空间,具有一定的盲目性,所以本文提出改进的贝叶斯网络结构学习K2-P算法。新算法通过基于条件独立性的SGS和PC2算法改进贝叶斯网络结构学习,生成蕴含原始数据知识的拓扑图,供全拓扑过滤器生成拓扑序列集,作为下一步结构学习的变量顺序。对比实验可以证明K2-P算法可以搜索到比K2算法更高评分值的贝叶斯网络。3)贝叶斯网络结构搜索是一个NP-Hard问题,传统K2算法在寻找每个属性节点其可能的父节点集合时采用贪婪搜索策略,可能会舍弃更优的解,所以本文提出K2-EX算法。通过进行跃迁搜索获得更优的Bayesian Dirichlet评分,进一步,我们定义了一个自适应函数控制跃迁次数。通过在不同数据集上的实验,证明K2-EX算法可以获得更优的网络结构。4)最后应用改进的贝叶斯网络算法进行犯罪因素分析,发现了一些有显著关联的属性,例如DRD4基因与犯罪类型,心理因素与犯罪者年龄等。得出了一些对于公安系统有意义的结论。