论文部分内容阅读
全球经济、政治和文化正在飞速发展,犯罪是这些发展的障碍,危害着人们的财产安全,然而使用传统预测方法无法对犯罪进行精确的预测,论文基于机器学习算法对犯罪进行了预测。犯罪预测是指通过对过去犯罪纪录进行分析,从而对接下来一段时间内犯罪发生的热点地区、数量、类型等进行预测。因此本文围绕区域犯罪数量、犯罪热点和犯罪类型进行了以下研究。论文引入循环神经网络对区域犯罪数量进行预测,建立了基于LSTM算法的区域犯罪数量预测模型并提出了两种实现方式:LSTM 一维时间序列和LSTM多维时间序列。对研究区域实施网格划分操作,形成小的网格区域,然后选取目标网格,传统时间序列算法ARIMA仅仅利用目标网格的历史犯罪数据,而LSTM还利用了目标网格周围网格的历史犯罪数据,考虑了周围网格犯罪数量对目标网格犯罪数量的影响。论文基于芝加哥历史犯罪数据集进行了实验,结果表明LSTM的均方根误差比ARIMA低0.73,平均绝对百分比误差比ARIMA低4.96%。进一步地,论文对LSTM进行了改进,将节假日、温度、天气因素纳入模型,实验结果表明改进模型的均方根误差比未改进LSTM低0.57,平均绝对百分比误差比未改进LSTM低2.62%。针对区域犯罪热点预测,论文提出了一种将目标区域时间、空间均嵌入模型进行考虑的时空神经网络。该模型引入时空窗口的概念,将预测某区域是否为热点的问题,转化为时空序列预测问题,基于时空累积影响来预测某区域是否为热点。为了验证论文算法的有效性,同时利用决策树、随机森林、逻辑回归等六种经典的分类算法进行了预测。实验结果表明,随机森林在传统算法中效果最佳。而论文提出的时空模型的准确率比随机森林高5.5%,精确率比随机森林高6.5%,召回率比随机森林高6.9%,F1-score 比随机森林高0.061。论文研究了犯罪类型预测的数据预处理过程,原始数据集中独立坐标对过多导致无法建立模型。论文使用聚类算法将巨量独立的经纬度坐标对应到20个不同的区域,同时将原始的多种犯罪类型合并为3种,然后调用sklearn库中的分类器建模,最终可依据输入的地点、时间输出3种犯罪类型各自发生的概率。