论文部分内容阅读
近年来,智能手机和基于Android操作系统的其他移动设备从简单的通讯工具变成信息处理和服务的综合平台。随着高科技犯罪案件和民事纠纷增加,犯罪手段日益数字化和多样性,涉及电子证据的数据信息诉求也逐渐增多。电子取证有数据获取与数据恢复、数据分析、输出以及如何快速准确地显示结果三个阶段。数据分析作为电子取证的关键环节,面对大量电子文档,如何从中提取意义重大的有用信息是一个关注点。本文通过研究信息领域里广泛使用的文本分类技术,认为其可以有效的处理数据分析问题。论文研究了数据分析技术,并将它应用于面向Android操作系统的智能手机取证数据分析中。首先,总结数字取证技术,包括国内和国际主流的数据获取与数据恢复、数据分析的相关技术,区分计算机取证和手机取证。对于Android系统的基本框架、文件类型,以及取证关注的数据有哪些也有所关注。此外,在数字证据的范围和概念上文本进行了分析和定义。本文使用文本分类算法来分析获取到的数据,不但研究了tf*idf词频算法,还在此基础上进一步改善提出新的算法。实验表明,在计算文本特征权重时,改进的tf*DE算法分类效果更好。此外,针对国内手机取证获得的文本证据多为中文短文本,本文还提出了基于维基百科的特征展开算法,运用维基百科知识扩展特征值,可以较好解决缺乏简短的文字词汇引发不容易提取特征值问题。文末设计了Android手机取证数据分析子系统,该子系统具有高可用性,可应用于司法公安,具有一定的现实意义。使手机取证过程中的数据分析阶段变成自动化,可以减少了取证人员工作量,还能使获取到的数据完整、有效,是整个取证过程中最重要的步骤。因此本文的研究具有实用性和积极的意义。