论文部分内容阅读
随着互联网的发展,我们在享受其丰富内容与便捷服务的同时,还面临着严峻的网络安全问题。为构建安全的网络环境,防止各种网络黑产事件,生物识别技术在革新着旧有的简单身份验证模式,指纹、人脸、DNA、虹膜、静脉等识别技术取得长足的发展,尤其人脸识别、指纹识别被广泛运用。相比这些生物识别技术而言,击键行为识别技术具备成本低、普遍、易操作、无侵入感、对操作环境无特殊要求等天然优势,为击键行为身份识别研究提供了有利条件。早期的击键行为身份识别主要集中在用户登录场景,虽然保证了用户声明身份与使用者身份的一致性,但只是登录过程一次性验证,在使用过程中不再进行身份验证,一旦入侵者采用非法手段攻破或者绕开登录过程,便可以进行非法操作。为解决用户在使用过程中的身份验证问题,自由文本击键行为识别研究技术相继出现。鉴于基数巨大的中国网民以中文汉字输入为主,本文对中文文本击键行为身份识别进行了研究,在此基础上,又结合数据深度融合技术在增强系统识别性能和拓展系统适用场景方面进行了探索。 本文立足当前安全问题,分析并阐述研究背景、国内外现状,从而明确提出自己的创新点:改进的特征提取方案和数据深度融合方案,旨在提高中文击键行为识别准确率,扩大中文击键识别适用范围。在数据收集阶段,为了获取全局键盘消息,数据采集系统运用了HOOK关键技术。通过击键数据收集,原始数据预处理,特征提取,分类器模型构建等实验步骤对两个方案进行了实施,实验结果表明两方案具备较好的成效,能够较好的应用于中文击键行为识别。本文的创新主要体现在如下两点: 1.改进的特征提取方案,由于前人的中文击键行为识别研究忽略了除常用单键和双键以外的击键信息,其特征向量并不能全面的表征用户行为,在此基础之上,本方案从单键特征、双键特征以及统计特征三个方面拓展了前人所采用的单键、双键信息,加入了常用的功能按键以及新的双键类型,还加入了对用户击键习惯进行量化的特征,如键盘按键输入的左右键倾向、文本编辑时功能按键使用习惯、用户边思考边输入的特点等。该方案应用于中文自由文本击键行为识别过程,实验结果达到96.42%的准确率,以及3.6%的错误拒绝率(FRR)和0.1%的错误接受率(FAR)。同时,实施方案调小了用于特征提取的击键数据片段,实验结果均有所下降,表明充足的击键数据有助于特征向量的充分表达,进而使得分类器模型具备更好的识别能力。 2.数据深度融合方案,在实际的中文击键输入场景中,击键过程不仅包含固定文本和自由文本类型的输入,而且还包含因用户个人习惯和状态不同而出现的更加复杂的击键模式,如输入不同长度的文本、使用非常用按键、个性化的编辑风格等等,本方案旨在采取数据融合技术更加准确的抓取用户中文击键输入模式,深度挖掘已搜集的击键数据,进而使得识别系统具备更高的识别性能。在改进的特征提取方案思路基础上继续进行了探索,本文数据融合主要从拓宽特征数据采集范围、对击键数据进行不同粒度的特征提取以及结合深度学习提炼特征数据三个层次来进行。本方案设计深度学习算法并应用于中文击键行为识别实验研究,结果准确率达到了98.41%准确率,FRR也降到了1.6%,性能有了极大的提高。同时作为对比,对于同样的数据融合数据集,采用支持向量机作为分类识别模型,准确率以及 FRR也得到了很大的提升。实验结果表明,数据深度融合方案具备良好的可行性以及更高的识别性能。