论文部分内容阅读
随着互联网技术的高速发展,人们在享受互联网方便快捷的同时也对信息安全的要求越来越高,信息安全领域面临着前所未有的挑战。传统的身份识别方法仅仅依赖账号密码的匹配,但却无法识别当前输入者是否为用户本人,显然这种单一的认证模式已不能适应现代人对网络安全的需求,因此身份识别问题越来越受到人们的关注。
生物特征识别技术的出现为解决身份识别问题带来了希望并渐渐走入我们的生活,它的本质就是利用了人体与生俱来或经后天学习后稳定的生理特征或行为特征,主要包括有指纹识别、虹膜识别、DNA识别、签名识别等,击键识别也是其中重要的一员。它利用了人体经后天学习后敲击键盘时稳定的击键节奏,记录每个按键的按下和释放时间序列,然后从中提取每个按键的持续时间、相邻按键的间隔时间等时间特征,经过分析、建模,得到每个用户的识别模板,从而达到身份识别的目的。
本文在此理论支持及前人研究的成果基础之上,针对静态密码与动态密码的击键识别展开了深入的研究,主要做了以下研究工作:
首先,设计并实现了击键数据采集系统。采集的数据包含有基于指定字符串(.tie5Roanl)的静态密码特征数据、基于用户自行指定字符串(电子邮箱)的静态密码特征数据和入侵特征数据、6位动态密码特征数据。共有19位采集者参与到本实验中,系统主要采集了每位采集者键入的按键值和按下、弹起的原始时间序列。通过自己采集数据使得实验结果的对比都在相同特征的数据集基础上,结论更具有说服力。
然后,研究了静态密码击键特征。采用了使用频率较高的神经网络、支持向量机、模糊逻辑、曼哈顿距离、曼哈顿距离(filtered)、曼哈顿距离(scaled)五种算法分别对指定字符串特征数据和用户自行指定字符串特征数据进行建模、分析,得出基于用户自行指定字符串的且采用模糊逻辑算法建模的实验效果最好,EER为0.11。此外还加入了功能按键(如shift键、caps lock键)到特征数据中,分析了加入功能按键是否会对识别正确率有影响。
其次,研究了动态密码击键特征。本文是迄今为止第二个对动态密码展开研究的,前人采用曼哈顿距离(scaled)算法,得出的最好EER为0.26。本文在相同的数据集及相同的评价标准下,采用模糊逻辑算法和曼哈顿距离(scaled)算法分别进行建模分析,得出采用模糊逻辑算法的最好EER为0.22,较曼哈顿距离(scaled)算法下降了4个百分点。同时还对动态密码的特征选取、训练样本类型、训练样本数量、动态密码位数进行了更为细节的研究。
最后,创新性的针对账户密码+验证码的应用场景进行了静态密码与动态密码的融合实验研究,分别在特征层、匹配层、决策层进行了不同的融合。实验结果表明,通过决策层融合后的识别正确率最高且高于仅仅使用一类数据的识别正确率,EER大幅下降至0.04,达到了理想的识别效果。
生物特征识别技术的出现为解决身份识别问题带来了希望并渐渐走入我们的生活,它的本质就是利用了人体与生俱来或经后天学习后稳定的生理特征或行为特征,主要包括有指纹识别、虹膜识别、DNA识别、签名识别等,击键识别也是其中重要的一员。它利用了人体经后天学习后敲击键盘时稳定的击键节奏,记录每个按键的按下和释放时间序列,然后从中提取每个按键的持续时间、相邻按键的间隔时间等时间特征,经过分析、建模,得到每个用户的识别模板,从而达到身份识别的目的。
本文在此理论支持及前人研究的成果基础之上,针对静态密码与动态密码的击键识别展开了深入的研究,主要做了以下研究工作:
首先,设计并实现了击键数据采集系统。采集的数据包含有基于指定字符串(.tie5Roanl)的静态密码特征数据、基于用户自行指定字符串(电子邮箱)的静态密码特征数据和入侵特征数据、6位动态密码特征数据。共有19位采集者参与到本实验中,系统主要采集了每位采集者键入的按键值和按下、弹起的原始时间序列。通过自己采集数据使得实验结果的对比都在相同特征的数据集基础上,结论更具有说服力。
然后,研究了静态密码击键特征。采用了使用频率较高的神经网络、支持向量机、模糊逻辑、曼哈顿距离、曼哈顿距离(filtered)、曼哈顿距离(scaled)五种算法分别对指定字符串特征数据和用户自行指定字符串特征数据进行建模、分析,得出基于用户自行指定字符串的且采用模糊逻辑算法建模的实验效果最好,EER为0.11。此外还加入了功能按键(如shift键、caps lock键)到特征数据中,分析了加入功能按键是否会对识别正确率有影响。
其次,研究了动态密码击键特征。本文是迄今为止第二个对动态密码展开研究的,前人采用曼哈顿距离(scaled)算法,得出的最好EER为0.26。本文在相同的数据集及相同的评价标准下,采用模糊逻辑算法和曼哈顿距离(scaled)算法分别进行建模分析,得出采用模糊逻辑算法的最好EER为0.22,较曼哈顿距离(scaled)算法下降了4个百分点。同时还对动态密码的特征选取、训练样本类型、训练样本数量、动态密码位数进行了更为细节的研究。
最后,创新性的针对账户密码+验证码的应用场景进行了静态密码与动态密码的融合实验研究,分别在特征层、匹配层、决策层进行了不同的融合。实验结果表明,通过决策层融合后的识别正确率最高且高于仅仅使用一类数据的识别正确率,EER大幅下降至0.04,达到了理想的识别效果。