中文文本击键行为识别及数据融合研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:Shimq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,我们在享受其丰富内容与便捷服务的同时,还面临着严峻的网络安全问题。为构建安全的网络环境,防止各种网络黑产事件,生物识别技术在革新着旧有的简单身份验证模式,指纹、人脸、DNA、虹膜、静脉等识别技术取得长足的发展,尤其人脸识别、指纹识别被广泛运用。相比这些生物识别技术而言,击键行为识别技术具备成本低、普遍、易操作、无侵入感、对操作环境无特殊要求等天然优势,为击键行为身份识别研究提供了有利条件。早期的击键行为身份识别主要集中在用户登录场景,虽然保证了用户声明身份与使用者身份的一致性,但只是登录过程一次性验证,在使用过程中不再进行身份验证,一旦入侵者采用非法手段攻破或者绕开登录过程,便可以进行非法操作。为解决用户在使用过程中的身份验证问题,自由文本击键行为识别研究技术相继出现。鉴于基数巨大的中国网民以中文汉字输入为主,本文对中文文本击键行为身份识别进行了研究,在此基础上,又结合数据深度融合技术在增强系统识别性能和拓展系统适用场景方面进行了探索。  本文立足当前安全问题,分析并阐述研究背景、国内外现状,从而明确提出自己的创新点:改进的特征提取方案和数据深度融合方案,旨在提高中文击键行为识别准确率,扩大中文击键识别适用范围。在数据收集阶段,为了获取全局键盘消息,数据采集系统运用了HOOK关键技术。通过击键数据收集,原始数据预处理,特征提取,分类器模型构建等实验步骤对两个方案进行了实施,实验结果表明两方案具备较好的成效,能够较好的应用于中文击键行为识别。本文的创新主要体现在如下两点:  1.改进的特征提取方案,由于前人的中文击键行为识别研究忽略了除常用单键和双键以外的击键信息,其特征向量并不能全面的表征用户行为,在此基础之上,本方案从单键特征、双键特征以及统计特征三个方面拓展了前人所采用的单键、双键信息,加入了常用的功能按键以及新的双键类型,还加入了对用户击键习惯进行量化的特征,如键盘按键输入的左右键倾向、文本编辑时功能按键使用习惯、用户边思考边输入的特点等。该方案应用于中文自由文本击键行为识别过程,实验结果达到96.42%的准确率,以及3.6%的错误拒绝率(FRR)和0.1%的错误接受率(FAR)。同时,实施方案调小了用于特征提取的击键数据片段,实验结果均有所下降,表明充足的击键数据有助于特征向量的充分表达,进而使得分类器模型具备更好的识别能力。  2.数据深度融合方案,在实际的中文击键输入场景中,击键过程不仅包含固定文本和自由文本类型的输入,而且还包含因用户个人习惯和状态不同而出现的更加复杂的击键模式,如输入不同长度的文本、使用非常用按键、个性化的编辑风格等等,本方案旨在采取数据融合技术更加准确的抓取用户中文击键输入模式,深度挖掘已搜集的击键数据,进而使得识别系统具备更高的识别性能。在改进的特征提取方案思路基础上继续进行了探索,本文数据融合主要从拓宽特征数据采集范围、对击键数据进行不同粒度的特征提取以及结合深度学习提炼特征数据三个层次来进行。本方案设计深度学习算法并应用于中文击键行为识别实验研究,结果准确率达到了98.41%准确率,FRR也降到了1.6%,性能有了极大的提高。同时作为对比,对于同样的数据融合数据集,采用支持向量机作为分类识别模型,准确率以及 FRR也得到了很大的提升。实验结果表明,数据深度融合方案具备良好的可行性以及更高的识别性能。
其他文献
本文主要针对商务信息的一些特点和P2P及Web服务技术设计了一种方便的信息查询、聚集和管理的方法结构。商务信息尤其像产品信息相对与其他信息来说具有结构化、结构相对稳定
网格监控可以为网格系统中的其它应用提供与资源有关的重要性能数据,是网格系统进行性能调整和错误发现的依据,所以网格监控的研究具有重大的理论和现实意义。论文首先介绍了网
人脸识别具有自然、直观、安全、快捷等特点,已经成为最具发展潜力的生物特征识别技术之一,在安全系统,信用卡验证,视频会议,公安系统犯罪等方面的应用已经成为模式识别和人工智能
基于移动Agent的软件度量研究,是对基于传统软件开发的度量、基于对象的软件度量和基于Agent软件度量的发展。通过定义移动Agent的属性,采集数据,寻找影响软件质量的因素,以此提
随着通信和网络两大技术体系的迅速融合和移动通信技术的迅速发展,即时通信(InstantMessaging,简称IM)业务越来越被广泛的关注和应用,但在目前的IM市场,各家IM厂商之间的产品几乎
本文首先介绍了无线传感器网络和密钥管理的基本概念和特点;然后分析了无线传感器网络面临的安全攻击和WSN的安全目标;接着分析了WSN中影响密钥管理机制执行的约束因素;继而给
随着企业信息化不断深入,对于异构数据的集成的要求越来越迫切。异构数据集成问题是数据库领域的经典问题,现在随着XML技术的兴起,异构数据集成再次成为了研究的热点。 本文
当前,随着大量传统软件需要向面向对象平台上移植,基于面向对象技术的逆向工程研究成为关注的热点。这个方面的研究可以选择不同的输入源如源代码、数据模式和界面表单等。本文
内容中心网络以数据内容本身作为体系架构的中心,可以从根本上解决现今以内容分发和检索为主的网络需求和基于IP网络“主机——主机”的通信模式之间的不匹配。内容中心网络
定义了影响无线网络Qos的维度,描述了考虑Qos进行路由决策的问题,介绍了相应的背景知识,依据单跳/多跳,单通道/多通道和单路径/多路径对无线网络进行了分类,阐述了每一类网络中不