基于领域自适应的无标签不等长验证码破解

来源 :上海财经大学 | 被引量 : 0次 | 上传用户：yuxume

【摘要】

：

【作者】

：

王可

【机构】

：

上海财经大学

【出处】

：

上海财经大学

【发表日期】

：

2022年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

验证码是一种区分访问者是计算机还是人类的反图灵测试。现如今,很多网站设置验证码以防止恶意攻击。但是,验证码的应用亦有两面性,随着互联网的发展,有部分黑灰产业将平台从线下移至线上,通过线上充值交易等获得不法资金,这一类网站为了躲避网安部门的自动巡检,常常也会设置验证码机制,将充值账号隐藏在验证码之后,从而增加了网络巡检的成本。不过,这一类网站的运营成本较为低廉,所以通常都使用成本较低的文本验证码,这类验证码为了防止被轻易破解,通常都会加上噪声背景、干扰线等安全特征,文本字符本身也会经过一定的变形或旋转处理。如果可以高效破解这一类验证码,可以大大提高网络巡检的效率,对这些黑灰产业进行有效打击。目前的验证码破解方案主要有两点缺陷:（1）仅使用卷积网络提取特征并分类,将验证码识别问题看作为一个多标签的图像分类问题,这就要求提前确定输出位数。然而,本文对各大网站的验证码进行调研后发现,文本验证码的长度其实并不一致,从4位～9位不等,导致这些基于多分类思想的识别方案缺少泛化性;（2）网络训练时都需要大量有标签样本。验证码形成机制复杂、形式多样,为提高识别精度,就需要大量的有标签样本。然而,获取验证码标签的方式或使用验证码打标平台、或自己手动标注,使得获取标签的成本高昂、效率低下。本文针对已有方案的这两个缺陷,提出了一种更为通用的验证码破解方法。主要有三点贡献:（1）改进了识别网络结构,提出可基于卷积-循环神经网络来解决不定长验证码识别问题;（2）将基于自监督的域自适应方法应用到验证码识别上,在无需任何验证码标签的情况下也可以提高验证码的识别精度;（3）提出了一种基于领域自适应的验证码去噪方案。上述三点的具体工作如下:（一）为解决不定长验证码识别问题,本文使用了可以处理序列化文字的卷积-循环神经网络;该网络最后的输出使用CTC损失,从而可以解决不定长文本的对齐问题。由于本文使用的验证码数据无标签,所以本文首先使用公开数据集IIIT-5K的数据来训练该网络,并将训练好的模型直接用来预测验证码。结果表明,该方法虽然可以达到一定的破解精度,但对于个别网站的识别准确率为0。经调研,这是因为验证码的文字形态和公开数据集中的文字形态并不一致,网络从公开数据中学习到的特征并不能直接应用在验证码图片上。为了让网络同时提取到公开数据集（源域）和验证码网络（目标域）的特征,需要使得二者经过网络后输出的特征图分布尽可能一致。（二）由于验证码图片和真实图片并非来自同一分布,所以模型直接迁移的效果不佳。本文采用了自监督的方法,针对验证码特征构造了两个自监督任务:旋转和翻转,从而给无标签的验证码数据集制造了标签。接着,本文根据设计出的自监督任务改进了训练策略:一方面,本文使用公开数据集进行有监督任务的训练;另一方面,本文把卷积-循环神经网络的卷积网络部分单独拆分出来,将其视为特征提取器,给验证码数据和公开验证集数据分别分配了自监督学习任务之后,将构造出的新样本和自监督标签同时送入该卷积网络中。实验结果证明了,基于自监督的任务提升了卷积-循环神经网络在验证码数据集上的识别精度,对于识别率为0的验证码也成功将准确率提升到了9%。本文还追踪了两个数据集的输入在卷积网络上输出的分布变化,并验证了随着迭代次数的增加,二者在卷积网络的输出上趋于一致,说明基于自监督的方法,我们有效地提取了公开数据集和验证码中的空间不变特征。（三）针对验证码背景噪声问题,本文提出了一种基于域自适应思想的去噪方案。该方案将文本去噪视为图像语义分割问题,首先构造了一组具有噪音的图片和其对应的去除噪音的图片,使用U-Net计算语义分割损失;此外又增加了一个域迁移对抗损失,要求网络在准确区分出字符和噪声的同时,能够同时从源域和目标域中提取相同的特征。经过试验,经过去噪后,识别网络对于验证码的破解率进一步提高。综上所述,本文主要设计了一种更为通用的不等长验证码识别方案,不需要对验证码样本进行打标也可以达到一定的识别精度,从而大大节约了前续打标步骤的成本。

其他文献

历史类文本翻译中文化缺省的翻译补偿——以《萨拉米斯战役》（节选）的汉译为例

文化缺省意为省略作者及其意向读者共有的相关文化背景知识,是翻译中不可忽视的重要部分。通常,为了使行文简洁且提高交际效率,作者会省略与意向读者共有的文化背景知识。意向读者阅读特定的文化语境时,这些缺省信息可以被激活,从而使读者获得连贯的语义理解。然而,目的语读者无法调动语言之外的各种因素来帮助理解,因此无法形成语义连贯,从而影响了他们对异国文化的理解以及对译作的感受。因此,解决语言差异,尤其是文化差

学位

基于中国股票市场高频数据收益率与波动率之间的不对称关系研究

收益率和波动率之间的不对称性是股票收益的典型特征之一,这种不对称具体表现为股票收益率与波动率是负相关的。对于这种收益率与波动率的不对称现象提供一个令人信服的解释是相当具有挑战性的,并且,对这个不对称特性的解释一直存在着争论。本文详细介绍了关于收益率与波动率之间的不对称关系经典的两种解释:杠杆效应和波动反馈效应。第一个是杠杆效应,即资产价格的下降增加了金融杠杆和破产的可能性,使资产更具风险,从而增加

学位

变译理论指导下的Bruce Aylward记者会模拟交传实践报告

新闻发布会问答部分的交替传译是会议口译中的一个特殊部分,在语言的使用上有口语化、碎片化和随意化的特点。在口译过程中,提问者可能提前做好了准备,但是回答者必须临时组织自己的话语和想法。在这些问题和答案中,冗余、口误和逻辑歧义是不可避免的,这使语言的解码和编码成为口译员的一项艰巨的工作。通常在翻译实践中,译者首先要做的是过滤讲话内容,抓住关键信息,然后在目的语中传递出来,经常会有变译和转换。本模拟交传

学位

词、句、话语层视角下英汉翻译等值的实现——以《IBM传》（节选）的汉译为例

本报告旨在从词、句、话语层视角下探讨英汉翻译活动中如何实现翻译等值。在苏联学者巴尔胡达罗夫（L.S.Barkhudarov）提出的“六层次等值说”理论指导下,从词层、句层和话语层等值等方面探讨译者在翻译过程中如何进行词义的选择、如何恰当进行句子成分及语态的转换、应当采取何种翻译策略等,从而使译文尽可能达到和原作的等值,更加精准地道地传达原作意图和源语文化,希望为以后的翻译活动提供合理借鉴。本文研究

学位

莫言作品改编的电影在日本的传播

2012年10月,莫言获得诺贝尔文学奖,这是中国作家首次获得该奖项。从莫言初登文坛至今,其多部作品被改编成电影和电视剧,直接或间接地推动了莫言作品的海内外传播。日本是海外最早译介莫言作品的国家,他们对莫言作品的翻译出版可以追溯到上个世纪八十年代。而莫言在日本广受欢迎,与其作品影视化后传播到日本息息相关。迄今为止莫言文学作品中被改编成电影的共有五部。除《白棉花》外,其他四部都被译介到了日本。本研究拟

学位

浅谈小学班主任德育工作的几点思考

随着社会的不断发展,人们生活水平也在不断提高,对于学校教育教学的要求也在不断提高,学校教育的道德教育越来越被人们所重视,逐渐成为教育界关注的重点课题,引起了大家的广泛讨论。尤其是小学阶段,正是学生学习教育的启蒙阶段,这个阶段小学生年龄小,好奇心强,属于学生品德和习惯的形成阶段,在这个时期对学生进行道德教育必然会对学生的未来发展产生重要作用,因此班主任作为班级的领导,一定要加强对小学生的德育工作,实

期刊

基于图像语义分割的表格结构识别

随着信息技术的发展,无纸化的业务流程在机构中越来越流行,但在办理跨机构业务时,信息常通过纸质表单或扫描文件的方式进行传递,再由机构工作人员手工录入到内部信息化系统。这种人工进行的录入工作费时费力,且录入效率低。随着文档录入需求的日益增长,文档自动化录入的研究愈为重要。业务流程中最常见的信息结构为表格,表格的自动化录入包含文本识别和表格结构识别两个步骤,后者表格结构识别的目标是识别表格的布局结构,得

学位

在新时代新征程上奋力开创保密工作新局面

＜正＞中央保密委员会全体会议和全国保密工作会议召开后，各地区各部门高度重视，扎实开展会议精神的学习传达与贯彻落实，积极谋划部署工作任务，在新时代新征程上凝心聚力，奋力开创保密工作高质量发展的新局面。上海中央保密委员会全体会议和全国保密工作会议召开后，市委书记陈吉宁高度重视，立即作出批示，要求全市保密战线深入学习领会习近平总书记关于保密工作的重要指示批示精神，全面贯彻落实党中央决策部署。市委常委、

期刊

协作策略阅读对初中生英语阅读能力的影响研究

初中英语阅读是英语学习过程中的一个重要环节,这个阶段是形成语感和英语背景文化关联的初步阶段和关键阶段。然而,现阶段初中生英语阅读存在词汇量欠缺、缺乏阅读兴趣、缺乏良好的阅读习惯、缺乏阅读技巧和课后阅读量严重缺乏等问题。初中英语教师的阅读教学也存在一些弊病,如,教学目标把握不当;缺乏一定的阅读教学策略与方法;提问层次单薄,思维训练不到位、忽视小组合作等。以上问题不仅阻碍了教师自身的发展,也使学生的英

学位

关于中日方位词“中”的研究

与空间有关的语言表达是认知语言学的重要研究对象。日语当中指示静态空间关系的语言表达属于“空间相对名词”的词类,与中文的“方位词”相对应。关于日语空间相对名词的研究以“上/下”“前/后”居多,而针对“中”的研究则尚不充分。然而中文母语者在学习日语时对于“中”的误用,却是一个经常被关注的问题,因此有必要探讨避免母语负迁移的策略。空间相对名词“中”属于中日同形词,阐明其背后潜藏的认知机理有助于解决中文母

学位

基于领域自适应的无标签不等长验证码破解

其他学术论文