基于文本的聊天对象身份验证

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:stoneinhigh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,它已经成为我们生活中不可或缺的一部分,在它带给我们极大便利的同时,网络安全也越来越受到人们的关注。即时通讯,作为网络的一个重要分支,也自然成为众多黑客和不法分子攻击和利用的对象。在我们利用即时通讯工具进行聊天的过程中,由于对方身份的模糊性,使得一些有不良企图的人有了可乘之机,通过窃取或者冒用别人的账号发布一些恶意链接或者虚假欺诈信息以获取非法利益。传统的对于作者身份验证问题的研究适合于解决有较长文本作为训练数据的问题,比如著作权归属问题或者作弊系统的开发;但是,由于我们聊天时的消息文本一般比较短,而且对于中文语料和英文语料在处理上也存在很大的不同,使得我们很难将以前的方法直接应用到这个问题。本课题借鉴了处理作者身份识别问题的一些方法,同时在以下方面对其提出改进:1.提取虚词。我们采用对比提取的方式,有针对性的提取出那些有别于其他人的特征;另外,我们发现很多针对即时通信领域的特定的一些特征对分类也有积极的影响,比如表情符号,网络流行语等;2.处理中文语料。N-Gram算法在处理英文语料的时候被频繁使用,但如果我们直接将其应用到中文语料,则提取的特征值过于稀疏,对分类帮助不大,所以我们考虑将汉字转化成其他形式,以解决特征过于稀疏的问题;3.分类。大量的文献已经证实SVM对于处理作者身份识别这种多分类问题时效果最好,而且作者身份验证的问题时许多文献沿用了SVM作为分类器,本课题中,我们改进了后向传播算法以使其能够处理单分类问题;
其他文献
目前,国内仪表校准和检定工作主要还是由人工完成的,这种人工读取数据的方式,存在着工作效率低,检测精度难以保证等缺陷。如何解决这些问题已越来越引起仪表生产厂商和计量检测部
软件测试是软件开发过程中控制软件质量必不可少的一种手段,随着新的开发语言和应用平台的不断出现,软件质量和可靠性保证面临着新的挑战。目前,针对面向对象软件的各种测试
早在公元前,利用脉象诊断人体疾病的脉诊就已经在许多传统医学中得到了详细的描述和记载,如中国医学(2500BC)、印度Ayurveda医学(1600BC)等等,并且有着广泛的应用。  然而,由于
唇读、唇动技术作为一种新兴的智能人机交互技术,近年来正逐渐走向实用化。对唇动技术的研究,主要集中在唇动身份识别和说话人内容识别(即,唇读)两大应用上。本文主要致力于
对于基于Web的工业监控应用来说,嵌入式浏览器是一个重要的环节,尤其是在数控领域。随着嵌入式系统和计算机网络技术的快速发展,应用于数控领域的嵌入式浏览器技术也必须不断
近年来,随着Internet的迅速发展和应用需求的日益增长,人们面临着无处不在的海量信息资源,却无法获得需要的有效资源。于是,网格计算的概念也就就应运而生了。网格构建在现有
在进入信息时代的当今社会,人们被各种各样的信息所包围,股票行情、公司管理、客户关系、天气预报、体育新闻…,信息的即时获取是信息综合开发和利用的一项重要工作。信息的
近年来,由于人类生存环境的恶化,肺癌等肺部疾病已经成为导致人类死亡、影响人类生活质量的主要原因之一。对于肺癌病人来说,早期检测可以使病人及时进行治疗,产生良好的预后
在“文景转换”系统中,要针对输入文本生成相应的三维动画,就必须首先运用自然语言处理技术,全面地理解文章中的场景信息。为此,我们提出了面向“文景转换”系统的场景识别的
近年来,随着统计机器学习技术的不断发展,对句子进行语义分析逐渐受到重视起来。语义角色标注(Semantic Role Labeling, SRL)是浅层语义分析的一种可行方案,并具有广阔的应用