【摘 要】
:
随着互联网的快速发展,网络中涌现出大量的匿名文本,这些匿名文本中不乏充斥着虚假信息、诈骗信息、甚至是危害国家安全的谣言信息。特别地,暗网因其与生俱来隐匿性,已经成为不法分子犯罪的理想场所。文本作者识别技术可以较好的发现并追踪网络文本的作者,从而打击、预防网络犯罪,维护网络环境的健康安全。现有的文本作者识别技术针对网络文本进行作者识别,其准确率及可靠性较低,且在文本特征筛选过程中人工参与度较高。因此
论文部分内容阅读
随着互联网的快速发展,网络中涌现出大量的匿名文本,这些匿名文本中不乏充斥着虚假信息、诈骗信息、甚至是危害国家安全的谣言信息。特别地,暗网因其与生俱来隐匿性,已经成为不法分子犯罪的理想场所。文本作者识别技术可以较好的发现并追踪网络文本的作者,从而打击、预防网络犯罪,维护网络环境的健康安全。现有的文本作者识别技术针对网络文本进行作者识别,其准确率及可靠性较低,且在文本特征筛选过程中人工参与度较高。因此,本文针对网络文本数据采用深度学习及自然语言处理领域较先进的技术进行匿名文本作者身份识别研究,本文的工作内容包括如下三个方面:(1)针对网络文本作者识别效果较差的问题,提出了基于深度学习的作者识别模型。该模型通过Transformer-Encoder模型进行文本特征提取,不仅可以学习更为丰富的文本特征内容,而且还可以提高模型的并行效率,加快网络的训练速度。此外,为了克服卷积网络中池化操作导致文本特征缺失的问题,该模型引入胶囊网络通过动态路由机制聚合文本特征,从而尽最大程度地保留更多的文本特征。相比于其他的作者识别模型,该模型在作者识别任务的准确率、精确率、召回率、F1指标上均有较小的提升。(2)针对网络文本作者跟踪的需求,提出了基于孪生神经网络的作者匹配模型。该模型通过孪生神经网络权值共享的特点将输入文本内容映射到相同的高纬度特征空间,从而根据特征之间的相似度计算,达到文本作者匹配的目的。此外,为了获取更为全面的文本特征,提高文本作者匹配的准确率,在进行文本特征获取时,该模型将文本的深层特征及全局特征进行融合,从而基于孪生神经网络进行作者匹配。相比于其他的文本特征提取模型,该模型在作者匹配任务准确率上有较显著的提升。(3)针对本文提出的基于孪生神经网络的作者匹配模型,设计并实现网络文本作者跟踪应用系统,从时间与空间两个维度对网络中的文本作者进行识别与跟踪。该系统可以实现多种功能:包括文本作者相似度的计算、文本作者轨迹查询以及文本作者地理位置活跃频次查询等功能,并以可视化技术清晰、直观的呈现各种功能结果,便于用户的操作与信息的获取,从而高效的实现文本作者的跟踪。
其他文献
随着科技的发展,协同作战已经变成了现代军事战争中海陆空防御攻击的一个发展趋势。面对天地一体化的作战任务,协同导航系统作为协同系统中一个基本的保证,为空间信息协同作战提供了主要的技术支撑。为了保证协同导航系统的独立性,必须要在测距的基础上引入节点间相对角度的测量。由于协同导航系统中的各节点的搭载能力有限,所以搭载的天线尺寸不能太大。这时就需要对基于短基线的高精度测角技术进行研究,以保证协同系统内各节
汉字的生成技术自数字化以来就开展了广泛的研究。传统的汉字生成方法从汉字的结构出发,将其拆解为单位更小的笔画,再通过排列组合形成新的汉字。此方法片面的研究了汉字的组成结构,生成的汉字通常不够自然。随着深度学习的不断发展,逐步出现了通过构造深度学习模型来研究汉字的生成方法,这些方法取得了不错的进展。但是对于风格差异更大的手写汉字而言,不仅要保证生成汉字笔画结构的正确性与完整性,还要求准确地学习到手写汉
随着企业社会责任(Corporate Social Responsibility,以下简称CSR)研究领域的发展,对CSR可能产生的经济后果已经拓展到同样重要的经济研究课题——劳动投资效率(Labor Investment Efficiency)领域。在“CSR-代理冲突-劳动投资效率”的研究理论中,CSR可能通过影响代理冲突,从而对由代理冲突引起的低下劳动投资效率产生影响。具体来说,代理冲突可能
印刷标签作为商品的标识,对其外观和内容的展示有着重要意义。在印刷标签生产过程中,由于受到各种干扰因素,不可避免地会产生一些缺陷标签。传统的人眼观察剔除缺陷标签的方式效率低下且不稳定,故实现自动化的印刷标签缺陷检测具有重要的实用价值,本课题基于此,针对彩色印刷标签进行了质量缺陷检测系统的设计与实现,主要内容包括:(1)首先对印刷标签缺陷检测现状进行了调研分析,简明介绍了缺陷检测系统实现的难点,接着介
轻质高强结构功能一体化复合材料的应用范围和使用比例,是衡量未来飞行器先进性的重要指标之一。石墨烯和碳纳米管因其优异的力-热-电-磁等特性,作为一种极富潜力的树脂增强体,被广泛应用于新型多功能纳米树脂复合材料研制。3D编织复合材料是纺织复合材料的典型结构形式,其结构整体性好,能克服传统层合结构易分层的致命弱点,具有优异的综合力学性能。本研究采用石墨烯纳米片和碳纳米管作为纳米增强体,形成石墨烯纳米片/
近年来,不管是在现代军用还是民用领域中,无人机(Unmanned Aerial Vehicle,UAV)使用的卫星导航系统多是采用GPS(Global Position System)与INS(Inertial Navigation System)组合形式,这在全球导航卫星系统GNSS(Global Navigation Satellite System)中使用率是较高的,具备良好的自导性和抗干扰
自从计算机问世以来,如何更好的进行人机交互一直是人们关注的话题,对话系统能够让机器像人类一样使用自然语言与人类交流,任务型对话系统旨在帮助用户完成特定的任务。传统方法构造的对话系统难以在数据集匮乏的场景下具备良好的性能,无法适应对话场景变化且无法回答常见问题。任务型对话系统由于能够降低对人力的消耗受到越来越多领域的关注,因此面向领域的任务型对话系统设计与研究具有重要意义。本文的目标是设计并实现适用
随着互联网的高速发展,金融行业的业务模式也随之发生着改变。为了更好地满足年轻代的用户需求,传统金融行业巨头纷纷进军互联网投资理财领域,互联网催生了诸如东方财富、同花顺、雪球财经等互联网证券门户和社区。股民们倾向于在互联网证券社区表达自己对市场的观点,并通过各种互联网渠道搜索信息制定交易策略,产生了海量观点鲜明的文本数据。研究对金融文本数据的分析方法具有重要的商业价值。本文在研究金融文本分析方面做了
近年来,随着人工智能和计算机视觉的飞速发展,图像补全已成为重要的研究领域,被广泛应用于摄影、安防、医学等各个行业。传统的图像补全算法在实际应用中效果并不理想。随着近几年深度学习在图像处理领域不断取得显著成果,生成对抗网络(Generative Adversarial Networks,GAN)凭借强大的特征表达和学习能力逐渐替代了基于像素扩散和基于补丁块类的传统图像补全算法。本文分析国内外图像补全
滴滴等网约车已成为人们出行的主要方式之一,保障司乘安全、减少交通事故是所有网约车平台的核心关注点,疲劳驾驶、分心驾驶等异常驾驶行为是引发交通事故的重要因素。目前,网约车平台避免疲劳驾驶的解决方案主要是对驾驶员的驾驶时长计时,超过指定的时间后就停止给驾驶员派单。这种一刀切的解决方案,没有根据每个驾驶员的具体情况而制定不同的监管措施,而对于分心驾驶,此类平台目前未采取有效的措施进行监管。针对上述问题,