【摘 要】
:
社交媒体上的网络欺凌通常影响恶劣,有效检测网络欺凌有重要的社会和学术意义。由于网络文本为用户生成内容,包含拼写错误、语法错误等噪声,学习欺凌特征的难度很大,检测网络欺凌一直是未能得到很好解决的难题。本文以提高网络欺凌检测准确度为目标,使用神经网络模型,学习字符组合特征和语义特征,并引入捷径策略(Shortcuts)融合上述特征,有效降低了用户生成内容中噪声的干扰,提高了模型学习欺凌特征的能力。本文
论文部分内容阅读
社交媒体上的网络欺凌通常影响恶劣,有效检测网络欺凌有重要的社会和学术意义。由于网络文本为用户生成内容,包含拼写错误、语法错误等噪声,学习欺凌特征的难度很大,检测网络欺凌一直是未能得到很好解决的难题。本文以提高网络欺凌检测准确度为目标,使用神经网络模型,学习字符组合特征和语义特征,并引入捷径策略(Shortcuts)融合上述特征,有效降低了用户生成内容中噪声的干扰,提高了模型学习欺凌特征的能力。本文主要工作和创新点如下:(1)为了对欺凌检测任务提供中文数据支持,本文构建了开源的微博数据集,使检测模型可从现实场景中学习中文欺凌特征。数据集中数据采集于微博用户对公众人物的公开评论,并对数据标签进行人工标注,以使得数据集适用于有监督的文本分类任务。(2)为了学习欺凌特征,本文提出了Char-CNNS模型。针对用户生成内容中的噪声问题,模型学习字符组合特征和语义特征,并引入捷径策略融合不同神经网络层次的特征,以降低噪声干扰。在微博、推特数据集上进行了欺凌检测实验,实验结果表明,Char-CNNS模型在精确度(P)、召回率(R)、调和平均值(F)三项指标上优于TF-IDF+SVM、N-gram+LR、CNN等模型。(3)为了降低数据类别不平衡对欺凌检测的干扰,本文结合代价敏感方法,通过引入焦点损失函数(Focal Loss)提高了模型的鲁棒性。实验结果表明,在五种不同类别比例(正负例比例分别为1:1、1:2、1:5、1:10和1:20)的数据集下,使用焦点损失函数有更稳定的表现。与交叉熵损失函数相比,调和平均值分别提高了2.7%、2.9%、4.5%、3.4%、8.3%。
其他文献
铀在环境中迁移和生态毒性大小与其在不同土壤或水生环境条件下的具体化学形态以及与环境介质的相互作用强弱紧密相关。因此,本文选取从放射性污染土壤中分离的两种细菌和一种人工合成矿物为实验对象:Pantoea sp.TW18、S.epidermidis以及铝代针铁矿,采用静态批次实验、现代仪器分析等研究技术手段,探究不同水环境条下U(Ⅵ)在细菌、矿物等单一组分和细菌-矿物共存体系下的吸附行为和对应的微观机
无轴承异步电机(Bearingless Induction Motor,BIM)将磁轴承与异步电机的功能和优势相结合,能在高速、洁净、腐蚀、真空等特殊环境下实现自悬浮运行。BIM具备结构简单、无需
目的:本课题通过检测急性胆囊炎患者血液中酸性糖蛋白(α1-酸性糖蛋白)、CRP、C3补体以及前白蛋白(PA)水平差异,分析四者在急性胆囊炎患者中的临床应用价值及其相关性分析。
目的:本论文旨在探究番荔枝多糖ASPA80及ASPA80-1对小鼠RAW264.7巨噬细胞和树突状细胞免疫功能的影响及作用机制。方法:1.倒置显微镜观察ASPA80及ASPA80-1对RAW264.7巨噬细胞
在修补工程中,新旧混凝土界面是新旧混凝土组合结构的薄弱区域,修补材料早期约束收缩会在界面产生对界面性能不利的应力场,这会影响到结构后期的使用及寿命。超高性能混凝土(
椭圆型及抛物型的偏微分方程于微分几何及物理学的成功应用启发了学者们对双曲型偏微分方程理论在微分几何中的探究.其中,双曲平均曲率流已被广泛地应用到晶体演化、生物医学
化石燃料过度开发引起的温室效应和能源短缺问题限制着人类社会的发展,CO2的捕获和封存技术是短时间内解决温室效应最为有效的方法,而寻找可再生的清洁能源代替不可再生化石
随着我国公共图书馆规模的持续扩展与业务量的逐步增多,图书馆需要更多的员工来维持其正常运行,但是有限的事业单位编制岗并不足以保证图书馆的正常有序运行,所以在实际过程
随着我国汽车保有量不断飙升,停车难已成为当今城市发展中的一大痛点。为缓解停车缺口,大量停车场建造工程相继展开。这些模式化的、单一目的性的停车场非但没有从根上解决停
三峡水库自2003年开始蓄水以来,由于库水位的波动的影响,涉水岸坡土体内部的细颗粒会随着渗流作用而被侵蚀、迁移,同时岸坡土体的孔隙率、渗透系数等物理参数会发生相应变化,