【摘 要】
:
抑郁症对人类的身心健康造成极大伤害,甚至危害社会。因此,尽早发现抑郁症早期症状并及时治疗极为重要。抑郁症的早期状态称为抑郁倾向。与大多数正常人一样,抑郁倾向患者会在社交媒体平台上分享自己的故事,表达情绪,以及寻求帮助和支持。因此,海量的社交平台数据为我们挖掘抑郁倾向的特征和发现抑郁倾向患者提供了可能。但是,如何更好地利用社交媒体平台数据,挖掘能够识别用户抑郁倾向的重要特征成为一项难题。尽管目前已有
论文部分内容阅读
抑郁症对人类的身心健康造成极大伤害,甚至危害社会。因此,尽早发现抑郁症早期症状并及时治疗极为重要。抑郁症的早期状态称为抑郁倾向。与大多数正常人一样,抑郁倾向患者会在社交媒体平台上分享自己的故事,表达情绪,以及寻求帮助和支持。因此,海量的社交平台数据为我们挖掘抑郁倾向的特征和发现抑郁倾向患者提供了可能。但是,如何更好地利用社交媒体平台数据,挖掘能够识别用户抑郁倾向的重要特征成为一项难题。尽管目前已有大量的基于文本的抑郁倾向检测方法,但是检测结果并不令人满意。首先,用于抑郁倾向挖掘的文本数据特征不够丰富,没有充分利用文本的多模态特征,存在语义信息缺失的问题;其次,缺乏对抑郁倾向检测起关键作用的单词或句子的关注,没有对重要特征进行重点学习;最后,目前大多数文本挖掘方法没有充分挖掘文本的句法结构特征,无法解决社交平台上文本中广泛存在的单词歧义问题,严重地影响了抑郁倾向检测效果。针对上述问题,本论文分析研究了社交媒体文本数据的特点、现有的文本挖掘方法以及抑郁倾向检测方法,提出了一系列基于文本预训练模型的抑郁倾向检测方法。本论文的主要贡献如下:(1)提出了基于多模态特征和文本预训练的抑郁倾向检测方法(MTDD),以解决文本数据的特征表示不够丰富,文本语义信息缺失,以致抑郁倾向检测效果不佳的问题。首先,MTDD模型是基于深度神经网络的混合模型,结合了卷积神经网络(Convolutional Neural Network,CNN)和双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi LSTM)网络,避免了抑郁倾向识别的单一模型存在的泛化能力不强问题;其次,MTDD模型基于文本的多模态特征进行向量表示学习,包括文本特征、语义特征和领域知识,使得模型更加健壮。(2)提出了基于嵌入语言模型、分层注意力网络和文本预训练的抑郁倾向检测方法(E-HAN),以解决对抑郁倾向检测起关键作用的单词或句子关注不足,没有对重要特征进行重点学习的问题。首先,利用预训练模型和嵌入语言模型(Embedding from Language Models,ELMO)获取词嵌入,并融合单词的情感特征及词性特征,组成词的多粒度特征,获得丰富的词特征表示;其次,从单词级和句子级分别进行特征提取,并引入注意力机制。在捕获单词和句子特征的同时,赋予其不同的权重,突出重要特征信息,提高模型的检测性能。(3)提出了基于文本预训练和依存句法分析的抑郁倾向检测方法(PMDT),以解决单词语义歧义、句法结构特征挖掘不充分的问题。首先,提出分段思想,将长文本分成若干短文本,每段短文本的词嵌入向量加权求平均得到整个长文本的特征向量表示;其次,根据依存句法分析结果获得句子中各个成分之间的二元依存关系,构建依存关系矩阵,利用句法信息构建每个单词的特征表示,并通过图卷积网络(Graph Convolution Network,GCN)学习单词之间的关系特征;再次,融合BERT(Bidirectional Encoder Representation from Transformers)词嵌入特征及句子语法结构特征作为文本的特征表示,结合双层递归神经网络(Bidirectional Recurrent Neural Network,Bi RNN)模型提取特征并输出预测结果。在多个公开数据集进行了大量实验,并使用多项指标评价论文工作的预测性能。结果表明,本论文提出的三种方法具有更优的性能,检测结果优于目前主流的基于文本的抑郁倾向检测方法。
其他文献
The existence of deep learning’s "black box" makes it difficult to understand how the algorithms analyze patterns and make image-level predictions.A representation of the pixels contributing the most
由于环境光线昏暗或者设备自身问题,会导致获取的图像亮度较低,不仅影响人类视觉体验,还会制约以高质量图像为输入的计算机视觉应用性能,如目标检测、人脸识别等。与一般暗光环境下低照度图像增强研究相比,实现在复杂光照环境下低照度图像增强研究,要在考虑平衡不均匀光照问题的同时,还要考虑图像清晰度、噪声干扰等问题,这是具有挑战的。本文将对目前的低照度图像增强方法进行分析,并提出相关的改进方法。本文具体研究内容
在互联网和信息科技高速发展的今天,人们已经能够随时凭借各类社交网络平台和电子商务平台发布自己的观点和想法。这使得互联网中涌现出海量的文本数据,这些评论文本中大都包含着情感信息,分析文本中蕴含的情感并提取出其中有价值的信息对于企业、政府乃至社会都有着重大的研究价值。基于此,文本情感分析成为了最受学者们关注的领域之一。传统的情感分析任务是在文档或句子级别上进行的,通常只能粗糙地表达出一个整体的情感极性
随着影视行业的发展与渲染技术的进步,高质量的作品也大量涌现。画面是检验一部好作品的重要依据,而这些画质背后是各种渲染技术的支撑。渲染就是通过计算机对现实世界进行模拟,再用算法把场景中的模型、材质和灯光绘制成图片或者视频。在绘制一些比较复杂的场景时,由于光线在场景中传播的递归性,一些渲染算法在绘制的过程中会有较大的时间代价或者偏差。存在于现实世界中的云、烟雾、蒸汽等半透明状的物质在图形绘制领域一般被
在许多实际应用的领域中,许多过程都可以用正系统来建模。正系统意味着只要初始状态和输入是正的,则输出和状态变量总是非负的。当正系统具有一定的切换规则并且系统的动力学在不同的时间间隔内被不同的正子系统控制时,该系统被称为切换正系统。切换正系统在网络拥塞控制、信息科学、医学和神经网络等领域都发挥着极其重要的作用,因此,研究切换正系统是非常有益的。但是同样也会遇到挑战,当切换后的正系统遇到脉冲时,系统的状
当前我国汽车保有量大,停车难成为急需破解的民生问题。随着大数据的产生与不断发展,建立智慧停车系统成为解决传统停车问题的有效手段。而县城是我国城镇体系的重要组成部分,县城停车问题又具有一定的独特性,文章立足于县城停车现状,针对县城停车特有问题,以温州市苍南县城新区为例,研究县城智慧停车系统建设方案,因地制宜选取技术手段并配套完善的管理制度与保障体系,缓解县城交通拥堵,提升停车位资源利用率,推进县城数
癌症亚型的识别对个性化医疗的应用具有重要意义。它致力于使用无监督聚类方法将癌症患者划分为不同的亚型,并为后续的治疗方案提供有价值的参考。近年来,随着测序技术的快速发展,其产生的丰富的多组学数据为在整体水平上发现癌症亚型带来了前所未有的机遇。然而,由于测序技术的限制,组学数据中往往包含大量的噪声。此外,尽管测序成本在不断下降,但仍然难以覆盖大量的样本,这使得目前的组学数据大都呈现出高维小样本特点,并
跨模态由文本生成图像是大数据人工智能领域的重要研究课题,其发展推动了跨视觉和语言的多模态学习和推理的研究进程,是近年来最活跃的研究领域之一,在诸多行业有着广泛应用,如艺术生成、游戏引擎和计算机辅助设计等。根据自然语言描述生成与之语义匹配的图像是一个复杂的计算机视觉和机器学习问题,近年来取得了很大的进展。然而,目前大多数由生成对抗网络辅以语义约束的图像生成网络仅提高了图像的视觉真实性和语义一致性,而
目前的医疗影像任务中,磁共振(Magnetic Resonance,MR)图像的获取存在价格昂贵和耗时长的问题,需要借助技术手段获取多对比度MR图像,如今通过深度学习算法研究磁共振图像的合成以提高诊断效率成为一个炙手可热的话题。随着生成对抗网络(GAN)在近年来的图像处理领域中发挥了重要作用,本文主要将结合生成对抗的方法研究不同对比度磁共振图像的合成。现有的一对一MR图像合成方法中,多数只关注图像
科技与信息化发展致使数据存储量呈“爆炸式”发展,为了解决信息过载问题,推荐系统应运而生。如今,推荐系统被广泛应用到各类电子商务领域及线上购物领域,在提高网站商品转化率、用户选择效率及市场公平性等方面具有重要作用。但是由于推荐系统的脆弱性,部分不法分子在利益驱使下对推荐系统进行有目的的攻击,以使得推荐系统的推荐结果产生偏移。因此,为保障推荐系统的推荐质量与用户对推荐系统的信任度,针对攻击环境下的推荐