论文部分内容阅读
情绪在人类的决策、交互和认知过程中扮演着十分重要的角色,人们迫切希望通过技术手段来自动的、精准的识别人类的情绪,为人类做决策制定解决方案提供有效的支撑。近年来随着深度学习算法在图像、文本、语音等各个领域的成功应用,众多的科研人员也将这项技术应用到了情绪识别研究中。课堂作为一个重要的应用场景,研究者们也是迫切希望利用课堂场景下的数据通过机器来实现对师生情绪的自动识别。以课堂情绪来反映学情,辅助老师实施教学干预,也就是将学生的情绪转化为老师的决策建议,以帮助老师进行精准教学。对于教师而言,这将有助于教师进行课后反思,亦可作为教师教学水平的一项评估依据。此外,实现对课堂情绪的精准画像将有效促进对课堂的客观评价。针对目前的课堂情绪识别研究而言,首先相关研究比较少,部分课堂情绪识别研究是基于视觉或生理信号的,而视觉数据和生理信号的采集相对比较困难而且成本高昂;其次识别方法也更多的是基于统计理论的传统机器学习方法;最后数据模态的利用比较单一,由于情绪的复杂性所以目前使用单一模态来进行有效的情绪识别仍然是一项艰巨的任务。因为课堂教学过程中师生间的交互主要是话语交流,所以本研究旨在通过利用师生交流过程中的语音和语音中的文本来构建一个能在课堂场景下具有较高识别精度的语音和文本多模态融合的情绪识别模型。为开展基于语音和文本的课堂情绪识别研究,本文主要完成了以下工作和创新:(1)梳理了近年来国内外关于语音和文本的情绪识别研究。这其中包括情绪理论、数据集构建方法、情绪识别和多模态融合方法,为后续的研究提供理论基础。(2)针对语音和文本的课堂情绪识别任务设计了课堂情绪识别数据集。我们首先从一师一优课公共教育平台上筛选了部分来自同一地区、同一年级、同一学科的课堂教学视频,然后分离出语音并对语音做批量预处理,接着对于语音做端点检测并按端点切分音频为语音样本,然后调用百度语音识别API获得语音样本的文本内容,最后进行多人文本纠错和情绪标注,初步建立了含8000余条语音和文本数据的双模态课堂情绪识别数据集。(3)根据语音的不同特征设计了不同的语音情绪识别模型完成了对课堂语音的情绪识别研究。分别针对语音的MFCC、韵律和语谱图特征设计了基于时序结构和基于时空结构的课堂语音情绪识别模型,并在课堂情绪识别数据集上进行了实验。实验表明两种模型各有优势,其中融合了 MFCC和韵律特征的时序模型对中性情绪有最好的识别结果,而利用语谱图特征的时空模型对沉默类有最好的识别效果。(4)基于XLNet预训练模型完成了对课堂文本的情绪识别研究。首先着重阐述了中文分词和中文词表示这两个重要的文本预处理工作;然后介绍了最新的在多项NLP任务中有着最佳效果的XLNet模型,并基于XLNet模型实现了对课堂文本的情绪识别;接着对比分析了四种文本情绪识别模型,我们发现XLNet-L12模型相比原生循环网络模型约有7个百分点的提升;最后对了语音和文本的情绪识别结果,结果表明在整体上文本模态的情绪识别表现要优于语音模态,但从细分情绪类上来看它们又各有优势,这启发我们可以取长补短通过模态融合来寻求进一步的提升。(5)探究了在特征层融合策略下的多模态融合情绪识别方法并提出了一种改进的注意力机制融合方法。首先对比分析了三种多模态融合策略并选择了基于特征层融合的策略用于探究语音和文本融合的课堂情绪识别任务;然后设计了浅层和基于注意力机制的融合模型;最后针对注意力机制融合方法的缺陷,改进了注意力融合模型,提出了改进的注意力融合模型。实验表明,在公开数据集上浅层融合方法相比于其他研究还有差距,而改进的注意力融合方法则达到了最优表现;在课堂情绪识别数据集上浅层融合模型、注意力融合模型和改进的注意力融合模型的识别率依次增加,而且三种融合模型的识别效果都要优于单一模态,其中改进的注意力融合模型相比于语音模态有约11个百分点的提升,相比于文本模态有约3个百分点的提升,这体现出了多模态比单一模态在课堂情绪识别上更具有优势。