【摘 要】
:
随着社交网络平台的普及,网络用户得以在社交平台上浏览感兴趣的问题,并附上与自己的看法或立场相关的主观性评论。对这些评论数据进行分析,可以了解和引导社交平台上人们舆论发展的趋势,具有重要的研究价值和产业应用前景。问答立场检测目的是识别用户回答对问题中观点所持有的立场倾向,即支持、中立和反对。现有的问答立场检测方法主要包括基于机器学习的方法和基于深度学习的方法。基于机器学习的方法重点在于人工特征构造上
【基金项目】
:
《社交媒体中文本情感语义计算理论和方法》(国家自然科学基金重点项目,61632011); 《面向社交媒体热点话题的论辩分析研究》(国家自然科学基金面上项目,61876053); 《社交媒体大数据智能理解与预测关键技术研究》(深圳市基础研究学科布局项目,JCYJ20180507183527919);
论文部分内容阅读
随着社交网络平台的普及,网络用户得以在社交平台上浏览感兴趣的问题,并附上与自己的看法或立场相关的主观性评论。对这些评论数据进行分析,可以了解和引导社交平台上人们舆论发展的趋势,具有重要的研究价值和产业应用前景。问答立场检测目的是识别用户回答对问题中观点所持有的立场倾向,即支持、中立和反对。现有的问答立场检测方法主要包括基于机器学习的方法和基于深度学习的方法。基于机器学习的方法重点在于人工特征构造上,需要消耗较多人力;基于深度学习的方法基于端到端的特性避免了繁琐的特征工程,但现有工作忽略了许多与问答依赖相关的信息,导致模型无法有效理解和利用问答文本中深层次的语义交互表示。此外,现有方法也受到问答标注资源规模小和单一立场监督信号对模型参数学习能力有限的制约。针对这些问题,本文分别从利用问答文本中深层次语义交互表示和挖掘问答文本数据自身所蕴含的深层次通用信息这两个角度,研究问答立场检测方法。主要研究内容包括:为了更好地学习问答文本中立场相关的深层次语义交互表示,本文首先提出一种基于循环交互注意力的问答立场检测方法。该方法通过结合基于问题的回答注意力模型和基于回答的问题注意力模型来增强问答文本间的语义依赖关系表示。在此基础上,引入循环迭代网络强化每一次问答理解后的立场表示,突出问答文本中与立场相关的关键词信息。此外,采用问题陈述化的策略来改善问题文本很难有效传递提问者本身期望立场信息的不足。在中文社交问答数据集上的实验结果显示,基于循环交互注意力的方法相比于基线方法有明显的提升,在宏平均F1指标上提升了0.85%,超过了现有最优方法。考虑到现有问答文本语料规模较小,以及单一有监督信号导致模型容易出现过拟合等问题,本文提出了一种基于多任务对比学习的问答立场检测方法。该方法首先基于数据本身性质,通过数据增强技术为模型训练引入额外的问答一致性标签(问答独立/问答依赖)。为克服问答文本语料规模不足的问题,该方法引入有监督对比学习的方法,通过分析数据自身蕴含的深层次信息,提升问答一致性和立场约束下的数据特征表示。最后,通过多任务联合学习的方式从对比学习和立场分析任务中学习到更加通用的问答立场特征表示,以提高问答立场检测性能。实验结果表明,相比于现有方法,该方法在宏平均F1指标进一步提升了3.47%,达到了目前已知的最好性能。
其他文献
目的基于医学生童年期不良经历(Adverse childhood experiences,ACEs)暴露类型和时相探索ACEs暴露模式,分析ACEs暴露模式与医学生抑郁、焦虑症状发展轨迹的关联。方法以安徽省两所医学专科学校大一学生为调查对象,2019年11月-12月进行基线调查,之后每半年进行一次随访,共随访两次,收集有效问卷3662份。使用儿童期虐待问卷、家庭功能不全问卷、WHO社区暴力与同伴欺
目的依托出生队列,分析孕早期妊娠相关焦虑(pregnancy-related anxiety,PrA)对3~7岁儿童饮食行为的影响,并探讨3~7岁儿童近半年情绪和行为问题在其中的作用。方法2008年10月至2010年10月在安徽省马鞍山市妇幼保健院招募孕早期建档并同意加入中国安徽出生队列的孕妇,随访至子代学龄前期。采用自编《孕产期母婴健康记录表一》在孕早期收集孕妇及其丈夫人口学特征和孕期等相关信息
目的评估亲子分离经历对学龄前儿童情绪与认知发育影响的敏感期和累积效应,探索端粒长度在亲子分离经历与学龄前儿童情绪与认知发育关联中的作用,为预防早期亲子分离带来的健康危害提供理论指导和干预框架。方法于2021年5月采用整群抽样方法招募芜湖市南陵县9所幼儿园2729名学龄前儿童,其中2447名儿童(1266名男童,占比51.7%)有完整问卷信息,平均年龄为(4.88±0.96)岁。采用父母问卷(电子问
目的探讨母体孕早、中、晚期及脐血血清中7种炎症因子浓度与学龄前儿童智力发育水平之间的关联,揭示关联的敏感期及其性别差异,为预防儿童智力发育损伤和发育起源性疾病的发生提供理论依据。方法本研究依托马鞍山优生优育队列(MABC),最终纳入1 641对母子对进行分析。在母亲孕早、中及晚期产检时采集空腹外周静脉血,并在分娩时采集脐血,使用Luminex液相悬浮蛋白技术检测样本血清中7种炎症因子浓度,包括干扰
购物小票票据是线下消费过程由商户提供给消费者留存的购物凭证。由于线下零售销售系统的独立性,海量线下消费数据被不同品牌、商铺形成的“信息孤岛”所隔离。在此背景下,对购物小票票据进行数字化信息结构抽取可以为智能零售提供针对商品运营和供应链优化的精准数据分析。传统光学字符识别(Optical Character Recognition,OCR)系统在扫描文档图像的文本检测和识别任务上表现优秀。但是,由于
中长期的天气预报主要是指两小时以上的天气预报,其在灾害预警、降水估计、农业灌溉和交通规划等领域都有着重要的应用价值。而中长期的天气预报主要依赖于卫星云图预测任务,它是时空序列预测的一种应用场景。但由于卫星云图序列运动规律计算困难且预测时间长,该预测任务具有极大的困难与挑战。传统的光流法和交叉相关法都是建立在理想的条件下,对卫星云图的复杂运动系统难以预测。而近年来基于深度学习的时空序列预测算法在处理
近年来,微软小冰、天猫精灵等聊天机器人的研究与运用得到快速发展,并开始扮演着重要的角色。除了进行正常的自然语言理解与生成外,拥有情感理解与同理心对话能力是聊天机器人的重要特征。合理有效的同理心回复可以带来更好的用户体验。现有的同理心对话方法主要采用多任务学习框架,在情感分类的同时进行回复生成,取得了不错的效果,但仍存在一些问题。一方面现有方法通常只利用了部分情感信息,却忽视了其他与对话相关的状态信
近两年,随着新冠肺炎防疫逐渐常态化、医疗资源短缺与地区不平衡现象愈发突出,线上问诊研究逐渐成为热点。医院内医患问诊对话文本蕴含大量诊断指导信息,如何挖掘问诊对话数据中的逻辑,并以此实现对话自动诊断是一个具有科学研究价值和实际应用场景的研究方向。当前对话策略研究将患者的症状、检查信息标准化,和疾病信息共同构成医生的动作集合,将整个对话过程建模为序列决策过程,使用强化学习来模拟医生诊断过程。这种建模方
目的本研究旨在评价围产期双酚AF(bisphenol AF,BPAF)暴露(0、0.34、3.4和34 mg/kg/bw/day,对应于对照组、低、中、高剂量组)可能会导致的成年小鼠后代认知功能的影响,同时通过氧化应激和突触可塑性蛋白表达水平的变化探究其是否与成年子代认知功能的影响相关,探讨其简要机制。还探讨了海马雌激素受体(estrogen receptors,ERs)的改变,以解释低、中剂量B
目的本研究基于合肥市母婴健康出生队列(MIH-Hefei),分析妊娠期糖尿病(Gestational diabetes mellitus,GDM)的诊断时间与胎儿宫内生长、新生儿出生形态和婴儿体质指数(BMI,Body mass index)生长轨迹变化的关系,并进一步探讨孕母的孕前期体重过度增加和炎症水平在上述关联中的作用。方法2015年3月至2020年12月,在合肥市三家医院共招募定期产检的孕