【摘 要】
:
随着人工智能和金融证券市场的迅速发展,金融领域智能化研究受到越来越多研究者的关注,但面向用户投资历史回放阶段的智能化研究较少。许多没有证券投资经验的新用户,从复杂的历史投资数据中分析典型的投资案例是繁琐困难的。因此,通过智能化点评系统分析用户的历史投资数据并生成对用户投资行为的点评报告,能够帮助投资者总结经验教训,提高效率,从而更好的理性投资。本文提出面向用户操盘回放的自然语言点评任务,即依据用户
【基金项目】
:
国家青年科学基金项目《复杂约束条件下特定领域的文本自动生成方法》;
论文部分内容阅读
随着人工智能和金融证券市场的迅速发展,金融领域智能化研究受到越来越多研究者的关注,但面向用户投资历史回放阶段的智能化研究较少。许多没有证券投资经验的新用户,从复杂的历史投资数据中分析典型的投资案例是繁琐困难的。因此,通过智能化点评系统分析用户的历史投资数据并生成对用户投资行为的点评报告,能够帮助投资者总结经验教训,提高效率,从而更好的理性投资。本文提出面向用户操盘回放的自然语言点评任务,即依据用户特定时间段内的投资行为数据生成点评报告。本质上,该任务可退化为基于时序投资数据的文本生成任务。与主流的数据到文本生成任务不同的是,操盘回放场景下点评任务的输入数据和输出文本都具备时序关联的特点。该任务主要面临两个挑战:在数据层面,由于金融用户投资数据的隐私性,任务相关的金融标注数据较少,并且根据用户的历史投资数据构造相对应的点评文本需花费大量的人力、物力和时间;在技术层面,如何对复杂且时序变化的投资数据进行建模并生成与客观事实相一致的文本是构建智能点评系统最大的技术难点。为解决用户投资行为数据集缺失问题,本文爬取海知平台活跃用户一个月的模拟投资数据,让经过智能证券投资课程培训的人员依据专家既定的点评标准进行人工标注,最终得到一个小样本的基于用户投资行为数据的中文自然语言点评数据集。为在小样本数据集基础上构建智能的点评系统,本文首先依据专家既定的点评标准及用户投资过程中的重要信息搭建了点评系统,它采用重要信息排序与模板槽位填充相结合的生成方法。其次,采用迁移学习方式,本文将自主预训练的大规模中文序列到序列的生成模型C-BART在点评任务上迁移微调。为了能够准确捕捉投资数据的重要信息,本文将规则点评系统生成的非结构化文本和结构化投资数据相结合,提出了融合多方面异质信息的规则文本增强的点评网络。此外,为了让模型能够充分捕捉到结构化投资数据的重要特征,本文也提出了两种弱监督标签数据分阶段微调大规模预训练模型的训练方法。综上所述,针对面向用户操盘回放的自然语言点评任务的两个挑战,本文构建了人工标注的点评数据集,并研究了小样本场景下结构化金融投资数据到中文文本的生成方法。通过实验分析,本文提出的基于规则的重要信息排序点评方法性能较好,规则文本增强的点评网络的性能明显优于其他基准模型且在自动评价指标ROUGE-1上提升了2.0个点。
其他文献
X光胸片是应对肺部区域疾病最常用的影像学检查方式之一,在其基础之上进行准确的肺部区域分割有着十分重要的意义。其分割结果既可以提供肺部区域的空间信息,辅助医生对于肺部疾病的诊断,也可以去除X光胸片中非肺部区域,避免其对于图像处理和诊断分析的影响。本文主要致力于基于X胸片的肺部区域分割方法的研究,针对已有工作存在的问题和不足,提出了三种X胸片的肺部区域分割方法。具体内容如下:针对分割结果不准确和不符合
背景:精神分裂症患者心脑血管疾病的发病率显著高于健康人群,这是导致该病高致残率、高死亡率最主要的原因之一。血脂异常会增加多种心脑血管疾病发生和发展的风险,细颗粒物(particulate matter with an aerodynamic diameter≤2.5μm,PM2.5)与血脂水平变化之间的关联已有报道,而专病人群对于环境危险因素可能更加易感。本研究基于社区的慢性稳定期精神分裂症患者开
脑肿瘤是生长在大脑里的不正常细胞群,对人们的生命健康造成严重威胁。将肿瘤区域正确划分出来是脑肿瘤治疗和诊断中不可缺少的一步。临床通过核磁共振成像(Magnetic Resonance Imaging,MRI)获取包含不同信息的多模态MRI脑部图像用于颅内结构的观测。现有的方法主要提取MRI图像的多模态混合信息或单一模态独立信息,缺乏对混合信息和独立信息的结合。此外脑肿瘤分割任务中的目标尺寸不一致问
恶意代码的检测一直是网络空间安全中最重要的研究课题之一,近年来,随着机器学习及深度学习技术的发展,深度神经网络模型已经逐渐应用于恶意代码检测,并在应用中取得了不错的效果。然而,最近的研究表明,深度学习模型自身存在不安全因素,容易遭受对抗样本攻击。在不改变恶意代码原有功能的前提下,攻击者通过对恶意代码做少量修改,可以误导恶意代码检测器做出错误的决策,造成恶意代码的漏报。为此,本文从攻防两个角度,研究
事件因果推理是人工智能实现从感知到认知的核心问题之一,具有重要的理论研究价值和广泛的应用场景。现有的文本中事件因果关系识别方法往往注重于挖掘输入文本中的序列特征,但忽略了事件间的结构联系,难以建模远距离事件间的因果联系;同时,现有的事件因果识别方法主要聚焦于事件实例层级,存在预测结果不一致的问题,或需要额外的约束解决冲突,导致模型的复杂度较高。针对上述问题,本文结合了依存句法树信息和注意力机制,增
目的本研究在探讨儿童虐待与中小学生校园欺凌受害的关系的基础上,采用结构方程模型(Structural Equation Modeling,SEM),探讨家庭功能、抗逆力和焦虑在其中的独立中介作用及链式中介作用,并进一步探讨特定类型的儿童虐待对校园欺凌受害的影响,以及儿童虐待对特定类型的校园欺凌的影响,并检验中介效应的性别差异。方法采用横断面调查方法,于2020年10月至12月调查了中国安徽省部分中
近年来,互联网推动了在线教育的快速发展,语音合成技术成为在线教育辅助教师教学的重要技术手段之一,就数学教学而言,为了合成数学公式的语音,首先需要将数学公式转换成自然语言拼读文本,即数学公式的自然语言拼读文本生成。目前针对这一问题的研究工作较少,为推动在线数学教育发展,本文针对如何将La Te X格式的数学公式转换为自然语言拼读文本这一问题开展了研究,并提出了使用文本生成技术来完成转换的有效解决方案
研究背景系统性红斑狼疮(systemic lupus erythematosus,SLE)是一种自身免疫性疾病,以多种自身抗体产生、炎细胞浸润、多器官功能脏器损害为突出表现的风湿性结缔组织病。SLE的病因机制未明。已有研究证明,环境因素、遗传因素、自身免疫调节紊乱等因素可能参与到SLE的发生发展中。但是这些证据仍无法完全阐明SLE的疾病特点。N6-甲基腺苷(N6-methyladenosine,m
抑郁症作为现代社会最主要的心理疾病,严重威胁了人类的精神健康。抑郁症的重要筛查方法是通过精神科医生对患者的访谈会话进行评估和使用抑郁症诊断量表,但诊断准确率易受到医生临床经验和主观判断的影响。而抑郁症患者的行为、言语和声音等均能提供检测证据,因此基于多模态数据的抑郁症自动检测方法逐渐成为近年的研究热点,具有重要的研究价值和应用前景。目前多模态抑郁症自动检测主要分为上下文无关和上下文依赖两种方法。上
背景血清胆红素和血清白蛋白与新发高尿酸血症之间的前瞻性关联尚不确定。目的了解江苏省连云港市高血压人群血清胆红素和血清白蛋白与新发高尿酸血症(Hyperuricemia,HUA)的相关性,并评估其可能的修饰因子;为进一步了解高尿酸血症发生发展的影响因素及其早期预防策略提供参考依据。方法本研究于2008年11月至2013年8月,在连云港市东海县和赣榆县20个社区的高血压人群进行。主要研究终点为新发高尿