【摘 要】
:
随着时代的进步和中国的发展,智库在国家治理、科学决策中的地位作用愈发凸显,中国特色新型智库建设成为一项重大而紧迫的任务。智库建设发展走了上快车道,信息技术辅助智库建设发展也被提上了日程。现有系统文本查询算法在语义信息挖掘不足,传统软件架构应对大规模矢量数据的处理能力也不足,制约了已有智库成果的运用。为解决上述问题,本文主要开展了以下工作:(1)智库领域文本语义相似度计算研究。对智库文本相似度计算的
论文部分内容阅读
随着时代的进步和中国的发展,智库在国家治理、科学决策中的地位作用愈发凸显,中国特色新型智库建设成为一项重大而紧迫的任务。智库建设发展走了上快车道,信息技术辅助智库建设发展也被提上了日程。现有系统文本查询算法在语义信息挖掘不足,传统软件架构应对大规模矢量数据的处理能力也不足,制约了已有智库成果的运用。为解决上述问题,本文主要开展了以下工作:(1)智库领域文本语义相似度计算研究。对智库文本相似度计算的需求特点与智库文本特性进行分析,提出基于TF-IDF权重指导预训练模型BERT自监督继续训练的TFIDF-MLM掩码方法,累加和大于阈值的词进行MLM训练,以实现具有针对性的学习领域文本。基于Sentence-BERT孪生结构改进BERT输出表征向量和后端接入结构,提出TTT-BERT结构进行微调监督训练,通过监督训练的方式得到各层Transformer向量组成句文本表示向量权重,以实现对预训练和继续训练中各Transformer学习到不同特征进行充分利用的目的。基于近似最邻近搜索算法(ANNS)设计了文本相似匹配方法,极大减少了文本相似匹配查询时间。(2)构建数据集并进行实验验证改进算法和模型。采用网络爬虫技术,对省级发展研究中心、人民日报、光明日报等智库文章站点采集文章并对其进行数据清洗,采用多路召回策略,用常见相似匹配算法建立相似候选集,再随机选取部分数据进行人工标注,建立智库领域文本相似匹配标注数据集。在数据集上对通过TFIDF-MLM方法进行继续训练后的模型在准确率、召回率和命中率比基准模型分别有10.87%、7.23%和3.85%的提高,采用TTT-BERT结构微调监督训练后的模型在少样本监督训练下提升了0.5%的精确度,验证了方法和模型的有效性。(3)适应大规模矢量数据检索的智库文本系统设计与实现。以智库研究活动主体为使用对象开展智库文本辅助系统需求分析与设计。以近似最邻近搜索(ANNS)为文本相似检索服务的矢量数据检索基础的系统架构,采用类似动态离线评估的思想设计标注数据管理、模型管理服务、文本相似检索服务交互,最后使用的Django Vue等Web开发实现了系统。通过上述三方面工作,系统对智库领域文本特性和知识进行了针对性学习,具有更快速、准确、智能的文本相似匹配查,能成为智库研究中文本分析的有力工具。
其他文献
核心素养时代的到来,给教育发展带来了全新的方向。为了培养学生适应未来社会生活的关键能力和必备品格,语文教育也开始更多地关注学生核心素养的培养和发展。随着《义务教育语文课程标准(2022年版)》的颁布,语文学科需要将课标以及核心素养的要求具体化到教学中。作业作为教学的一部分,对于语文核心素养的培育具有不可替代的价值。基于核心素养进行作业设计,有利于解决应试教育下语文作业内容僵化、形式呆板、缺乏人文性
频谱管理是协调和管理频率有序使用的重要途径,无线电监测是频谱管理的基础,监测过程产生的大量的频谱数据能够为管理提供有效支撑。因而频谱数据的信息的挖掘和知识获取收到广泛关注,特别是基于时序模式挖掘的频谱预测技术成为近年来研究的热点。在现有研究中,基于频繁模式挖掘的频谱预测方法多用于认知无线电,并且对于模式的信息的深度应用层次较低。本文提出了基于时序模式挖掘的辅助用频研究,利用频谱数据进行频繁模式挖掘
互联网为社交网络提供了更加广阔的发展平台,在以互联网为依托的社交网络中,信息的传播比传统“口口相传”的传播方式更加便捷和高效。社交网络中的影响最大化(Influence Maximization,IM)问题旨在从社交网络中挑选出6)个具有影响力的节点作为种子集,使得从种子集开始的传播可以获得最广的用户覆盖范围。该问题的解决有利于基于社交网络的信息传播预测、舆情引导和网络精准营销等。当前关于IM问题
社交媒体技术的快速发展给人们获取和传播信息带来了便利,但由于缺乏有效的自动化信息监管,导致谣言在社交网络中广泛传播,给网络空间安全和社会稳定带来了严峻挑战。如何实现有效的谣言自动检测,成为亟待解决的现实问题。早期谣言自动检测方法主要基于机器学习模型,严重依赖特征工程,费时费力且难以准确表示谣言的文本内容,因此,已逐步被基于深度学习模型的方法所取代。目前最新的基于深度学习的谣言检测方法主要是根据谣言
深度学习是人工智能领域的重要组成部分,其多层的非线性结构使它能够拟合复杂的样本空间并学习丰富的语义特征,因此深度学习已经广泛的应用于各种领域之中。然而随着深度学习的不断地发展,其“黑盒”特性为模型的使用埋下了安全隐患,对抗样本攻击算法即是其中之一。对抗攻击是一种通过在正常样本中添加精心构造的对抗扰动以欺骗目标网络模型的方法,其对抗扰动十分微小以至于肉眼无法正常识别,但当对抗扰动进入目标网络模型后,
图像融合是指利用技术手段将来自不同成像设备的多幅源图像进行有条件的合成,即通过互补操作,把各个传感器获取到的最有用信息融合到一张图像上。得到的融合图像相比单一传感器获取的图像更加准确、可靠和全面,它包含的丰富信息也有利于后续机器识别和目标追踪等工作的开展。目前,图像融合技术已在摄影、医疗、军事和监控安防等方面得到十分广泛的应用。因此,对于多源图像融合技术的研究具有非常重要的意义。本文主要的工作如下
动态阈值神经P(DTNP)系统和耦合神经P系统(CNP)是两种新型分布式和并行计算模型,它们启发于神经元的脉冲机制、动态阈值机制和耦合调制机制。DTNP系统和CNP系统在理论上已经被证明是与图灵通用的计算设备。本文主要研究DTNP系统与区域生长的结合在图像分割中的应用和CNP系统在行人检测上的应用,涉及彩色图像分割和红外热成像图像的行人检测。本文主要的工作和贡献如下:(1)提出了一个基于二维DTN
无线电通信是推动社会经济发展、维护社会秩序、保障国家安全的关键技术。高速发展的无线电技术和应用规模,给无线电监管带来极大的挑战。为了更好地维护无线电通信秩序,无线电监管技术也在朝着智能化和可视化方向发展。无线电信号的场强分布图可以直观展现无线电信号在不同位置的信号强度分布规律,信源定位则是无线电监管中必不可少的环节。本文的主要研究内容为利用带有地理位置信息的信号强度数据,进行场强分布图绘制和信源定
阿尔茨海默症(Alzheimer’s disease,AD)是一种常见的神经系统疾病,多发于60周岁以上的老年群体。其临床表现为记忆力、理解力和执行功能等多种认知功能障碍。目前没有针对此病症的特效药物,无法治愈阿尔茨海默症,全球约有75%的痴呆症患者在早期没有得到诊断,对AD进行早期诊断并提前进行预防或控制病情加重尤为重要。随着我国逐渐步入老龄化社会,对AD患者的早期预防和减缓病情加重刻不容缓。运
社区检测是复杂网络的一个研究热点,主要用于揭示网络聚集行为,在蛋白质结构分析、交通中枢规划、网络舆情监测、推荐算法设计等领域均具有重要的应用价值。随着网络中节点属性与连边关系不断朝多元化方向发展,网络社区结构的重叠率越来越高。如何稳定准确地检测复杂网络中的重叠社区,挖掘多元社会的深层组织结构,成为复杂网络研究的一个新挑战。重叠社区检测的主要内容是从网络中发现同时隶属于多个社区的重叠节点。本文以基于