基于深度学习的电子政务文本分类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhengjunzhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网和信息通讯技术的快速发展,人们已习惯在线办理各种业务。这导致线上海量文本数据呈爆炸式增长趋势,对依靠人力处理政务和提供服务的政务平台造成了巨大压力。文本分类技术作为能加速工单审批、建档分类的可行途径之一,逐渐受到学术界和工业界的广泛认可和关注。目前,在电子政务领域中,文本分类算法的应用寥寥无几,模型鲁棒性差是现有模型在实际应用时面临的主要难题,而导致此现象的原因一方面来自数据层面,主要表现在:文本自身及标签噪声率高;文本类别众多、各类别数据分布极度不均衡。另一方面,模型层面存在现有方案对文本标签间的相关性挖掘不充分等缺陷。针对上述问题,本论文以12345政府服务热线为应用场景,研究并实现了基于深度学习的电子政务文本分类算法。首先,针对标签噪声率高、各类别样本分布不均衡问题,本文提出了基于标签修正和属性感知的电子政务文本分类算法。该算法利用实际的政府工单文本数据设计标签相似度矩阵,通过阈值设定构建标签智能评估修正模块,实现了在不损失数据的前提下对文本进行降噪处理;随后将工单派发流程建模为电子政务文本分类问题,设计属性感知文本分类模块获取更具判别性的文本表示特征以完成单标签文本分类任务。结合上述两个模块,构建了两阶段电子政务文本分类算法从而完成政府工单智能派发任务。实验结果表明,与直接使用Text CNN(Text Convolutional Neural Network,Text CNN)模型相比,本算法在两个电子政务文本数据集上准确率分别提升5.23%和3.91%。接下来,为了挖掘文本的全局语义信息和标签间关联性特征,本论文提出了基于双向时序卷积注意的政务文本多属性预测算法,该算法联合预训练语言模型和双向时序卷积单元构建编码器,以单向长短时记忆单元作为解码器,利用注意力层生成中间语义编码,共同构建序列到序列的多标签文本分类网络以获取全局多样性语义特征进行分类,从而完成政务文本多角度属性预测任务,并增强智能政府决策预测方案的通用性。实验结果表明,与基线模型相比,本算法在多种分类指标上具有1%~2%左右的提升效果。本论文研究并实现的基于深度学习的电子政务文本分类算法可广泛应用到工单审批、政策法规发布、文档及网页分类等政务场景,也可推广到智慧司法判决等相关领域。
其他文献
在大数据时代下,计算机系统所需处理的数据量爆炸式增长,片上网络和众核系统的逐渐成熟一定程度上缓解了系统遇到性能瓶颈的问题。但随着众核系统在计算力、通信力方面的提升,这些核心在处理数据时访问内存的频率也会增加,若不优化与内存访问服务相关的系统架构,则内存带宽无法匹配处理器核巨大的数据流通需求。增加片上网络中存储访问控制器,即内存控制器的数量可以看做增加带宽的一种方法。但随着核心逐渐增多,在满足处理器
随着人工智能技术的发展,在许多任务中,以神经网络为代表的机器学习模型已经表现出接近甚至超越人类水平的性能。但是,此模型通常是无法扩展其“功能”的静态模型。每当有新数据出现需要进行训练时,模型就需要使用全部数据重新开始训练。在现实世界中,这种做法在部分应用场景中会变得非常棘手。由于存储限制或隐私问题,很多数据可能会在给定时间后就会消失,甚至根本无法存储,这使得神经网络能够随着时间的推移进行适应和更新
随着时代的进步和科技的发展,互联网的使用更为频繁,随之而来的便是大量数据的产生.这些人们生活中产生的形形色色的数据,如若加以利用,便能给人们的生活带来更多便捷.数据挖掘就此应运而生.它通过分析数据本身的结构和数据间的关联性,将无用的信息过滤,进而提炼出更具有价值的信息.聚类作为一种典型的数据挖掘方法,也是一种无监督学习方法,能够在没有先验知识的情况下将数据划分为若干簇,使得不同簇的数据间相似性尽可
交通标志的检测识别是智能驾驶系统的关键技术之一,交通标志中含有大量有用信息,能实时提示驾驶员做出正确反应,极大地减少交通事故的发生,但由于现实环境中天气、光线、遮挡等因素的影响,交通标志的检测识别存在一定的难度。传统的检测算法在特征提取方面因受人工设定因素的影响,无法满足交通标志在多类别下检测识别的准确性与实时性的要求。基于深度学习的检测算法具有自动提取特征、计算量小等优势,受到研究者的青睐。本文
随着新型网络技术的高速发展和用户业务需求的多样化,信息网络的规模不断扩大,传统网络的诸多问题日益凸显,网络功能虚拟化(Network Function Virtualization,NFV)作为一种新型技术为解决这些问题提供了一条途径。NFV技术将网络功能与专有硬件解耦,并通过在通用硬件设备上部署虚拟网络功能(Virtualized Network Function,VNF)以完成用户请求服务,增
目前推荐系统的一大研究热点是基于用户交互序列挖掘其中隐含的用户兴趣,在取得显著效果的同时,个性化推荐场景中也存在着数据稀疏性和冷启动问题。本课题基于上述几个问题进行了深入研究,具体如下:本课题利用图嵌入(Graph Embedding)技术来解决数据稀疏性和用户商品冷启动问题。在常规的图嵌入算法基础上,通过引入商品辅助信息,利用随机游走算法对商品的各类属性进行建模并获取对应的Embedding向量
水库防洪调度是一个复杂多目标优化问题,具有决策变量维度高、不同决策维度之间具有链式相关性的特点,因此进化多目标优化算法在求解该类问题时会因为搜索空间过大、决策变量相关性强而导致收敛缓慢,求解效率低下,甚至无法跳出局部最优解而导致求解失败。另一方面,进化多目标优化算法需要输入洪水完整过程线才能进行求解,因此多目标优化算法往往被用作离线求解方案,在线调度目前主要利用调度规则进行决策,但调度效果不如人意
为了将人工智能应用于从世界收集的大量无标注数据,一大关键难题是要用弱监督或无监督的学习方法来学习有用的表征。传统医学影像学的图像分辨率往往不足以充分表示清晰的细胞信息,数字病理时代的全切片成像技术带来了多尺度、高精度的更清晰的数字可视化数据,使得病理图像具备更多微观细节信息。卷积神经网络强大的特征提取能力能够有效提取数字病理图像中的特征,然而病理医生的缺失以及病理图像的标注困难使得带有标签的样本不
随着通信技术的快速发展,天线在军用领域和民用领域发挥着越来越重要的作用,其设计要求也越来越高。天线测量作为分析天线的重要方法,是天线研究领域不可或缺的一步,天线的高性能依赖于精密的测量系统与先进的测量技术。随着天线测量技术的发展,天线测量的研究方向由远场测量转向近场测量,通过探头将近区场幅度相位信息收集起来,再采用近远场变换对近场测量的数据进行处理,从而得到天线辐射远场的特性。近年来,为了提升天线
近年来随着教育信息化、个性化教育等观念的逐渐深化,在网络上进行自主学习已经成为学生获取知识的重要途径之一。在线教育平台会为学生提供不同形式的知识学习方式,如通过视频、文档的形式进行知识传播。然而,由于平台中的教学资源数据之间是相互独立的关系,分散地存在于网页结构中,学习资源之间并没有通过逻辑关系建立连接,难以形成系统化的知识体系结构。该问题导致课程信息背后隐含的丰富语义信息被人忽略,课程数据可利用