自然语言处理中的文本表示研究

来源 :软件学报 | 被引量 : 0次 | 上传用户:vgbin2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力.
其他文献
2013年,在德国举办的汉诺威工业博览会上,德国政府率先提出了继工业1.0(蒸汽机时代)、工业2.0(电气化时代)、工业3.0(信息化时代)之后的工业4.0(智能化时代)概念.德国的学术界和产业界认为,工业4.0是以智能制造为主导的第四次工业革命.rn从长远来看,“连接”将是智能制造的核心要义,工业4.0将无处不在的传感器、各种嵌入式终端系统、智能控制系统、通信设备和交通工具,通过信息物理系统编织成一个智能网络,使设备、产品、人三者之间通过智能网络实现虚拟与现实、数字世界和物理世界持续的信息交流和行为交互
期刊
源代码的摘要可以帮助软件开发人员快速地理解代码,帮助维护人员更快地完成维护任务.但是,手工编写摘要代价高、效率低,因此人们试图利用计算机自动地为源代码生成摘要.近年来,基于神经网络的代码摘要技术成为自动源代码摘要研究的主流技术和软件工程领域的研究热点.首先阐述了代码摘要的概念和自动代码摘要的定义,回顾了自动代码摘要技术的发展历程,并介绍了生成式摘要的质量评估方法和评估指标;然后分析了神经代码摘要算法的通用结构、工作流程和面临的主要挑战;给出了代表性算法的分类,并对每类算法的设计原理、特点和限制条件进行了分