基于自然语言处理技术的API搜索和代码摘要生成

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:zumei2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着成千上万的开源项目逐渐变得可用和开放生态的越来越完备,在软件开发的过程中,代码搜索起到的作用越来越突出。然而,由于程序语言的语言特性和开发者在开发过程中编码习惯的不规范等因素,自然语言和程序语言之间存在语义失配问题。这种语义失配问题在软件开发的过程中严重影响了开发者的工作效率,一方面导致在进行检索时难以获取符合自己需要的代码段或API,另一方面也导致难以理解他人编写的代码。目前,研究人员将自然语言处理技术应用到软件工程任务中,提出了许多先进的方法进行代码段和API的搜索以及对代码进行摘要。本文针对以上问题展开研究,深入分析自然语言和程序语言之间的语义失配问题,帮助开发者更高效地进行信息检索和代码理解。本文的主要工作包括如下两个方面:(1)为了帮助开发者进行API检索,本文提出一种结合语料库全局统计信息和局部上下文信息的API推荐方法。该方法首先将源代码转换成对应的抽象语法树(Abstract Syntax Tree,AST),并对AST进行遍历得到API序列,其次对代码注释和API序列进行预处理,然后训练LDA主题模型和Glo Ve词向量获取单词和API的条件概率分布和词向量,最后根据主题概率分布和词向量计算单词和API之间的相似度。在利用局部上下文信息训练Glo Ve词向量时,本文使用随机打乱策略提高单词和API出现在一个窗口中的频率。基于真实数据集的大量实验结果表明LDA-Glo Ve在top-1的结果能达到0.82的成功率,在top-10的结果就已经能达到1.0的成功率,当推荐100个API时,LDA-Glo Ve仍然能在Precison、MRR和NDCG上达到0.465,0.822和0.846,分别比最先进的方法高出3.9%,8.7%和5.8%。(2)为了帮助开发者理解他人编写的代码,本文提出一种结合API文档的代码摘要生成方法AD-Code Sum。该方法首先将源代码转换成AST,并对其进行遍历得到API序列,其次获取API序列中API对应的API文档,最后基于Transformer训练神经机器翻译模型,将代码翻译成自然语言语句。在训练模型时,本方法利用特征选择算法对API文档进行特征选择,提取API文档中包含语义信息的特征词。基于真实数据预计的大量实验结果表明,AD-Code Sum在BLEU-1/2/3/4上可以达到38.7%、29.1%、23.2和20.2%,比最先进的方法要高出3.4%、2.3%、2.2%和0.2%。并且在METEOR和ROUGE-L上也能达到18.4%和43.1%,分别比最先进的方法高出2.2%和3.9%。
其他文献
目的 在细胞水平探究褪黑素通过NRF2对氯胺酮相关性膀胱炎(KC)尿路上皮损伤的保护作用。方法 首先利用Western blot验证NRF2在氯胺酮刺激后的SV-HUC-1细胞的表达水平变化;构建沉默NRF2的SV-HUC-1细胞株,利用流式细胞术检测氯胺酮共培养后的细胞凋亡率;利用CCK-8筛选褪黑素的工作浓度,将SV-HUC-1细胞分为对照组(CON),氯胺酮组(KET),褪黑素治疗组(KET
<正>习近平总书记在党史学习教育总结大会讲话中强调:“要认真总结这次党史学习教育的成功经验,建立常态化、长效化制度机制,不断巩固拓展党史学习教育成果。”高校作为教书育人的重要阵地,必须认真贯彻党中央对党史总结、学习、教育、宣传的要求,推进党史学习教育常态化长效化,不断巩固党史学习教育成果,构建党史学习教育常态化长效化机制,打造好“理论课堂”“红色课堂”“实境课堂”和“实践课堂”这四个课堂,将党史学
期刊
现代公民教育的自然性基础是指任何一种形式的公民教育都不能只是单纯依靠社会和学校来完成,而是需要一种非社会性质的自然教育作为前提和准备。这一点在卢梭的《爱弥儿》中体现得极为明显,卢梭认为现代公民教育的本质首先是人的自然权利,然后是人的各种义务和责任。人并不是天然的政治性动物,发生在人身上的公民教育并不是一开始就要让人直接进入社会,而是在这之前需要让人经过一段在社会之外的自然教育。为此,卢梭将爱弥儿视
文章总结了奥密克戎变异毒株所致的新型冠状病毒肺炎疫情期间,长海医院急诊病房管理经验及41例急腹症患者的护理体会,以期为临床护理及管理提供参考。通过病区环境准备、科室人员管理、手术患者转运协作、环境消杀等一系列应急预案和措施,保障了疫情期间急腹症患者的顺利救治。其间,所有患者未发生院内感染。
<正>太保产险始终以贯彻国家惠农强农政策为己任,坚持走“产品+技术+服务”创新道路,为建立健全农业支持保护体系、完善农村金融服务、健全农业风险补偿机制、保障粮食安全等作出了积极努力和有益探索民族要复兴,乡村必振兴。我国是农业大国,在国家政策的持续支持下,我国农业保险实现了快速发展。2020年,中国农业保险保费规模已超越美国,成为全球农业保险保费规模最大的国家。2021年我国农险保费收入为976亿元
期刊
教师的家庭作业管理自我效能感决定着作业的质量和效能,是解决作业减负问题的前提条件,而教学自主权是影响教师的家庭作业管理效能感的重要因素。研究通过对786份教师样本的问卷调查数据进行相关分析和回归分析,探讨教师教学自主权对家庭作业管理自我效能感的影响,发现中小学教师的教学自主权处于中等水平,在性别、年龄方面存在显著性差异;家庭作业管理自我效能感水平总体较高,但是家庭作业规划与设计,作业监控、评价与反
作例研究的提出,对于作业改革、教学改革、教师发展、课例研究和教学研究等具有多重价值。作例研究是关于一份作业的教与学的案例研究,它具有独特的内涵、性质、目标和内容。要做好作例研究,需要把握价值原点,明晰作例标准,坚持问题导向,建构作例体系,探究作例理论和凝练中国经验。
物理实验是物理学习的重要方式。近几年全国和部分省市的高考试卷中,对物理实验的考核不断聚焦学生的实验素养,将物理学科核心素养有机融合于实验情境中,对高中实验教学及物理课程育人方式转变起到了积极的导向作用。结合近五年江苏高考实验题考核要求和内容,高中物理实验教学要变革实验方式,在探究中增强学生实践能力;要重视实验论证,在思辨中培养学生质疑精神;要聚焦问题情境,在应用中激发学生创新意识。
新时代党史学习教育常态化有其独特的运行机制,即坚持以党的百年奋斗史为主线、以传承红色基因革命精神为核心,以全体党员和人民群众特别是青年学生为教育对象、以现场体验和系列庆祝纪念活动等为形式,以媒体融合平台传播为载体、以学校教育为主阵地的整体性运行机制。这一运行机制凸显了新时代党史学习教育具有内容的系统化、教育的日常化、载体的多元化、主体的全员化的特点。