论文部分内容阅读
随着互联网技术的飞速发展以及学术国际化程度的日益提高,英文论文的写作与发表成为每个科研人员及高新人才的必备技能。对于非英语母语的人群来说,写作高水平的英文科技论文需要极强的英文写作能力以及雄厚的相关领域的知识储备,然而并非所有的人都具有足够强的能力。一个英文论文辅助写作系统能够帮助弥补这些方面上的不足,而知识库的构建成为支撑一个英文辅助写作系统的关键因素。本课题的目的在于为一个英文论文辅助写作系统完善补充知识库,其研究对象是针对论文的摘要句子,主要工作内容如下。首先,我们从网上爬取了大量英文科技论文并提取出相关摘要信息而后存储下来,初步构建了一个以句子为单位的语料库。我们对英文科技论文摘要的结构组成进行了一定的调研,并对语料库中句子进行了标注和相关信息的统计,对其写法有了一定的认识。然后,我们对摘要句进行了分类,将其分为“研究背景”,“课题内容”,“实验方法”,“结果结论”四个类别。在实验中,我们采用有监督的机器学习方法支持向量机作为分类模型,并针对摘要句子特征稀疏的特点进行了特征选择上的相关研究,从而提高了分类的精准度。最后,我们分别针对每个类别中的句子进行频繁模式挖掘,从而为英文论文辅助写作系统完善了摘要写作方面的知识库。在实验中,我们采用经典的FP-growth算法作为挖掘手段,通过逐步改善挖掘的策略,改进了挖掘结果的质量,提升了挖掘效果。