面向英文辅助写作系统的摘要句分类及频繁模式挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jason31906
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展以及学术国际化程度的日益提高,英文论文的写作与发表成为每个科研人员及高新人才的必备技能。对于非英语母语的人群来说,写作高水平的英文科技论文需要极强的英文写作能力以及雄厚的相关领域的知识储备,然而并非所有的人都具有足够强的能力。一个英文论文辅助写作系统能够帮助弥补这些方面上的不足,而知识库的构建成为支撑一个英文辅助写作系统的关键因素。本课题的目的在于为一个英文论文辅助写作系统完善补充知识库,其研究对象是针对论文的摘要句子,主要工作内容如下。首先,我们从网上爬取了大量英文科技论文并提取出相关摘要信息而后存储下来,初步构建了一个以句子为单位的语料库。我们对英文科技论文摘要的结构组成进行了一定的调研,并对语料库中句子进行了标注和相关信息的统计,对其写法有了一定的认识。然后,我们对摘要句进行了分类,将其分为“研究背景”,“课题内容”,“实验方法”,“结果结论”四个类别。在实验中,我们采用有监督的机器学习方法支持向量机作为分类模型,并针对摘要句子特征稀疏的特点进行了特征选择上的相关研究,从而提高了分类的精准度。最后,我们分别针对每个类别中的句子进行频繁模式挖掘,从而为英文论文辅助写作系统完善了摘要写作方面的知识库。在实验中,我们采用经典的FP-growth算法作为挖掘手段,通过逐步改善挖掘的策略,改进了挖掘结果的质量,提升了挖掘效果。
其他文献
阴影生成是实时绘制领域中的难点和热点问题之一。高质量的阴影不仅可以增强所绘制场景的真实性,而且有助于用户判断场景内物体间的相对位置关系和物体的几何形状。现实世界中
随着物联网技术的发展,信息量丰富的视频传感器在物联网中的应用也越来越广泛。然而,由于物联网视频传感器本身的物理特性,决定了他们在数据带宽、计算能力以及链接稳定性上
本文所述研究是家庭电子医疗平台研究项目的一部分,主要致力于建立电子医疗平台的数据管理系统部分的研究。主要研究对象是生理学时间连续数据。在家庭电子医疗平台中,存在生
学位
信用风险是商业银行面临的最重要风险之一。近年来,神经网络因良好的非线性映射能力使其对在解决商业银行信用风险评估问题上具有独到的应用优势。其中BP神经网络已有了较为广
随着测序技术的不断发展和千人基因组计划的推动,基因组数据已经大量出现,着眼于全基因组范围的关联研究成果正不断被发表出来。基因组浏览器已成为广泛应用的工具之一,结合各类
学位
学位
互联网的多媒体资源广泛呈现出跨媒体(Cross-media)特性,即不同类型的数据及其丰富的社会属性之间存在着各式各样的复杂关系。跨媒体数据的增长给传统的多媒体检索与分析的研
近年来,分布式拒绝服务攻击(DDoS)、垃圾邮件(Spam)、网络钓鱼(phishing)、蠕虫(worm)传播、窃取敏感信息等恶意活动使网络安全面临着重大的威胁,导致了巨大的经济损失,而其