基于多策略的学术论文术语抽取方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:snsjgl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何快速又准确地抽取术语是自然语言处理中一项重要课题。面向学术论文领域的术语抽取研究能够有效地推动科学的发展与成果的推广。学术论文中,术语在不同的位置,如标题、关键字、摘要等文本块,具有不同的分布特征。传统的术语抽取方法忽略了术语分布的位置信息,因此,急需一种能够综合考虑术语位置信息的方法来弥补现有方法的不足。提出了一种面向学术论文的基于多策略的术语抽取方法TEM,该方法首先根据标题、摘要和关键词的不同特征,分别采用基于边界标记集、基于中文术语构词规则和基于关键词的候选术语抽取策略;接着分析了候选术语抽取的结果及错误类型,引入术语反例规则字典改进抽取结果;再结合K-近频子串归并算法对候选术语进行筛选过滤;最后利用术语的位置信息,构建了综合评分模型,采用层次分析法决策标题、摘要和关键词三个维度的权重值,根据最终的评分排序得到正确术语。此外,针对单词型术语,在TF-IDF算法的基础上引入了类别频率CF,提高了筛选的效果。在实验阶段,测试了K值变化对子串归并的影响,对比了引入CF和位置信息后术语抽取结果的变化。结果表明,相比于传统方法,TF-IDF-CF方法的准确率和召回率分别提升了5.73%和8.43%;TEM-SW方法的准确率和召回率分别提升了7.85%和11.54%,TEM-MW方法的准确率和召回率分别提升了11.62%和9.71%;更好地实现了学术论文术语的抽取。
其他文献
近年来我国高等教育学分制逐步推行,办学规模日益扩大,教学资源也显得相对紧缺,这就要求教务管理工作向着更高效的信息化和网络化发展。教务管理工作的信息化、模块化、便捷
随着计算机软、硬件的飞速发展,以及互联网和无线通信技术的日益成熟,基于嵌入式和无线网络的监控系统在各个领域发挥着越来越重要的作用。针对无人值守或特殊行业对远程监控
信息技术的快速发展促进了各行业在原有分布式业务信息管理平台下加强信息资源集成、共享、挖掘与利用。安全稳定及时可靠的数据交换网络是系统平台升级,行业之间行业内部频
相对于多副本存储,纠删码在保证数据可用性的同时具有存储效率高、可扩展性好的优点。因此,如何将纠删码应用在多副本集群中成为热门的研究方向。当副本集群为了提升存储效率
目前在数据库领域存在着大量的与个体相关的数据,如:人口统计数据、客户购物数据、患者医疗数据等,称之为微数据。这些数据对于趋势分析、市场预测等具有重要的价值。然而,由
Ceph是当前流行的分布式存储系统,具有很好的扩展性和可用性。随着存储技术的发展,SSD(即“Solid State Disk”)等新型存储器件逐渐普及,很多用户通过在Ceph集群中使用SSD来
随着计算机技术和信息通信技术的不断发展,信息化时代的脚步已经越来越快。在这个大背景下,由于嵌入式系统在抗老化、防颠簸、极端环境试验中比其他架构的类似系统有着明显的
近年来,以多核集群为主流架构的高性能计算机成为高性能计算的主要硬件支撑平台。而共享变量和消息传递是最常用的两类并行编程模型。但其对并行的描述与表达层次较低。开发
人类社会的发展日新月异,计算机日益成为人们日常交流信息的平台,这也使得一些不法分子有了盗窃用户隐私信息的机会,严重威胁计算机用户的安全。目前,安全防范的重点还都集中
异构无线网络融合是新一代无线通信发展的必然趋势,IEEE、3GPP等标准化组织分别制定了无线融合组网安全体系模型,并针对不同的网络融合场景,设计了相应的安全接入机制。由于多个