科学论文全文语步自动识别研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:aolongjiutian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]科学论文的语步结构对于读者理解论文内容、快速定位特定信息具有重要作用.[方法/过程]本文对化学领域科学论文的语步自动识别方法进行了探索,比较了基于文本分类和序列标注两种解决模式以及机器学习和深度学习两种技术的多种语步识别模型的效果,并在此基础上提出了将深度学习预训练模型BERT与传统机器学习分类算法深度森林相结合的混合模型.[结果/结论]实验结果表明,文本分类模式的语步识别效果要优于序列标注模式;传统机器学习技术和深度学习技术的语步识别效果总体相近;通过将两者进行结合的混合模型可以获得更好的语步识别效果,在整篇论文7个语步类别上的宏平均F1值达到73%.
其他文献
2020年,我国传媒业资本运作的外部环境发展不均衡,传媒业资本运作呈现如下特点:一是以上市公司为主体,腾讯、阿里巴巴等互联网巨头更是其中的主导力量;二是融资数量同比腰斩但融资金额同比大幅度增长;三是影视等传统传媒业务受冲击大而互联网业务高速增长;四是民营类影视上市公司引入国有实控人.