针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法.利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分.将主观题试题作为实验数据集,用doc2vec算法进行评分,并采用方差及偏差率作为衡量标准,对基于doc2vec算法的评分结果进行验证,并与基于TextRank算法的主观题自动评分结果及人工评分进行对比,实验表明基于doc2vec算法的评分结果的方差及偏差率都较小,稳定性较好,为后期研究主观题评分
分类学习方法有一个基本假设,即不同类别的样本数量相当.样本数量分布不均衡,会影响分类的准确率.针对样本分布不平衡的肿瘤亚型分类问题,提出聚类-过采样(clustering minority over-sampling technique,CMOT),避免了算法“对少数类不友好”的情况.具体来说,首先在少数类的内部进行聚类,目的在于寻找少数类数据的分布结构.其次,使用改进的过采样方法,对少数类数据进行数据增强,最终实现不同类别的样本数量均衡.对比四种过采样方法,使用CMOT方法,肿瘤免疫亚型的分类准确率达到