论文部分内容阅读
目的文本数据与日俱增,但较少应用于公共卫生领域。本文旨在阐述如何通过随机森林和R软件实现文本情感分析,提供方法学参考。方法人工标注文本情感类别,然后进行分词、特征词权重和特征词选择等步骤。用随机森林进行建模,并评估模型性能。结果 1 149条文本纳入分析,正向、负向和中立情感各占34.3%、31.3%和34.4%。共构建18个模型,最优模型准确率0.60。结论影响准确率的原因有样本量、特征词选择、算法选择和参数调整。文本分析也需考虑文本数据来源的准确性才能更好地为卫生政策制定者提供决策的科学依据。