论文部分内容阅读
用户在网络上发表针对某一种产品的评价,无论是对于厂家还是潜在的消费者,都具有十分重要的研究价值。同样,用户对网络教育资源的评价,无论是对教育资源的提供者还是学习者,也是很有研究价值的。教育资源的提供者通过用户对资源的评价信息,可以知道自己在哪些地方需要改进,同时也可以吸取其它教育资源的长处,以补己之短;学习者通过了解资源的评价信息,可以得到一些参考信息和建议,通过对资源的综合考虑和选择,找到适合自己的教育资源。因此,对教育资源的评价信息进行倾向性研究具有很大的研究意义。网络学习用户可以通过论坛、BBS、留言板、Blog等途径发表对教育资源的看法,这些都是评论信息的重要来源。但是对某一种教育资源的评价信息有时长达成百上千条,如果仅仅依靠人工进行浏览,是一件耗时又低效的工作。于是,我们需要使用信息抽取技术,从用户的评论信息中自动提取出教育资源的倾向性。提取评论信息的倾向性,关键的两个步骤是语义极性分析和观点抽取。我们需要利用计算机技术自动分析带有感情倾向的句子或文档,提取出用户潜意识中需要的主题或特征,并且分析它们的语义倾向性和强度。在汉语评论信息的语义极性分析方面,采用比较多的是基于统计分析的方法,目前很多研究机构已经运用自然语言处理技术对评论信息进行语义极性分析,取得了很有价值的进展。本文将尝试使用自然语言处理技术对教育资源的评论语句进行语义极性分析,使用户获得感兴趣和高质量的教育资源。本文对教育资源的资源类型和媒体类型进行统计分析,提取出教育资源的特征词和用于词语极性判断的基准词;在词语语义相似度计算时,重点分析了义原的上下位关系和对义反义关系,引用了《知网》最新发布的情感分析用词语集;通过改进基准词组和词语语义相似度算法,词语的语义极性计算结果在一定程度上得到了较高的准确性和可信性;在观点抽取过程中,本文通过LTP系统的词法分析和句法分析结果,利用依存关系对将观点词的极性传递给特征词,并给出了计算句子整体倾向性的算法,最终得到句子的倾向性。本文通过实验,将自动抽取的观点结果与人工判断结果进行比较,得到了较高的查准率和查全率,同时设计了教育资源评论挖掘应用系统,用于判断评论语句的倾向性。