论文部分内容阅读
考试制度是我国现行教育体制和各类评审选拔中的一个重要环节。文字类考试题分为客观和主观题。客观题的考后判分可以用计算机实现,主观题尚无法有效地通过计算机进行评判,有必要研究用计算机进行主观题判分的方法,以节省教师工作量。
开发计算机自动评分系统的关键是找到衡量多个文本间语义相似程度的方法,本文研究了受限语境下中文文本语义相似度计算,提出一种文本语义形式化表示方法——语片表示法,主要内容如下方面。
(1)针对传统向量空间模型(VSM)语义表示法中采用关键词特征项的不足,在组块概念的基础上,对其进行扩展,提出语片的方法,语片结构为“关键词+附属词”。从理论的可行性和技术的必要性对语片的可用性进行了论证。将语片与关键词、组块等概念作比较,给出语片区别于它们的地方,并指出语片的特点和优势。用语片表示文本特征项,用于表示文本语义。建立文本语义的向量空间模型表示形式,用语片的绝对词频作特征项权值,采用向量夹角余弦法计算文本间的语义相似度。
(2)基于《操作系统》领域文本语料库,通过计算两个词之间的互信息量,筛选出符合阈值条件的词语,借助于二元语法规则,建立受限语境下两个词之间的相关度数据库,用于确定附属词。
(3)建立了包含40个标识符的中文词语词性标记集、包含11个标识符的虚词词性标记集、包含649个词语的停用词列表和包含31621个词语的中文同义词词典,分别用于分词、标注词性、剔除高频虚词与停用词和同义词处理等中文文本处理环节。
实现了《<操作系统>课程主观题自动判分系统》。对1036份试卷进行系统自动判分和人工判分的对比实验,系统判分正确率为85.24%。与国家“十五”重大科技攻关项目中的同类系统进行了对比实验,发现系统有效性与对比系统相当。