受限语境下文本语义相似度计算研究及应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:quan777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
考试制度是我国现行教育体制和各类评审选拔中的一个重要环节。文字类考试题分为客观和主观题。客观题的考后判分可以用计算机实现,主观题尚无法有效地通过计算机进行评判,有必要研究用计算机进行主观题判分的方法,以节省教师工作量。 开发计算机自动评分系统的关键是找到衡量多个文本间语义相似程度的方法,本文研究了受限语境下中文文本语义相似度计算,提出一种文本语义形式化表示方法——语片表示法,主要内容如下方面。 (1)针对传统向量空间模型(VSM)语义表示法中采用关键词特征项的不足,在组块概念的基础上,对其进行扩展,提出语片的方法,语片结构为“关键词+附属词”。从理论的可行性和技术的必要性对语片的可用性进行了论证。将语片与关键词、组块等概念作比较,给出语片区别于它们的地方,并指出语片的特点和优势。用语片表示文本特征项,用于表示文本语义。建立文本语义的向量空间模型表示形式,用语片的绝对词频作特征项权值,采用向量夹角余弦法计算文本间的语义相似度。 (2)基于《操作系统》领域文本语料库,通过计算两个词之间的互信息量,筛选出符合阈值条件的词语,借助于二元语法规则,建立受限语境下两个词之间的相关度数据库,用于确定附属词。 (3)建立了包含40个标识符的中文词语词性标记集、包含11个标识符的虚词词性标记集、包含649个词语的停用词列表和包含31621个词语的中文同义词词典,分别用于分词、标注词性、剔除高频虚词与停用词和同义词处理等中文文本处理环节。 实现了《<操作系统>课程主观题自动判分系统》。对1036份试卷进行系统自动判分和人工判分的对比实验,系统判分正确率为85.24%。与国家“十五”重大科技攻关项目中的同类系统进行了对比实验,发现系统有效性与对比系统相当。
其他文献
基于内容的图像检索技术已得到了广泛的应用,但目前出现的基于内容的图像检索系统,多数只适用于某特定的应用领域,缺乏通用且具有实用性的图像检索系统。因此,在国产达梦数据
XML是标准的通用标记语言,它的半结构化特性、良好的可扩展性、自描述等特性,使它成为数据交换事实上的标准。XML的查询语言主要有XPath和XQuery两种。 传统的数据处理方式
数据挖掘技术在利用海量数据进行知识发现、决策支持等方面具有其他技术不可比拟的优势。目前,利用数据挖掘技术进行股票走势分析等方面的研究与应用已经比较成熟,与股票市场一
通常情况下用户请求分为数据请求和元数据请求。虽然元数据很小,但是在存储系统的操作中,元数据操作占50%到80%。因此,元数据的高效管理非常重要。而随着存储体系规模的增大
无纸化考试是指利用计算机完成试题库的建立和管理、选题组卷、上机考试和阅卷评分等各个考试环节的活动,可有效地解决传统考试模式中存在的效率低下、试题质量难以控制以及
代谢流量分析是代谢工程中的重要工具,主要包括计量和碳标记实验两大方法,目的是对稳态情况下的生物体体内代谢途径中的物质流量进行定量分析,获得生物系统的代谢通量、代谢能力
随着各类数字终端、服务器、网络带宽等资源持续保持类摩尔定律式的增长,通过更直接的共享方式来提高沟通效率将为信息社会带来新一轮的发展浪潮。P2P(Peer to Peer,点对点)网
数字化乳腺X线摄片通常其大小为40Mb左右,很大程度上妨碍了远程诊断和计算机辅助诊断的发展。为了便于存档与通信及计算机辅助诊断,亟需一种有效降低存储和传输开销的数字编
数据库压缩是最近几年提出的用于提升关系型数据库性能的一项新技术。数据库压缩技术将关系数据库进行压缩存储,不仅节约了磁盘的空间占用量,并且更多的数据记录被压缩存放入同
近年来,关于无线Ad-Hoc网络的研究,特别是在新的介质访问技术方面取得了相当可观的进展。但是,Ad-Hoc网络的一些很显著的缺点却依然存在。基本的容量限制、链路的连通性及存活性