IRT和规则空间在文本分类中的应用研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:xmzhkj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和科学研究的高速发展,导致可利用的信息资源数量急剧增加,为了有效的组织利用这些资源,迫切需要对它们进行分类。这些信息中的大多数是以文本的形式表示,因而对文本自动分类的研究具有很强的实用性。 本文在项目反应理论(IRT)和规则空间理论的框架下,提出了一种新的文本分类方法——基于规则空间文本分类法。其基本思想是:基于训练集,选出类特征关键词集作为测试项目,将文本投射于关键词集,所得向量视为被试反应向量,全部文本向量为对应类的得分阵,根据此得分阵估计类关键词集的项目参数,定义该类的Tatsuoka规则空间模型;对于待分类的文档则可以根据训练所得的项目反应模型评价文本的作答情况,基于作答情况及训练所得Tatsuoka规则空间模型,判断文本分类结果。 为了提高分类的效果和速度,本文中提出了一种新的比较快速和高效的参数估计方法——最小化X~2/EM参数估计方法。蒙特卡洛模拟实验结果显示,此方法提高了估计对真值的恢复能力。 本文的创新点如下: 突破项目反应理论(IRT)的常规研究内容,将其应用到文本分类,探索IRT应用的新道路。实验表明,此方法具有比较好的召回率,分类训练时间短,但准确率有待提高。 提出了一种新的项目参数估计方法。实验表明,新方法不受项目数和被试人数的限制,即使在项目数很少时,参数估计的结果也比较稳定;能处理测验中含有少量特殊反应模式的参数估计;以估计值和真值之差的绝对值的平均值为指标,衡量估计值对真值的修复程度,其修复能力略高于国际同类流行软件。
其他文献
当今世界是一个信息时代,不管是在移动社交还是在移动电子商务、物联网平台,PUSH(推送)技术都得到了很大的应用,另外,Push技术改变了传统的“拉”信息的方式,使信息主动寻找用户,更适
本文使用语言学中的标志词假设来指导汉英翻译单元的抽耿,取得了较好的抽取效果。本文从以下三个角度对标志词在汉英EBMT中的应用进行了研究:1.在介绍了目前已经使用的英语
数字签名是信息安全领域的一个重要的研究方向。数字签名能保证报文的真实性、完整性以及签名者的不可否认性。普通的数字签名具有局限性,一旦密钥被盗,攻击者就可以伪造签名
针对近年来地理信息系统(GIS,Geographic Information System)在公共管理,科学研究和商业等领域的应用现状和配电管理的实际需求,本文以配电网GIS系统的开发为背景,根据配网管理自身的特点,讨论了适合于配电网络的空间数据组织方式,重点研究了适合配电网GIS系统的空间索引结构。 随着GIS在各个领域的广泛应用,GIS已形成了多层次和不同尺度的应用格局。既要有综合型的通
本文在项目反应理论(IRT)框架下,就目前流行的参数估计方法进行分析比较;对IRT中3PLM的参数估计问题,用传统的统计估计方法解决得并不令人满意,我们应用新的估计方法——改进
统计学习理论是一种专门研究有限样本情况下机器学习规律的理论,它不仅考虑了对推广能力的要求,而且追求在现有有限信息的条件下得到最优结果。支持向量机是在统计学习理论的基
分布式数据库系统是数据库系统与计算机网络相结合的产物,它主要研究在计算机网络上如何进行数据的分布和处理。对于查询操作,若是在分布式环境中,由于查询涉及的关系通常被
随着网络系统的规模扩大,网络的异构性、应用的广泛性和复杂性,以及网络服务等方面的增长,网络系统的有效管理变得越来越重要,也越来越困难。就网络系统的故障管理功能而言,管理者
我们现在生活在一个网络化的新时代,通信、计算机和网络技术正改变着整个人类和社会。目前大多数分类算法适用于集中式环境,当伴随着大量的数据集、用户和系统上的地理分布时
在科技日新月异的时代,随着互联网在全世界的普及,人们获取信息的途径已经从传统媒体,如报刊、杂志、电视、广播等途径转变为网站、论坛、博客等。特别是伴随着Web2.0时代的到来