大规模网上作文评分的信度研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:leon2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
评分不一致是影响评分信度的主要因素。本文通过评分一致性检测来研究大规模网上作文评分的信度。以湖南大学英语分级考试作文测试为研究对象,采用IRT多侧面Rasch模型,通过分析评分员内部一致性及评分员之间的一致性来研究评分的信度。本研究从2007年9月湖南大学英语分级考试作文测试中随机抽出540份考卷,涵盖4个写作任务,并由9位评分员对试卷进行了第二次评分,评分采用了“二读法”。所得的数据利用FACETS软件进行分析。研究采用的模型(即Partial Credit Model)假定每个评分员有独立的评分量表,这种模型可以用来考查评分员对评分标准的理解和使用是否存在显著差异。本文首先运用FACETS主层面分析检查单个评分员的评分严厉度及评分员对评分标准的把握是否保持一致,然后运用偏差分析探讨单个评分员在不同的写作任务上是否具有评分一致性。通过分析,本研究得出以下结论:第一,评分员的严厉度水平存在显著性差异;第二,评分员内部一致性较好,但评分员之间的一致性较差;第三,所有评分员在评阅不同的写作任务时保持了内部一致性,无显著偏差,但总体严厉度不高;第四,部分考生的分数经FACETS分析后得出的平均分与原始分存在差异。本研究对如何提高写作评分的一致性提供如下建议和参考:首先,根据数据分析对评分量表解释有歧义或不准确的地方进行修改;其次,对评分一致性不高的评分员进行再培训,指出并纠正其缺点;最后,由于大规模考试对考生具有很高的利益攸关性(high-stakes),建议对考生分数进行FACETS分析以调整其差异显著分数,这也正是本研究的一个尝试和创新。在大规模考试作文评分中,对误差的控制是十分必要地。控制误差主要是确保评分员内部一致性及评分员之间的一致性。通过利用多侧面Rasch模型的FACET软件对评分差异进行分析,根据拟合值和偏差值来检测评分不一致的评分员,对他们进行再培训或予以更换,以此来保证大规模考试作文评分的信度。
其他文献
语用迁移与二语水平的关系是一个有争议的问题,有关这个问题主要存在以下三种看法:1)学习者的二语水平越高,越不易受母语影响,在使用目的语时出现语用迁移的情况越少,二者呈
中国古代文化典籍蕴含丰富的文化信息,具有很高的思想和艺术价值。从不同的角度对这些典籍的英译进行对比分析对于深入挖掘对于语言、翻译、文化等方面的认识有着非常重要的
同志们:大家好!  岁末年初,大家工作都很忙.把大家请来开这个会,就是为了统一思想,明确任务,齐心协力做好2006年教育技术装备工作.明年是“十一五”规划的开局之年,作为基础
覃姓是土家族大姓,主要分布在湖南,湖北、重庆等地.关于土家族覃姓来源,学术界存在多种观点,主要集中为有竹氏后裔说和出自巴人五姓之一的瞫姓,为瞫氏所改.将田野调查和文献
长久以来,人们普遍认为科技论文是一种直接同事实真理交涉,能够完全客观传递信息的文体。但是一篇成功的文章也要做到极力地说服读者以接受文章观点,也就是说,科技论文不但能
牡蛎,咸涩微寒,入肝肾经.<神农本草经>谓其"主伤寒寒热,温疟洒洒,惊愤怒气,除拘缓鼠瘘,女子带下赤白.久服强骨节,杀邪气,延年".现代多认为其既能平肝潜阳,治疗阴虚阳亢引起的
以语言学视角梳理清末民初文学的变化历程与历史形态,具有重审历史与反观文学的双重意义。《分裂与建构》一书将清末民初的文学纳入到语言演变的坐标中,阐释了中国近代文学语言
<正>教室的门锁坏了,一直关不上。今天,风比较大,总是把没锁的门吹开,前排的同学就把门虚掩着,再用一个凳子抵住。下午上课前,大部分同学都坐在教室里自习,我也到了教室陪着
期刊
分裂不定式在英语语法学界被认为是一种极具争议的语法结构。一方面,众多的语法学家严厉的批评和反对其在英语中尤其是英语书面语中的应用,因为分裂不定式是一种不符合文法的