论文部分内容阅读
摘 要:本文首先考察了首都经贸大学留学生入学测试(笔试部分)的科学化程度,统计计算了该测试的难度、区分度、信度、效度、实用性及后效作用等关键性的评估标准,并根据由此得到的统计参数尝试提出了合理的改进办法。
关键词:入学测试 科学化 难易度 区分度 信度 效度
一、引言
入学测试又称分班测试或编班测试,往往是在新生入学后对学生进行的全面检查。目的是为了了解一下学生的入学水平,以便把学生按照程度进行分班或分组,从而使各个班、组的学生在水平较近的起点上开始学习,免得大家参差不齐,互相牵制,从而影响教学效果和学习效果。现代教育理论强调因材施教,对不同类型、不同水平的学生要分别采取不同的教学方法、不同的教学内容。入学测试关心的是受试者目前的知识水平及能力,考查的是学生的整体能力。这种测试一般来说只要把学生分出几大组就可以了,不必区分得十分细致。
入学测试试题设计得科学与否,很大程度上影响着教学过程和教学效果,因此考察它的科学化程度并对其进行改进是很有必要的。
现行的入学测试包括笔试和口试两部分。但是口试部分多年来依靠教师的主观判断,且没有留下充足的书面数据。这两个原因,尤其是后者使得我们对口试部分严重缺乏考察依据,因此本文的考察内容仅限于入学测试的笔试部分。评价一个测试的好坏,一般从难易度、区分度、信度和效度以及实用性和后效作用这些方面进行讨论,因此我们也将从这几个方面入手。
二、正文
(一)几点说明
1.数据收集
研究收集了60名外国留学生的入学测试答卷,完全符合统计学上的大样本要求(根据统计学上的中心极限定理,抽样数在30或30以上时,样本平均数的分布几乎完全呈正态分布)。这60位留学生分别来自23个国家,其中日本学生22名,俄罗斯学生4名,朝鲜、韩国、德国、吉尔吉斯斯坦、印尼、哈萨克斯坦、巴西、法国和越南学生各2名,蒙古、白俄罗斯、印度、埃及、丹麦、瑞士、阿尔巴尼亚、乌兹别克斯坦、阿塞拜疆、哥伦比亚、摩尔多瓦、意大利学生各1名。另有2人未注明国籍。
需要说明的是,准备就读零起点班的学生不必参加该入学测试,因此参加测试的学生至少已经具备了一点汉语知识,不至于出现分数为0的试卷。
2.试卷组成
这份入学测试笔试试题由三大部分组成:选择题(分为两大部分)、汉字题和作文题。分数设置为:
选择题第一部分(1~30题)共30分,每题1分;
选择题第二部分(31~50题)共40分,每题2分;
汉字题(51~80题)共15分,每题0.5分;
作文题(二选一,欲就读中级班的学生还需另加一题)共15分。
(二)难易度
难易度,指测验中所有题目的平均难易度,即全体被试在所有题目上的通过率的平均数。信度和效度是针对整个试卷而言,而难易度是针对每个题目而言。在一个理想的测验中,每个题目的难易度应分布在0.30~0.70这个范围内,平均难易度应在0.50上下。低于0.3或高于0.7的题目不能太多。
1.难易度检验
(1)难易度通常用P来表示。由于选择题、汉字题这两部分题目都使用0/1评分,所以这里的难易度指的就是答对率,即:
而作文题这种主观性试题的难易度,则采用下面的公式:
(2)结果
1)在选择题的第一部分1~30题中,难易度高于0.7,也就是说题目偏易的有:
第11题 0.78
第13题 0.82
第20题 0.87
而难易度低于0.3,也就是说题目偏难的有:
第19题 0.20
第27题 0.17
2)在选择题的第二部分31~50题中,只有第32题难易度高于0.7,达到0.83,说明该题太容易。其他题目难易度均在0.3~0.7之间,难易度适中。
3)在汉字题51~80题中,难易度高于0.7,即题目偏易的有:
第52题 0.73
第53题 0.73
第54题 0.75
第55题 0.80
第57题 0.83
第58题 0.85
第71题 0.73
第69题 0.77
而难易度低于0.3,即题目偏难的有:
第63题 0.28
第64题 0.28
第65题 0.18
第66题 0.17
第68题 0.17
第72题 0.18
第74题 0.25
第75题 0.08
第76题 0.13
第77题 0.02
第78题 0.15
第79题 0.10
4)作文题,也是该测试唯一的主观评分题,难易度为0.35,说明题目稍难,但仍在可接受范围内。
2.讨论
(1)选择题第一部分1~30题中,偏易的题有3道,偏难的题有2道,难易度是非常合适的。
(2)选择题第二部分31~50题中,偏易的题有1道,偏难的题目没有,难易度也非常好。
(3)汉字题的难易度大起大落,一共30道题,偏易的题目有8道,偏难的题目达到了12道,第75题、77题的难易度甚至达到了0.08和0.02,说明只有一、两个人做对了,难度非常高。由此可以看出留学生的汉字基础比较差,一些容易点儿的汉字倒是大都掌握了,但是稍难一点儿的汉字则普遍掌握得非常差。
(4)作文题历来是难点,60人中,有8位学生只字未写,得分为0;作文分在1~5分之间的有16人(作文总分为15分);而作文得分较高,在10~15分之间的只有10人。也就是说,占总人数40%的人得分不足5分,得分超过10分的人只占16.7%。
(三)区分度
区分度是除难易度以外,衡量题目好坏的另一个指标。所谓区分度,就是指一个题目区分考生能力的程度(韩宝成、刘润清,1991:218),或者说是题目对被试的区分能力(张凯,1995:85)。区分度是单个题目最重要的一个性质,一个题目好不好,关键要看区分度高不高。
1.区分度检验
(1)区分度计算的方法
计算题目区分度的方法有很多,我们使用的方法是将考生按总分分为高分组和低分组,然后计算高分组考生答对该题目的人数占答对该题目的总人数的比例。所得数值越大说明该题目区分能力越强。人们一般认为,可接受的最低的区分度指数为0.65,低于0.65就可以认为该题目区分效果不佳。计算公式为:
其中:
D=区分度指数
Hc=高分组考生答对某个题目的总数
Lc=低分组考生答对某个题目的总数
(2)结果
1)选择题第一部分(1~30题),区分度低于0.65的题目有11道,它们是:
第2题 0.61
第3题 0.61
第7题 0.62
第11题 0.62
第12题 0.53
第13题 0.55
第16题 0.60
第21题 0.64
第22题 0.63
第28题 0.63
第29题 0.55
2)选择题第二部分(31~50题),区分度低于0.65的题目有3道,它们是:
第32题 0.58
第36题 0.63
第38题 0.63
3)汉字题(51~80题),区分度低于0.65的题目有8道,它们是:
第51题 0.62
第52题 0.57
第53题 0.61
第54题 0.64
第55题 0.60
第57题 0.56
第58题 0.57
第69题 0.61
4)作文题的区分度为0.72,区分度比较好。
2.讨论
(1)选择题第一部分的难易度适中,偏难和偏易的题目一共5道,但区分度较差的题目有11道,区分能力不太好。这大概是因为选择题都有备选答案,学生做题时有一定的猜测因素,猜中的几率较大。
(2)选择题第二部分的难易度很好,只有一道题目偏易。而这部分的区分度也不错,只有三道题目区分度不够。
(3)汉字题的难易度大起大落,前十题(51~60题)偏易,而汉字题中区分度差的题目也集中在前十题。第69题难易度偏易,区分度也偏差。这说明题目过于简单时,会严重影响区分度。
(4)作文题区分度比较适宜,说明题目选择比较合适。关于作文测试,一向有很多问题。让学生写一篇作文,其语言能力会充分地体现出来。因为写作测试是一种综合性测试,它不仅测验学生的词汇、用法、语法等语言要素,而且测验学生的组织能力、分析能力、表达能力、逻辑推理、对各种语体的掌握等。尽管写作如此重要,但由于其评分主观,效度高而信度很低,不十分可靠,而且评分过程很不经济,故经常被一些测试所弃用。众所周知,考试对教学有很强的反拨作用,考试中大量使用客观题,忽略写作测试的倾向对语言教学和学习会产生很大的冲击,结果会使学生把大量的时间花费在做多项选择题上,影响了语言运用能力的提高。所以,写作在语言测试中的地位是相当特殊、相当重要的,必须坚持使用。
(四)信度
测量的信度指的是测试的一致性。一把橡胶做的尺子不可能是一个很可信的测量工具,因为橡胶有伸缩性,冬天测量的结果和夏天测量的结果也会不一致,所以一个实验或测试的信度指它在重复测量时产生同样结果的程度。语言测试的信度是指考试结果的可靠性和稳定性。换句话说,拿同一份试卷对同一组学生实施两次或多次测试,如果结果很一致,那就说明该测试的信度较高。这种信度实际上有两层意思:由不同的评卷人阅卷,所得分数大致相同;同一个评卷人在不同的时间阅卷,分数也大致相同。信度通常以两次测试结果的相关系数来表示,这个相关系数称为信度系数(coefficient of reliability)。相关程度越高,信度也越高。
1.信度检验
(1)信度计算的方法
检验测试信度的方法有多种,但是如果试卷中有主观试题,用得较多的通常是Cronbach的α系数公式:
其中:
N=试卷中的大题数(即试卷由几个部分组成)
∑σ2(Yi)=每一大题的方差的总和
σ12=整份试卷的方差
(2)结果
我们的入学测试笔试部分的信度系数为0.8429,按照桂诗春、宁春岩(1997)的观点,一般测量均要求信度在0.90以上。
2.影响考试信度的因素
该测试的信度系数为0.8429,未达到0.90的要求,也就是说信度不够高。语言测试的对象是人,不是物,因为人的因素很不稳定,测量中的误差很难避免。要想两次测量的结果完全一样,很难做到。影响测试信度的因素有很多,例如举行测试的时间和环境。早晨举行的测试可能比晚上进行的测试得分高一些。在安静、舒适的环境中进行的测试可能比在又脏、又乱、又吵的环境中进行的测试得分高一些。考生中的个人因素也很重要,如情绪好坏,是否疲倦,有无头痛发烧等。不过最主要的因素有下面几条:
(1)试题的量是否足够大。因为只有保证足够的量,才能保证试卷的覆盖面更为合理。理论上讲,题目越多,信度越高。但一次考试的题目如果太多,考试时间过长,考生也受不了,也会影响信度。一般来讲,一份标准化试卷的题量应不低于90道题。
(2)题目是否属于同一性质,即试题是否属于同一范畴。例如,考汉语的试题中不能插入心理学测试的内容。
(3)题目的区分度是否高。区分度指题目能否把考生中好的和差的区分开来。题目的区分能力越高,测试的信度也就越高。
(4)考试之间的差异性是否大(表现为标准差很大)。这是指考生的分数分布情况是否呈现中间大、两头小的状态。这种分布统计学上称为正态分布(normal distribution)。在一次考试中,考生分数的分散情况越大,信度越高。(当然这与题目的区分度也有关系。)
(5)题目的难易度是否适中。题目太难或太易都会影响题目的区分度,从而影响测试的信度。
(6)评分是否客观。如果不同的评卷人会得出不同的分数,或者同一评卷人两次评阅容易得出不同的分数,那么这套试题的信度就会较差。客观测试的评分由于不受评卷人的影响,因此信度较高。主观测试的评分常常因人而异,所以难以达到较高的信度(刘润清、韩宝成,1991:214)。
(7)考试时间是否足够。目前所使用的信度公式,是以考生能够做完所有的题目为前提的,因此它用于估量能力考试的精确性要比估量速度考试的精确性高(桂诗春、宁春岩,1997:289)。
3.讨论
该测试信度系数为0.8429,低于基本要求0.90,根据影响信度的几大因素,分析如下:
(1)试题量方面,该测试包括选择题50道,汉字题30道和作文题(初级班二选一,打算上中级班的二选一加一)。从题量上来讲还算合适,接近标准化试题数不低于90道的要求,不至于对信度有太大影响。
(2)题目是否属于同一性质。根据笔者的判断,测试题目基本未涉及汉语知识以外的其他学科的内容,题目基本属于同一性质。
(3)题目的区分度如何。选择题第二部分和作文题的区分度相对较好,选择题第一部分和汉字题的区分度相对较差,其中选择题第一部分区分度最差。区分度差会对信度有较大影响。
(4)考试之间的差异性是否大。该测试的标准差为23.51,标准差较大。测试的偏态值为0.064,但峰值为-1.02,不满足正态分布所要求的偏态值和峰值控制在±1之内的要求,分数过于分散,这可能也是影响考试信度的一个因素。
(5)题目的难易度。该测试中的选择题难度较为适宜,汉字题难度大起大落,作文题偏难,可能也在一定程度上影响了测试信度。
(6)评分是否客观。客观试题的评分非常客观,信度更高,该测试包括15分的主观试题,即作文题,评分常因人而异,很可能影响信度。
(7)考试时间是否足够。该测试的时间要求为两个小时,除非水平太差,一般都能完成全部题目。因此时间问题应该不构成影响信度的因素。
综上所述,该测试信度水平不够高的原因可能有:选择题第一部分和汉字题的区分度较差;汉字题和作文题的难度不合适;作文题评分的主观性太强;分数统计的峰值较低,即中间分不够集中,各分数段的人数大致接近,可能是最重要的原因。
(五)效度
用简单的话来说,效度就是一个工具测量它所要测量的东西的程度。但是我们所要证明的不是测量工具本身是否有效,而是测量工具用来测量某种东西是否有效。一把用来称米的工具可以是有效的,但是用它来称金子就不一定有效了。因此效度又称有效性,是指一套测试所考的是否就是设计人想要考的内容,或者说,在多大程度上考了想要考的。美国心理学学会将效度概念阐述为“由测验分数所作出的推断的恰当程度、有意义程度和有用程度。”这个定义说明效度是与根据测验分数作出的推断紧密联系在一起的,它最终要落实到对分数的解释上。效度的高低是衡量语言测试最重要的指标,或者说是语言测试的基本出发点,一项效度很低的语言测试是没有意义的。
1.信度和效度是互为补充的。考察信度是为了回答这样的问题:“考试分数中有多少方差是由测量误差引起的?”和“有多少方差是测量误差以外的因素引起的?”测量误差以外的因素所引起的误差也可以叫做“可信方差”。考察效度是为回答这样的问题:“有哪些能力可以说明考试分数中的可信方差?”所以我们可以说,信度考虑的是考试分数中有多少方差是可信方差,而效度考虑的是哪些能力会导致可信方差。Campbell&Fiske指出:“信度是两种使用尽可能相似方法去测量同一种倾向的企图的一致性。效度是两种使用尽可能不同方法去测量同一倾向的企图的一致性。”
2.效度检验的结果
语言测试的种类不同,对各种效度的要求也不同。语言潜能测试多基于某种语言学习理论,因此重视结构效度。水平测试强调预测效度和共时效度。成绩测试和诊断测试受教学大纲的限制,首先要看内容效度。
入学测试属于一种水平测试,所以对于入学测试来说,需要考虑的是其预测效度和共时效度。共时效度和预测效度差不多,都是把考试分数和一定的效标相比较,因而同称为效标关联效度。两者的不同之处在于它们体现不同的考试目的。共时效度说明考试是否能判断考生语言能力的当前状况,预测效度则说明考试是否能预测考生语言能力将来的发展,一个是诊断现在,一个是预测将来。
(1)预测效度
预测效度表示的是某些标志考生将来能力的标准,即测试结果到底在多大程度上能够预测出某些将来会发生的可能性,或者说对考生未来的行为作出的预测准确性有多高。我们用入学测试的分数来作决策,预测考生胜任某一程度的班级之学习任务的能力。预测效度一般是拿一次测试的结果同后来的测试结果进行比较,看两者是否有相关性。在60名参加入学测试的考生中,我们收集到了其中14位考生在其后一年内的HSK成绩,计算两次测试的相关系数,如果相关系数很高,说明我们的入学测试有较好的预测效度,反之则说明入学测试的预测效度差。
由于入学测试成绩和HSK成绩都是等距量表,故我们采用皮尔逊积差相关系数,计算结果r=0.713,由于样本数量为14,取自由度12,查皮尔逊相关系数表,当单侧检验取α=0.01时,r=0.612,因0.713>0.612,所以,学生的入学测试成绩和HSK成绩在0.01的水平上显著相关,或者,我们有99%的把握说,学生的入学测试成绩和HSK成绩是相关的。
(2)共时效度
共时效度表示的是一个考试分数和另一个同时使用的标准的关系。这是在建立标准化考试的过程中经常使用的一种手段。考察共时效度一般的方法是将一次测试的结果同另一次同时或时间相近的测试的结果相比较,或同教师对学生的评估相比较而得出的系数。我们采用的方法是与教师对学生的评估相比较。
我们在这60名学生中找了36名,设计了一份问卷调查,找到这些学生参加入学测试后被分入的班级的主要任课教师,请教师就他们当时的水平是否适合该班级程度作出评价,评价分为五等:非常适合、比较适合、马马虎虎、不太适合和非常不适合。问卷统计结果如下:
在这36位学生中,分班结果“非常合适”的有14名,占39%;“比较合适”的有10名,占28%;“马马虎虎”的有9名,占25%;“不太合适”的有3名,占8%。“非常不合适”的没有。
综合起来看,根据分班测试分数所做的决策,达到“合适”标准的占到了67%,这个结果是可以接受的。
不过,需要补充的是,由于学生分班后可以有一周时间根据自己的水平调换班级,所以老师判断的结果可能是依据调整后的结果,而不完全是按照入学测试成绩分班的结果,因此这项结果仅供参考。
(六)偏态值和峰值
一次考试的分数分布是否符合正态,可以使用公式计算其偏态值和峰值,来看分数的分布是否正态。正如上文所述,一般来讲,一个考试的偏态值和峰值如果能控制在±1之内,其分数分布可认为基本符合正态分布。
1.偏态值
如果偏态值大于0,表明分数的分布为正偏态,即分数分布曲线的峰偏向了左边,也就是偏向了低分区,换句话说,低于平均分的人数超过了总人数的50%。如果偏态值小于0,表明分数的分布为负偏态,即分数分布曲线的峰偏向了右边,也就是偏向了高分区,此时,得分高于平均分的人数超过了总人数的50%。最理想的偏态值应为0,因为这个时候的曲线分布为正态。
入学测试题的偏态值为0.064,属稍微正偏态,也就是说超过50%的考生成绩低于平均分。
2.峰值
峰值表示分数分布曲线的峰是高尖的还是矮平的。如果峰值大于0,说明曲线的峰比理想的峰高尖,也就是说考试分数多集中在中间段。如果峰值小于0,表示曲线的峰比理想的峰矮平,也就是说考试分数过分散开。同偏态值一样,最理想的峰值也应为0。
3.分析
入学测试题的峰值为-1.02,峰值低于-1,说明峰呈矮平状,分数分布极为分散,基本不符合正态分布。
三、改进建议
从上面的统计分析结果可以发现,我们目前采用的这套入学测试笔试试题从总体上说,不失为一份质量较高、比较实用的试题。但是就它的信度指标、分数的分布形态以及汉字题部分的难易度和区分度方面还有一些不尽如人意的地方。我们尝试了一些改进的方法。
(一)汉字题部分的改进建议
通过对题目内在性质的统计分析,选择题第一部分、第二部分以及作文题的题目参数表现出了较高的质量,但汉字题部分的统计参数难以令人满意。汉字题部分包括30道题目,难易度偏易的有8道,偏难的有12道,难易度不合适的题目约占总题数的66%,而区分度方面,区分度较低的题目也占了近30%。建议通过分散预测的方法,选择一些质量更高的题目替换掉现有题目。
具体做法是:另外设计一些汉字题,加入学生平时的成绩测验中,施测后考察题目参数,用其中表现出较高质量的题目替换那些难易度和区分度不高的现有题目。
(二)改进试题的分数体系
1.改进方法
现行的试题其分数体系是这样构成的:
选择题第一部分共30题,共30分,每题1分;
选择题第二部分共20题,共40分,每题2分;
汉字题共30题,共15分,每题0.5分;
作文题共15分。
改进后的分数构成为:
选择题第一部分共30题,共30分,每题1分;
选择题第二部分共20题,共20分,每题1分;
汉字题共30题,共30分,每题1分;
作文题共20分。
2.统计结果
(1)难易度
选择题第一部分中第11、13、20题偏易,第18、27题偏难。
选择题第二部分中只有第32题偏易,其它题目难易适中。
汉字题第52、53、54、55、57、58、69、71题偏易,第63、64、65、66、68、72、74、75、76、77、78、79题偏难。
作文题难易度为0.35,稍微偏难,但仍在可接受范围内。
(2)区分度
选择题第一部分中第2、3、7、11、12、13、16、21、22、28、29题区分度较低;
选择题第二部分中第32、36、38题区分度较低;
汉字题中第51、52、53、54、55、57、58、69题区分度较低;
(3)信度
改进分数体系后的信度系数为0.906,符合一般测试的信度要求,优于以往分数体系的信度系数0.8429。
(4)效度
改进分数体系后的效度结果为,皮尔逊积差相关系数r=0.703,也在0.01的水平上存在显著相关关系,这和改进前的相关系数r=0.713没有本质上的差别。
(5)偏态值和峰值
改进分数体系后,偏态值和峰值分别为0.114和-0.91。偏态值0.114属稍微正偏态,说明超过50%的学生分数低于平均分,峰值-0.91,表明分数分布曲线的峰矮平,也就是分数过于散开。但偏态值与峰值都在±1之内,可以认为其分数分布基本符合正态分布。
3.讨论
综合上述统计结果,可以认为,改进分数体系后:
(1)试题的信度系数明显优于改进前;信度是衡量测试质量的重要指标,信度系数高,说明测试的稳定性高,可以证明该测试是一个可信的测量工具。
(2)从峰值和偏态值反映出来的分数分布情况也明显优于改进前。改进前,分数分布不符合正态分布的基本要求,改进后基本符合。测试的分数分布符合正态分布,可以从一个侧面说明测试的科学性,并且是利用该测验成绩进行各项统计工作的必要前提。
(3)难易度、区分度和效度指标与改进前接近,没有显著差异。
4.结论
分数体系改进后的统计指标大都优于改进前,且标准化测试部分的每一小题的分数都统一为1分,非常便于统计计算。因此此项改进既有必要性又有可行性。
四、结语
笔者所在的首都经贸大学的入学测试笔试试题,其难易度、区分度和效度指标都比较令人满意,但信度系数稍低,分数分布基本不符合正态分布的要求。另外,汉字题部分一些题目质量欠佳。因此,建议替换部分汉字题,并改进分数体系。如果标准化试题部分统一改为0/1评分,则既简化了计分办法,信度系数和分数分布又优于以往的分数体系。
参考文献:
[1]戴海崎,张峰,陈雪枫.心理教育测量[M].广州:暨南大学出版
社,1999.
[2]桂诗春,宁春岩.语言学方法论[M].北京:外语教学与研究出版
社,1997.
[3]韩宝成.外语教学科研中的统计方法[M].北京:外语教学与研究
出版社,2000.
[4]刘润清,韩宝成.语言测试和它的方法[M].北京:外语教学与研
究出版社,1991.
[5]张凯.汉语水平考试结构效度初探[A].首届汉语考试国际学术讨
论会论文选[C].北京:北京语言学院出版社,1995.
[6]张凯.语言测验理论与实践[M].北京:北京语言大学出版社,2002.
[7]张凯.语言测试理论及汉语测试研究[M].北京:商务印书馆,2006.
(常晓宇 刘文政 北京 首都经贸大学对外文化交流学院 100026)
关键词:入学测试 科学化 难易度 区分度 信度 效度
一、引言
入学测试又称分班测试或编班测试,往往是在新生入学后对学生进行的全面检查。目的是为了了解一下学生的入学水平,以便把学生按照程度进行分班或分组,从而使各个班、组的学生在水平较近的起点上开始学习,免得大家参差不齐,互相牵制,从而影响教学效果和学习效果。现代教育理论强调因材施教,对不同类型、不同水平的学生要分别采取不同的教学方法、不同的教学内容。入学测试关心的是受试者目前的知识水平及能力,考查的是学生的整体能力。这种测试一般来说只要把学生分出几大组就可以了,不必区分得十分细致。
入学测试试题设计得科学与否,很大程度上影响着教学过程和教学效果,因此考察它的科学化程度并对其进行改进是很有必要的。
现行的入学测试包括笔试和口试两部分。但是口试部分多年来依靠教师的主观判断,且没有留下充足的书面数据。这两个原因,尤其是后者使得我们对口试部分严重缺乏考察依据,因此本文的考察内容仅限于入学测试的笔试部分。评价一个测试的好坏,一般从难易度、区分度、信度和效度以及实用性和后效作用这些方面进行讨论,因此我们也将从这几个方面入手。
二、正文
(一)几点说明
1.数据收集
研究收集了60名外国留学生的入学测试答卷,完全符合统计学上的大样本要求(根据统计学上的中心极限定理,抽样数在30或30以上时,样本平均数的分布几乎完全呈正态分布)。这60位留学生分别来自23个国家,其中日本学生22名,俄罗斯学生4名,朝鲜、韩国、德国、吉尔吉斯斯坦、印尼、哈萨克斯坦、巴西、法国和越南学生各2名,蒙古、白俄罗斯、印度、埃及、丹麦、瑞士、阿尔巴尼亚、乌兹别克斯坦、阿塞拜疆、哥伦比亚、摩尔多瓦、意大利学生各1名。另有2人未注明国籍。
需要说明的是,准备就读零起点班的学生不必参加该入学测试,因此参加测试的学生至少已经具备了一点汉语知识,不至于出现分数为0的试卷。
2.试卷组成
这份入学测试笔试试题由三大部分组成:选择题(分为两大部分)、汉字题和作文题。分数设置为:
选择题第一部分(1~30题)共30分,每题1分;
选择题第二部分(31~50题)共40分,每题2分;
汉字题(51~80题)共15分,每题0.5分;
作文题(二选一,欲就读中级班的学生还需另加一题)共15分。
(二)难易度
难易度,指测验中所有题目的平均难易度,即全体被试在所有题目上的通过率的平均数。信度和效度是针对整个试卷而言,而难易度是针对每个题目而言。在一个理想的测验中,每个题目的难易度应分布在0.30~0.70这个范围内,平均难易度应在0.50上下。低于0.3或高于0.7的题目不能太多。
1.难易度检验
(1)难易度通常用P来表示。由于选择题、汉字题这两部分题目都使用0/1评分,所以这里的难易度指的就是答对率,即:
而作文题这种主观性试题的难易度,则采用下面的公式:
(2)结果
1)在选择题的第一部分1~30题中,难易度高于0.7,也就是说题目偏易的有:
第11题 0.78
第13题 0.82
第20题 0.87
而难易度低于0.3,也就是说题目偏难的有:
第19题 0.20
第27题 0.17
2)在选择题的第二部分31~50题中,只有第32题难易度高于0.7,达到0.83,说明该题太容易。其他题目难易度均在0.3~0.7之间,难易度适中。
3)在汉字题51~80题中,难易度高于0.7,即题目偏易的有:
第52题 0.73
第53题 0.73
第54题 0.75
第55题 0.80
第57题 0.83
第58题 0.85
第71题 0.73
第69题 0.77
而难易度低于0.3,即题目偏难的有:
第63题 0.28
第64题 0.28
第65题 0.18
第66题 0.17
第68题 0.17
第72题 0.18
第74题 0.25
第75题 0.08
第76题 0.13
第77题 0.02
第78题 0.15
第79题 0.10
4)作文题,也是该测试唯一的主观评分题,难易度为0.35,说明题目稍难,但仍在可接受范围内。
2.讨论
(1)选择题第一部分1~30题中,偏易的题有3道,偏难的题有2道,难易度是非常合适的。
(2)选择题第二部分31~50题中,偏易的题有1道,偏难的题目没有,难易度也非常好。
(3)汉字题的难易度大起大落,一共30道题,偏易的题目有8道,偏难的题目达到了12道,第75题、77题的难易度甚至达到了0.08和0.02,说明只有一、两个人做对了,难度非常高。由此可以看出留学生的汉字基础比较差,一些容易点儿的汉字倒是大都掌握了,但是稍难一点儿的汉字则普遍掌握得非常差。
(4)作文题历来是难点,60人中,有8位学生只字未写,得分为0;作文分在1~5分之间的有16人(作文总分为15分);而作文得分较高,在10~15分之间的只有10人。也就是说,占总人数40%的人得分不足5分,得分超过10分的人只占16.7%。
(三)区分度
区分度是除难易度以外,衡量题目好坏的另一个指标。所谓区分度,就是指一个题目区分考生能力的程度(韩宝成、刘润清,1991:218),或者说是题目对被试的区分能力(张凯,1995:85)。区分度是单个题目最重要的一个性质,一个题目好不好,关键要看区分度高不高。
1.区分度检验
(1)区分度计算的方法
计算题目区分度的方法有很多,我们使用的方法是将考生按总分分为高分组和低分组,然后计算高分组考生答对该题目的人数占答对该题目的总人数的比例。所得数值越大说明该题目区分能力越强。人们一般认为,可接受的最低的区分度指数为0.65,低于0.65就可以认为该题目区分效果不佳。计算公式为:
其中:
D=区分度指数
Hc=高分组考生答对某个题目的总数
Lc=低分组考生答对某个题目的总数
(2)结果
1)选择题第一部分(1~30题),区分度低于0.65的题目有11道,它们是:
第2题 0.61
第3题 0.61
第7题 0.62
第11题 0.62
第12题 0.53
第13题 0.55
第16题 0.60
第21题 0.64
第22题 0.63
第28题 0.63
第29题 0.55
2)选择题第二部分(31~50题),区分度低于0.65的题目有3道,它们是:
第32题 0.58
第36题 0.63
第38题 0.63
3)汉字题(51~80题),区分度低于0.65的题目有8道,它们是:
第51题 0.62
第52题 0.57
第53题 0.61
第54题 0.64
第55题 0.60
第57题 0.56
第58题 0.57
第69题 0.61
4)作文题的区分度为0.72,区分度比较好。
2.讨论
(1)选择题第一部分的难易度适中,偏难和偏易的题目一共5道,但区分度较差的题目有11道,区分能力不太好。这大概是因为选择题都有备选答案,学生做题时有一定的猜测因素,猜中的几率较大。
(2)选择题第二部分的难易度很好,只有一道题目偏易。而这部分的区分度也不错,只有三道题目区分度不够。
(3)汉字题的难易度大起大落,前十题(51~60题)偏易,而汉字题中区分度差的题目也集中在前十题。第69题难易度偏易,区分度也偏差。这说明题目过于简单时,会严重影响区分度。
(4)作文题区分度比较适宜,说明题目选择比较合适。关于作文测试,一向有很多问题。让学生写一篇作文,其语言能力会充分地体现出来。因为写作测试是一种综合性测试,它不仅测验学生的词汇、用法、语法等语言要素,而且测验学生的组织能力、分析能力、表达能力、逻辑推理、对各种语体的掌握等。尽管写作如此重要,但由于其评分主观,效度高而信度很低,不十分可靠,而且评分过程很不经济,故经常被一些测试所弃用。众所周知,考试对教学有很强的反拨作用,考试中大量使用客观题,忽略写作测试的倾向对语言教学和学习会产生很大的冲击,结果会使学生把大量的时间花费在做多项选择题上,影响了语言运用能力的提高。所以,写作在语言测试中的地位是相当特殊、相当重要的,必须坚持使用。
(四)信度
测量的信度指的是测试的一致性。一把橡胶做的尺子不可能是一个很可信的测量工具,因为橡胶有伸缩性,冬天测量的结果和夏天测量的结果也会不一致,所以一个实验或测试的信度指它在重复测量时产生同样结果的程度。语言测试的信度是指考试结果的可靠性和稳定性。换句话说,拿同一份试卷对同一组学生实施两次或多次测试,如果结果很一致,那就说明该测试的信度较高。这种信度实际上有两层意思:由不同的评卷人阅卷,所得分数大致相同;同一个评卷人在不同的时间阅卷,分数也大致相同。信度通常以两次测试结果的相关系数来表示,这个相关系数称为信度系数(coefficient of reliability)。相关程度越高,信度也越高。
1.信度检验
(1)信度计算的方法
检验测试信度的方法有多种,但是如果试卷中有主观试题,用得较多的通常是Cronbach的α系数公式:
其中:
N=试卷中的大题数(即试卷由几个部分组成)
∑σ2(Yi)=每一大题的方差的总和
σ12=整份试卷的方差
(2)结果
我们的入学测试笔试部分的信度系数为0.8429,按照桂诗春、宁春岩(1997)的观点,一般测量均要求信度在0.90以上。
2.影响考试信度的因素
该测试的信度系数为0.8429,未达到0.90的要求,也就是说信度不够高。语言测试的对象是人,不是物,因为人的因素很不稳定,测量中的误差很难避免。要想两次测量的结果完全一样,很难做到。影响测试信度的因素有很多,例如举行测试的时间和环境。早晨举行的测试可能比晚上进行的测试得分高一些。在安静、舒适的环境中进行的测试可能比在又脏、又乱、又吵的环境中进行的测试得分高一些。考生中的个人因素也很重要,如情绪好坏,是否疲倦,有无头痛发烧等。不过最主要的因素有下面几条:
(1)试题的量是否足够大。因为只有保证足够的量,才能保证试卷的覆盖面更为合理。理论上讲,题目越多,信度越高。但一次考试的题目如果太多,考试时间过长,考生也受不了,也会影响信度。一般来讲,一份标准化试卷的题量应不低于90道题。
(2)题目是否属于同一性质,即试题是否属于同一范畴。例如,考汉语的试题中不能插入心理学测试的内容。
(3)题目的区分度是否高。区分度指题目能否把考生中好的和差的区分开来。题目的区分能力越高,测试的信度也就越高。
(4)考试之间的差异性是否大(表现为标准差很大)。这是指考生的分数分布情况是否呈现中间大、两头小的状态。这种分布统计学上称为正态分布(normal distribution)。在一次考试中,考生分数的分散情况越大,信度越高。(当然这与题目的区分度也有关系。)
(5)题目的难易度是否适中。题目太难或太易都会影响题目的区分度,从而影响测试的信度。
(6)评分是否客观。如果不同的评卷人会得出不同的分数,或者同一评卷人两次评阅容易得出不同的分数,那么这套试题的信度就会较差。客观测试的评分由于不受评卷人的影响,因此信度较高。主观测试的评分常常因人而异,所以难以达到较高的信度(刘润清、韩宝成,1991:214)。
(7)考试时间是否足够。目前所使用的信度公式,是以考生能够做完所有的题目为前提的,因此它用于估量能力考试的精确性要比估量速度考试的精确性高(桂诗春、宁春岩,1997:289)。
3.讨论
该测试信度系数为0.8429,低于基本要求0.90,根据影响信度的几大因素,分析如下:
(1)试题量方面,该测试包括选择题50道,汉字题30道和作文题(初级班二选一,打算上中级班的二选一加一)。从题量上来讲还算合适,接近标准化试题数不低于90道的要求,不至于对信度有太大影响。
(2)题目是否属于同一性质。根据笔者的判断,测试题目基本未涉及汉语知识以外的其他学科的内容,题目基本属于同一性质。
(3)题目的区分度如何。选择题第二部分和作文题的区分度相对较好,选择题第一部分和汉字题的区分度相对较差,其中选择题第一部分区分度最差。区分度差会对信度有较大影响。
(4)考试之间的差异性是否大。该测试的标准差为23.51,标准差较大。测试的偏态值为0.064,但峰值为-1.02,不满足正态分布所要求的偏态值和峰值控制在±1之内的要求,分数过于分散,这可能也是影响考试信度的一个因素。
(5)题目的难易度。该测试中的选择题难度较为适宜,汉字题难度大起大落,作文题偏难,可能也在一定程度上影响了测试信度。
(6)评分是否客观。客观试题的评分非常客观,信度更高,该测试包括15分的主观试题,即作文题,评分常因人而异,很可能影响信度。
(7)考试时间是否足够。该测试的时间要求为两个小时,除非水平太差,一般都能完成全部题目。因此时间问题应该不构成影响信度的因素。
综上所述,该测试信度水平不够高的原因可能有:选择题第一部分和汉字题的区分度较差;汉字题和作文题的难度不合适;作文题评分的主观性太强;分数统计的峰值较低,即中间分不够集中,各分数段的人数大致接近,可能是最重要的原因。
(五)效度
用简单的话来说,效度就是一个工具测量它所要测量的东西的程度。但是我们所要证明的不是测量工具本身是否有效,而是测量工具用来测量某种东西是否有效。一把用来称米的工具可以是有效的,但是用它来称金子就不一定有效了。因此效度又称有效性,是指一套测试所考的是否就是设计人想要考的内容,或者说,在多大程度上考了想要考的。美国心理学学会将效度概念阐述为“由测验分数所作出的推断的恰当程度、有意义程度和有用程度。”这个定义说明效度是与根据测验分数作出的推断紧密联系在一起的,它最终要落实到对分数的解释上。效度的高低是衡量语言测试最重要的指标,或者说是语言测试的基本出发点,一项效度很低的语言测试是没有意义的。
1.信度和效度是互为补充的。考察信度是为了回答这样的问题:“考试分数中有多少方差是由测量误差引起的?”和“有多少方差是测量误差以外的因素引起的?”测量误差以外的因素所引起的误差也可以叫做“可信方差”。考察效度是为回答这样的问题:“有哪些能力可以说明考试分数中的可信方差?”所以我们可以说,信度考虑的是考试分数中有多少方差是可信方差,而效度考虑的是哪些能力会导致可信方差。Campbell&Fiske指出:“信度是两种使用尽可能相似方法去测量同一种倾向的企图的一致性。效度是两种使用尽可能不同方法去测量同一倾向的企图的一致性。”
2.效度检验的结果
语言测试的种类不同,对各种效度的要求也不同。语言潜能测试多基于某种语言学习理论,因此重视结构效度。水平测试强调预测效度和共时效度。成绩测试和诊断测试受教学大纲的限制,首先要看内容效度。
入学测试属于一种水平测试,所以对于入学测试来说,需要考虑的是其预测效度和共时效度。共时效度和预测效度差不多,都是把考试分数和一定的效标相比较,因而同称为效标关联效度。两者的不同之处在于它们体现不同的考试目的。共时效度说明考试是否能判断考生语言能力的当前状况,预测效度则说明考试是否能预测考生语言能力将来的发展,一个是诊断现在,一个是预测将来。
(1)预测效度
预测效度表示的是某些标志考生将来能力的标准,即测试结果到底在多大程度上能够预测出某些将来会发生的可能性,或者说对考生未来的行为作出的预测准确性有多高。我们用入学测试的分数来作决策,预测考生胜任某一程度的班级之学习任务的能力。预测效度一般是拿一次测试的结果同后来的测试结果进行比较,看两者是否有相关性。在60名参加入学测试的考生中,我们收集到了其中14位考生在其后一年内的HSK成绩,计算两次测试的相关系数,如果相关系数很高,说明我们的入学测试有较好的预测效度,反之则说明入学测试的预测效度差。
由于入学测试成绩和HSK成绩都是等距量表,故我们采用皮尔逊积差相关系数,计算结果r=0.713,由于样本数量为14,取自由度12,查皮尔逊相关系数表,当单侧检验取α=0.01时,r=0.612,因0.713>0.612,所以,学生的入学测试成绩和HSK成绩在0.01的水平上显著相关,或者,我们有99%的把握说,学生的入学测试成绩和HSK成绩是相关的。
(2)共时效度
共时效度表示的是一个考试分数和另一个同时使用的标准的关系。这是在建立标准化考试的过程中经常使用的一种手段。考察共时效度一般的方法是将一次测试的结果同另一次同时或时间相近的测试的结果相比较,或同教师对学生的评估相比较而得出的系数。我们采用的方法是与教师对学生的评估相比较。
我们在这60名学生中找了36名,设计了一份问卷调查,找到这些学生参加入学测试后被分入的班级的主要任课教师,请教师就他们当时的水平是否适合该班级程度作出评价,评价分为五等:非常适合、比较适合、马马虎虎、不太适合和非常不适合。问卷统计结果如下:
在这36位学生中,分班结果“非常合适”的有14名,占39%;“比较合适”的有10名,占28%;“马马虎虎”的有9名,占25%;“不太合适”的有3名,占8%。“非常不合适”的没有。
综合起来看,根据分班测试分数所做的决策,达到“合适”标准的占到了67%,这个结果是可以接受的。
不过,需要补充的是,由于学生分班后可以有一周时间根据自己的水平调换班级,所以老师判断的结果可能是依据调整后的结果,而不完全是按照入学测试成绩分班的结果,因此这项结果仅供参考。
(六)偏态值和峰值
一次考试的分数分布是否符合正态,可以使用公式计算其偏态值和峰值,来看分数的分布是否正态。正如上文所述,一般来讲,一个考试的偏态值和峰值如果能控制在±1之内,其分数分布可认为基本符合正态分布。
1.偏态值
如果偏态值大于0,表明分数的分布为正偏态,即分数分布曲线的峰偏向了左边,也就是偏向了低分区,换句话说,低于平均分的人数超过了总人数的50%。如果偏态值小于0,表明分数的分布为负偏态,即分数分布曲线的峰偏向了右边,也就是偏向了高分区,此时,得分高于平均分的人数超过了总人数的50%。最理想的偏态值应为0,因为这个时候的曲线分布为正态。
入学测试题的偏态值为0.064,属稍微正偏态,也就是说超过50%的考生成绩低于平均分。
2.峰值
峰值表示分数分布曲线的峰是高尖的还是矮平的。如果峰值大于0,说明曲线的峰比理想的峰高尖,也就是说考试分数多集中在中间段。如果峰值小于0,表示曲线的峰比理想的峰矮平,也就是说考试分数过分散开。同偏态值一样,最理想的峰值也应为0。
3.分析
入学测试题的峰值为-1.02,峰值低于-1,说明峰呈矮平状,分数分布极为分散,基本不符合正态分布。
三、改进建议
从上面的统计分析结果可以发现,我们目前采用的这套入学测试笔试试题从总体上说,不失为一份质量较高、比较实用的试题。但是就它的信度指标、分数的分布形态以及汉字题部分的难易度和区分度方面还有一些不尽如人意的地方。我们尝试了一些改进的方法。
(一)汉字题部分的改进建议
通过对题目内在性质的统计分析,选择题第一部分、第二部分以及作文题的题目参数表现出了较高的质量,但汉字题部分的统计参数难以令人满意。汉字题部分包括30道题目,难易度偏易的有8道,偏难的有12道,难易度不合适的题目约占总题数的66%,而区分度方面,区分度较低的题目也占了近30%。建议通过分散预测的方法,选择一些质量更高的题目替换掉现有题目。
具体做法是:另外设计一些汉字题,加入学生平时的成绩测验中,施测后考察题目参数,用其中表现出较高质量的题目替换那些难易度和区分度不高的现有题目。
(二)改进试题的分数体系
1.改进方法
现行的试题其分数体系是这样构成的:
选择题第一部分共30题,共30分,每题1分;
选择题第二部分共20题,共40分,每题2分;
汉字题共30题,共15分,每题0.5分;
作文题共15分。
改进后的分数构成为:
选择题第一部分共30题,共30分,每题1分;
选择题第二部分共20题,共20分,每题1分;
汉字题共30题,共30分,每题1分;
作文题共20分。
2.统计结果
(1)难易度
选择题第一部分中第11、13、20题偏易,第18、27题偏难。
选择题第二部分中只有第32题偏易,其它题目难易适中。
汉字题第52、53、54、55、57、58、69、71题偏易,第63、64、65、66、68、72、74、75、76、77、78、79题偏难。
作文题难易度为0.35,稍微偏难,但仍在可接受范围内。
(2)区分度
选择题第一部分中第2、3、7、11、12、13、16、21、22、28、29题区分度较低;
选择题第二部分中第32、36、38题区分度较低;
汉字题中第51、52、53、54、55、57、58、69题区分度较低;
(3)信度
改进分数体系后的信度系数为0.906,符合一般测试的信度要求,优于以往分数体系的信度系数0.8429。
(4)效度
改进分数体系后的效度结果为,皮尔逊积差相关系数r=0.703,也在0.01的水平上存在显著相关关系,这和改进前的相关系数r=0.713没有本质上的差别。
(5)偏态值和峰值
改进分数体系后,偏态值和峰值分别为0.114和-0.91。偏态值0.114属稍微正偏态,说明超过50%的学生分数低于平均分,峰值-0.91,表明分数分布曲线的峰矮平,也就是分数过于散开。但偏态值与峰值都在±1之内,可以认为其分数分布基本符合正态分布。
3.讨论
综合上述统计结果,可以认为,改进分数体系后:
(1)试题的信度系数明显优于改进前;信度是衡量测试质量的重要指标,信度系数高,说明测试的稳定性高,可以证明该测试是一个可信的测量工具。
(2)从峰值和偏态值反映出来的分数分布情况也明显优于改进前。改进前,分数分布不符合正态分布的基本要求,改进后基本符合。测试的分数分布符合正态分布,可以从一个侧面说明测试的科学性,并且是利用该测验成绩进行各项统计工作的必要前提。
(3)难易度、区分度和效度指标与改进前接近,没有显著差异。
4.结论
分数体系改进后的统计指标大都优于改进前,且标准化测试部分的每一小题的分数都统一为1分,非常便于统计计算。因此此项改进既有必要性又有可行性。
四、结语
笔者所在的首都经贸大学的入学测试笔试试题,其难易度、区分度和效度指标都比较令人满意,但信度系数稍低,分数分布基本不符合正态分布的要求。另外,汉字题部分一些题目质量欠佳。因此,建议替换部分汉字题,并改进分数体系。如果标准化试题部分统一改为0/1评分,则既简化了计分办法,信度系数和分数分布又优于以往的分数体系。
参考文献:
[1]戴海崎,张峰,陈雪枫.心理教育测量[M].广州:暨南大学出版
社,1999.
[2]桂诗春,宁春岩.语言学方法论[M].北京:外语教学与研究出版
社,1997.
[3]韩宝成.外语教学科研中的统计方法[M].北京:外语教学与研究
出版社,2000.
[4]刘润清,韩宝成.语言测试和它的方法[M].北京:外语教学与研
究出版社,1991.
[5]张凯.汉语水平考试结构效度初探[A].首届汉语考试国际学术讨
论会论文选[C].北京:北京语言学院出版社,1995.
[6]张凯.语言测验理论与实践[M].北京:北京语言大学出版社,2002.
[7]张凯.语言测试理论及汉语测试研究[M].北京:商务印书馆,2006.
(常晓宇 刘文政 北京 首都经贸大学对外文化交流学院 100026)