语言测试是整个外语教学过程中的一部分,其结果往往是评估教师水平、教学效果和教学质量的重要依据,也是对学生进行评估和做出决定的重要依据。为了使语言测试合理、有效,一般要按照一定的标准来设计。评估语言测试的标准有:信度、效度、区分度、难度。
- 信度(Reliability)
- 测试的信度包含两个方面:测试本身的可信度(test reliability)和评分的可信度(scorer reliability)。
- Test reliability 主要与它的内部一致性有关。如果考生在不同的时间参加同一测试而得分截然不同,其可靠性就值得怀疑。检测 test reliability 的方法主要有两种:
- 连续测试法。让学生在不同时间做同一试题,然后比较其结果;
- 一分为二测试法。将一份测试的内容分为两半,对比考生这两部分的结果。
- Scorer reliability 包括两个方面:
- 同一评分人前后标准的一致性;
- 不同评分人所用标准的一致性。
- 效度(Validity)
- 效度是指一份测试能在多大程度上达到考查的目的,反映所要测量的内容的真实含义。如果一套试卷具体考查数种语言技能或考查内容超出了考查目的,那么其效度就大大降低。效度是衡量语言测试最重要的指标,一般认为效度有五种:
- 表面效度(Face validity)
- 结构效度(Construct validity)
- 内容效度(Content validity)
- 共时效度(Concurrent validity)
- 预示效度(Predictive validity)
- 效度是指一份测试能在多大程度上达到考查的目的,反映所要测量的内容的真实含义。如果一套试卷具体考查数种语言技能或考查内容超出了考查目的,那么其效度就大大降低。效度是衡量语言测试最重要的指标,一般认为效度有五种:
- 区分度(Discrimination)
- 区分度是指测试对不同水平的学生能够区分的程度,即具有区分不同学生水平的能力。区分度与难度有关,难度和区分度的高低,直接影响着测试的信度和效度。
- 难度(Difficulty)
- 难度即测试题目的难易程度。难度是衡量试题质量的主要指标之一,和区分度共同影响并决定试卷的鉴别性。难度的计算一般采用某题目的通过率或平均得分率。测试的难度水平多高才合适,这取决于测试的目的、题目的形式和测试的性质。