语言测试设计的标准

周志高 提交于 周一, 12/02/2019 - 20:22

语言测试是整个外语教学过程中的一部分,其结果往往是评估教师水平、教学效果和教学质量的重要依据,也是对学生进行评估和做出决定的重要依据。为了使语言测试合理、有效,一般要按照一定的标准来设计。评估语言测试的标准有:信度、效度、区分度、难度。

  • 信度(Reliability)
    • 测试的信度包含两个方面:测试本身的可信度(test reliability)和评分的可信度(scorer reliability)。
    • Test reliability 主要与它的内部一致性有关。如果考生在不同的时间参加同一测试而得分截然不同,其可靠性就值得怀疑。检测 test reliability 的方法主要有两种:
      • 连续测试法。让学生在不同时间做同一试题,然后比较其结果;
      • 一分为二测试法。将一份测试的内容分为两半,对比考生这两部分的结果。
    • Scorer reliability 包括两个方面:
      • 同一评分人前后标准的一致性;
      • 不同评分人所用标准的一致性。
  • 效度(Validity)
    • 效度是指一份测试能在多大程度上达到考查的目的,反映所要测量的内容的真实含义。如果一套试卷具体考查数种语言技能或考查内容超出了考查目的,那么其效度就大大降低。效度是衡量语言测试最重要的指标,一般认为效度有五种:
      • 表面效度(Face validity)
      • 结构效度(Construct validity)
      • 内容效度(Content validity)
      • 共时效度(Concurrent validity)
      • 预示效度(Predictive validity)
  • 区分度(Discrimination)
    • 区分度是指测试对不同水平的学生能够区分的程度,即具有区分不同学生水平的能力。区分度与难度有关,难度和区分度的高低,直接影响着测试的信度和效度。
  • 难度(Difficulty)
    • 难度即测试题目的难易程度。难度是衡量试题质量的主要指标之一,和区分度共同影响并决定试卷的鉴别性。难度的计算一般采用某题目的通过率或平均得分率。测试的难度水平多高才合适,这取决于测试的目的、题目的形式和测试的性质。