AAAAEnglish-英语教学研究|语言测试设计的标准

由周志高提交于周一, 12/02/2019 - 20:22

语言测试是整个外语教学过程中的一部分，其结果往往是评估教师水平、教学效果和教学质量的重要依据，也是对学生进行评估和做出决定的重要依据。为了使语言测试合理、有效，一般要按照一定的标准来设计。评估语言测试的标准有：信度、效度、区分度、难度。

信度（Reliability）
- 测试的信度包含两个方面：测试本身的可信度（test reliability）和评分的可信度（scorer reliability）。
- Test reliability 主要与它的内部一致性有关。如果考生在不同的时间参加同一测试而得分截然不同，其可靠性就值得怀疑。检测 test reliability 的方法主要有两种：
  - 连续测试法。让学生在不同时间做同一试题，然后比较其结果；
  - 一分为二测试法。将一份测试的内容分为两半，对比考生这两部分的结果。
- Scorer reliability 包括两个方面：
  - 同一评分人前后标准的一致性；
  - 不同评分人所用标准的一致性。
效度（Validity）
- 效度是指一份测试能在多大程度上达到考查的目的，反映所要测量的内容的真实含义。如果一套试卷具体考查数种语言技能或考查内容超出了考查目的，那么其效度就大大降低。效度是衡量语言测试最重要的指标，一般认为效度有五种：
  - 表面效度（Face validity）
  - 结构效度（Construct validity）
  - 内容效度（Content validity）
  - 共时效度（Concurrent validity）
  - 预示效度（Predictive validity）
区分度（Discrimination）
- 区分度是指测试对不同水平的学生能够区分的程度，即具有区分不同学生水平的能力。区分度与难度有关，难度和区分度的高低，直接影响着测试的信度和效度。
难度（Difficulty）
- 难度即测试题目的难易程度。难度是衡量试题质量的主要指标之一，和区分度共同影响并决定试卷的鉴别性。难度的计算一般采用某题目的通过率或平均得分率。测试的难度水平多高才合适，这取决于测试的目的、题目的形式和测试的性质。