|  | Einige 
zentrale Begriffe   Es gibt zwei grundsätzlich verschiedene Arten von Evaluation:
      
 
      Programm- oder Methoden-Evaluation und
Personen- oder Institutionen-"Evaluation". Bei letzterem handelt es sich eigentlich nicht um Evaluation, sondern um eine Leistungs- oder Charakterbeurteilung  oder -benotung, die neben wissenschaftlichen besonders auch juristischen und politischen Kriterien genügen muss, weshalb das Wort Evaluation hier in Anführungszeichen gesetzt wurde. Solche Beurteilungen sind immer mit Sanktionen (Belohungen und Bestrafungen) verbunden und werfen daher  besondere Probleme bei der Datenbeschaffung durch Statistiken, Tests und Interviews auf. Personen und Institutionen werden immer versuchen, in einem positiven Licht zu erscheinen, um Vergünstigungen zu erlangen und Nachteile zu vermeiden, wodurch aber die Validität der Beurteilungsdaten immer gefährdet ist. Wie vielfach gezeigt wurde, werden sanktionsbewehrte Leistungstests innerhalb kurzer Zeit "unscharf" und unvalide (Linn, 2000; Amrein & Berliner, 2002; Nichols & Berliner, 2005). 
 Hier wird  vor allem die Evaluation von Lehrmethoden behandelt, die der Verbesserung der Lehre und des Unterrichts dient, indem die Effektstärke 
    und die Effizienz von bestimmten didaktischen und pädagogischen Methoden 
    der Stoffvermittlung und Fähigkeitsförderung auf dem Hintergrund bestimmter Lernziele und Ausgangslagen bei bestimmten Lernenden überprüft wird. Sie 
    dient nicht der Überprüfung von Personen (weder der Lehrenden noch der  Lernenden).... mehr
 
  Das Minimaldesign für eine Methoden- oder Programm-Evaluation besteht aus: 
Vortests mit den LernendenErster 
Nachtest mit den Lernenden zur Bestimmung unmittelbarer EffekteZweiter 
Nachtest mit den Lernenden im Abstand von mindestens einigen Wochen, besser noch 
einigen Monaten oder Jahren.Gewinnung von Vergleichsdaten, wobei verschiedene Möglichkeiten in Betracht -- in der angeführten Reihenfolge -- kommen:
  
    Ergebnisse aus repräsentativen Base-line-Studien oder Statusuntersuchungen bei vergleichbaren Teilnehmern. Dies kommt vor allem bei gut erforschten Kriterien in Betracht. Durchführung einer eigenen Base-line Studie vor Beginn der Interventionsphase (z.B. Vorher-Nachher-Tests in zwei aufeinander folgenden Semestern beim gleichen Kurstyps, um 'normale' Effektivität festzustellen). Durchführung von Vor- 
          und Nachtests bei einer hinsichtlich aller relevanten Variablen vergleichbaren "Kontrollgruppe" (matched sample) Durchführung einer randomisierten Vergleichsstudie. soc he Studien sind jedoch in der Praxis sehr teuer, durch forschungsethische und forschungspraktische Grenzen stark eingeschränkt.Optional: 
Verbleibstudien und Langzeitnachuntersuchungen.
 
  Die Beobachtungs- und Messinstrumente für eine solche Evaluation können 
aus folgenden Versatzteilen zusammengestellt werden (unerlässliche, aber 
bislang oft vernachlässigte Teile sind fett gedruckt): 
Persönliche Angaben, subjektive Lernziele 
und Erwartungen der Lernenden an das Lernergebnis in der zu evaluierenden LerneinheitVorbildung 
und Vorerfahrungen der Lernenden; LernstileFachliche 
und überfachliche Kenntnisse und FähigkeitenSubjektive 
Evaluation des Fähigkeitszuwachses der Lernenden (Beispiel)Subjektive 
Lehr-Evaluation durch die LernendenBeobachtungen 
der Lehrenden selbst (auch Video-unterstützt) Beobachtungen 
von Peers, externen Experten für das Lehr- oder Unterrichtsfach und Experten 
für Lehren und Lernen (Allg. Didaktik, Lernpsychologie, Fachdidaktik) 
  Beispiel 
          für einen Vortest (Pädagogische Psychologie, Moralische Urteilsfähigkeit) Beispiel 
      für einen Nachtest (Pädagogische Psychologie, Moralische Urteilsfähigkeit)   Die 
Instrumentteile 3.1 bis 3.3 finden Einsatz im 
Vortest, die Teile 3.3 bis 3.7 in den Nachtests. Alle 
Instrumente müssen vorerprobt sein. An die Vorerprobung von Instrumenten 
zur Erfassung von Fachkenntnissen und -fähigkeiten sind hohe Anforderungen 
zu stellen.   Evaluationsbericht   Der 
Bericht muss alle Angaben enthalten, die für eine vollständige Replikation 
der Evaluation notwendig sind (inklusive Auswertung)Der 
Bericht muss in so verfasst sein, dass andere Personen (einschließlich der 
Lernenden) ihn verstehen, kritisch kommentieren und Schlussfolgerungen für 
die eigene Lehre ziehen können.Bei 
Effekten soll immer die Effektstärke 
und, wenn möglich, das Ausmaß an absoluten Veränderungen 
angegeben werden. Die Angabe von statistischen "Signifikanzen" ist unzureichend 
und heute nicht mehr akzeptabel.  
 Jede 
Evaluation muss selbst nach strengen Maßstäben evaluiert werden. 
  Das Untersuchungsdesign muss 
so gewählt werden, dass eine möglichst eindeutige Beantwortung der Evaluationsfrage 
möglich ist. Das heißt vor allem, dass eine möglichst eindeutige 
Zuordnungen der zentralen Effekte zu Kausalfaktoren (z.B. Lehrmethode, Stoff, 
Schulorganisation) gesichert ist (Design-Validität); und 
dass die eingesetzten Messinstrumente 
genau das messen, was sie zu messen vorgeben (Instrument-Validität).
Merke: eine schlechte 
Evaluation ist schlimmer als gar keine!
Diese 
Kriterien für eine gute Methodenevaluation können nicht unverändert 
auf die Evaluation von Personen oder Institutionen (z.B. Schulen) übertragen 
werden. Siehe oben.  |