|
- Es gibt zwei grundsätzlich verschiedene Arten von Evaluation:
- Programm- und Methoden-Evaluation: Die systematische Bewertung der Effekte und Neben-Effekte eines Programms, einer Maßnahme oder einer Methode im Hinblick auf ihre Zielsetzung auf der Basis einer empirisch-experimentellen Studie.
versus
- Personen- oder Institutionen-"Evaluation". Bei letzterem handelt es sich eigentlich nicht um Evaluation, sondern um eine Leistungs- oder Charakterbeurteilung oder -benotung, die neben wissenschaftlichen besonders auch juristischen und politischen Kriterien genügen muss, weshalb das Wort Evaluation hier in Anführungszeichen gesetzt wurde. Solche Beurteilungen sind immer mit Sanktionen (Belohungen und Bestrafungen) verbunden und werfen daher besondere Probleme bei der Datenbeschaffung durch Statistiken, Tests und Interviews auf. Personen und Institutionen werden immer versuchen, in einem positiven Licht zu erscheinen, um Vergünstigungen zu erlangen und Nachteile zu vermeiden, wodurch aber die Validität der Beurteilungsdaten immer gefährdet ist. Wie vielfach gezeigt wurde, werden sanktionsbewehrte Leistungstests innerhalb kurzer Zeit "unscharf" und unvalide (Linn, 2000; Amrein & Berliner, 2002; Nichols & Berliner, 2005). Siehe auch: Evaluations-Typologie I und Typologie II
-
Das Minimaldesign für eine Methoden- oder Programm-Evaluation besteht aus:
- Vortest
- Erster
Nachtest mit den Lernenden zur Bestimmung unmittelbarer Effekte
- Zweiter
Nachtest mit den Lernenden im Abstand von mindestens einigen Wochen, besser noch
einigen Monaten oder Jahren.
- Gewinnung von Vergleichsdaten, wobei verschiedene Möglichkeiten in Betracht -- in der angeführten Reihenfolge -- kommen:
- Ergebnisse aus repräsentativen Base-line-Studien oder Statusuntersuchungen bei vergleichbaren Teilnehmern. Dies kommt vor allem bei gut erforschten Kriterien in Betracht.
- Durchführung einer eigenen Base-line Studie vor Beginn der Interventionsphase (z.B. Vorher-Nachher-Tests in zwei aufeinander folgenden Semestern beim gleichen Kurstyps, um 'normale' Effektivität festzustellen).
- Durchführung von Vor-
und Nachtests bei einer hinsichtlich aller relevanten Variablen vergleichbaren "Kontrollgruppe" (matched sample)
- Durchführung einer randomisierten Vergleichsstudie. soc he Studien sind jedoch in der Praxis sehr teuer, durch forschungsethische und forschungspraktische Grenzen stark eingeschränkt.
- Optional:
Verbleibstudien und Langzeitnachuntersuchungen.
-
Die Beobachtungs- und Messinstrumente für eine solche Evaluation können
aus verschiedenartigen Methoden bestehen. Hier einige Beispiele:
- Persönliche Angaben, subjektive Lernziele
und Erwartungen der Lernenden an das Lernergebnis in der zu evaluierenden Lerneinheit
- Vorbildung
und Vorerfahrungen der Lernenden; Lernstile
- Fachliche
und überfachliche Kenntnisse und Fähigkeiten
- Subjektive
Evaluation des Fähigkeitszuwachses der Lernenden (Beispiel)
- Subjektive
Lehr-Evaluation durch die Lernenden
- Beobachtungen
der Lehrenden selbst (auch Video-unterstützt)
- Beobachtungen
von Peers, externen Experten für das Lehr- oder Unterrichtsfach und Experten
für Lehren und Lernen (Allg. Didaktik, Lernpsychologie, Fachdidaktik)
Beispiel
für einen Vortest (Pädagogische Psychologie, Moralische Urteilsfähigkeit)
Beispiel
für einen Nachtest (Pädagogische Psychologie, Moralische Urteilsfähigkeit)
- Auswertung
- Statistische Signifikanz von Mittelwertunterschieden zwischen Experimental- und Kontrollgruppe, zwischen Vor- und Nachtests und kombinierten Vergleichen.
Diese Art der Auswertung wird traditionell angewendet, ist aber mit schweren Problemen behaftet:
- Diese Art der "Signifikanz" nimmt linear mit der Größe der Stichprobe zu. Der Indikator ist also eher ein Hinweis auf die Größe der Stichprobe als auf die Effektivität einer Intervention.
- Statistische Signifikanz ist an starke mathematische Voraussetzungen gebunden, die selten überprüft und oft falsch definiert werden.
- Der Einsatz von statistischen Signifikanztests setzt voraus, dass jeder Messungsstichprobe (z.B. die Werte aller Teilnehmer am Vortest in der Experimentalgruppe) ein identischer Gegenstand zugrunde liegt und die Abweichungen der Messwerte nur durch zufallsförmige Messfehler bedingt sind (Normalverteilungsannahme). Davon kann aber in sozialwissenschaftlichen Studien selten ausgegangen werden.
- Relative Effektstärkemaße: d oder r
- Absolute Effektstärkemaße: einfache oder komplexe Mittelwert-Differenzen (in Arbeit); siehe auch:
Artikel PDF
-
Evaluationsbericht
- Der
Bericht muss alle Angaben enthalten, die für eine vollständige Replikation
der Evaluation notwendig sind (inklusive Auswertung)
- Der
Bericht muss in so verfasst sein, dass andere Personen (einschließlich der
Lernenden) ihn verstehen, kritisch kommentieren und Schlussfolgerungen für
die eigene Lehre ziehen können.
- Bei
Effekten soll immer die Effektstärke
und, wenn möglich, das Ausmaß an absoluten Veränderungen
angegeben werden. Die Angabe von statistischen "Signifikanzen" ist unzureichend
und heute nicht mehr akzeptabel.
- Jede
Evaluation muss selbst nach strengen Maßstäben evaluiert werden.
- Das Untersuchungsdesign muss
so gewählt werden, dass eine möglichst eindeutige Beantwortung der Evaluationsfrage
möglich ist. Das heißt vor allem, dass eine möglichst eindeutige
Zuordnungen der zentralen Effekte zu Kausalfaktoren (z.B. Lehrmethode, Stoff,
Schulorganisation) gesichert ist (Design-Validität); und
- dass die eingesetzten Messinstrumente
genau das messen, was sie zu messen vorgeben (Instrument-Validität).
- Merke: eine schlechte
Evaluation ist schlimmer als gar keine!
- Diese
Kriterien für eine gute Methodenevaluation können nicht unverändert
auf die Evaluation von Personen oder Institutionen (z.B. Schulen) übertragen
werden. Siehe auch: (Artikel, PDF)
|