Letzte Änderung: 17.4.02 (c) Georg Lind | Home | ITSE | Autor

Selbstevaluation
von Methoden und Maßnahme

Letzte Änderung: 28.6.2013

Begriffe

Design

Instrumente

Bericht

Evaluations-Evaluation

Literatur

Begriffe ... mehr
Evaluation ... mehr
Verbesserung der Lehre durch selbst-gesteuerte Evaluation / Improvement of Teaching through Self-Monitored Evaluation (ITSE) .. mehr
Jenseits von PISA - Für eine neue Evaluationskultur (Artikel, PDF)
Evaluations-Skript ... mehr
Methoden-Probleme (Schaubilder, Skripte)
- Experimentelle Bildungsforschung ... mehr
- Hypothesen ... mehr
- Evaluationstypen und Wirkung von Evaluation ... mehr
- Validität ... mehr
- Das Reliabilitäts-Validitäts-Paradoxon ... mehr
- Genauigkeit ... mehr
- Effektstärke ... mehr
Web-Adressen ...mehr

Einige zentrale Begriffe

Es gibt zwei grundsätzlich verschiedene Arten von Evaluation:
1. Programm- oder Methoden-Evaluation und
2. Personen- oder Institutionen-"Evaluation". Bei letzterem handelt es sich eigentlich nicht um Evaluation, sondern um eine Leistungs- oder Charakterbeurteilung oder -benotung, die neben wissenschaftlichen besonders auch juristischen und politischen Kriterien genügen muss, weshalb das Wort Evaluation hier in Anführungszeichen gesetzt wurde. Solche Beurteilungen sind immer mit Sanktionen (Belohungen und Bestrafungen) verbunden und werfen daher besondere Probleme bei der Datenbeschaffung durch Statistiken, Tests und Interviews auf. Personen und Institutionen werden immer versuchen, in einem positiven Licht zu erscheinen, um Vergünstigungen zu erlangen und Nachteile zu vermeiden, wodurch aber die Validität der Beurteilungsdaten immer gefährdet ist. Wie vielfach gezeigt wurde, werden sanktionsbewehrte Leistungstests innerhalb kurzer Zeit "unscharf" und unvalide (Linn, 2000; Amrein & Berliner, 2002; Nichols & Berliner, 2005).
Hier wird vor allem die Evaluation von Lehrmethoden behandelt, die der Verbesserung der Lehre und des Unterrichts dient, indem die Effektstärke und die Effizienz von bestimmten didaktischen und pädagogischen Methoden der Stoffvermittlung und Fähigkeitsförderung auf dem Hintergrund bestimmter Lernziele und Ausgangslagen bei bestimmten Lernenden überprüft wird. Sie dient nicht der Überprüfung von Personen (weder der Lehrenden noch der Lernenden).... mehr

Das Minimaldesign für eine Methoden- oder Programm-Evaluation besteht aus:

Vortests mit den Lernenden
Erster Nachtest mit den Lernenden zur Bestimmung unmittelbarer Effekte
Zweiter Nachtest mit den Lernenden im Abstand von mindestens einigen Wochen, besser noch einigen Monaten oder Jahren.
Gewinnung von Vergleichsdaten, wobei verschiedene Möglichkeiten in Betracht -- in der angeführten Reihenfolge -- kommen:
1. Ergebnisse aus repräsentativen Base-line-Studien oder Statusuntersuchungen bei vergleichbaren Teilnehmern. Dies kommt vor allem bei gut erforschten Kriterien in Betracht.
2. Durchführung einer eigenen Base-line Studie vor Beginn der Interventionsphase (z.B. Vorher-Nachher-Tests in zwei aufeinander folgenden Semestern beim gleichen Kurstyps, um 'normale' Effektivität festzustellen).
3. Durchführung von Vor- und Nachtests bei einer hinsichtlich aller relevanten Variablen vergleichbaren "Kontrollgruppe" (matched sample)
4. Durchführung einer randomisierten Vergleichsstudie. soc he Studien sind jedoch in der Praxis sehr teuer, durch forschungsethische und forschungspraktische Grenzen stark eingeschränkt.
Optional: Verbleibstudien und Langzeitnachuntersuchungen.

Die Beobachtungs- und Messinstrumente für eine solche Evaluation können aus folgenden Versatzteilen zusammengestellt werden (unerlässliche, aber bislang oft vernachlässigte Teile sind fett gedruckt):

Persönliche Angaben, subjektive Lernziele und Erwartungen der Lernenden an das Lernergebnis in der zu evaluierenden Lerneinheit
Vorbildung und Vorerfahrungen der Lernenden; Lernstile
Fachliche und überfachliche Kenntnisse und Fähigkeiten
Subjektive Evaluation des Fähigkeitszuwachses der Lernenden (Beispiel)
Subjektive Lehr-Evaluation durch die Lernenden
Beobachtungen der Lehrenden selbst (auch Video-unterstützt)
Beobachtungen von Peers, externen Experten für das Lehr- oder Unterrichtsfach und Experten für Lehren und Lernen (Allg. Didaktik, Lernpsychologie, Fachdidaktik)

Beispiel für einen Vortest (Pädagogische Psychologie, Moralische Urteilsfähigkeit)

Beispiel für einen Nachtest (Pädagogische Psychologie, Moralische Urteilsfähigkeit)

Die Instrumentteile 3.1 bis 3.3 finden Einsatz im Vortest, die Teile 3.3 bis 3.7 in den Nachtests.

Alle Instrumente müssen vorerprobt sein. An die Vorerprobung von Instrumenten zur Erfassung von Fachkenntnissen und -fähigkeiten sind hohe Anforderungen zu stellen.

Evaluationsbericht

Der Bericht muss alle Angaben enthalten, die für eine vollständige Replikation der Evaluation notwendig sind (inklusive Auswertung)
Der Bericht muss in so verfasst sein, dass andere Personen (einschließlich der Lernenden) ihn verstehen, kritisch kommentieren und Schlussfolgerungen für die eigene Lehre ziehen können.
Bei Effekten soll immer die Effektstärke und, wenn möglich, das Ausmaß an absoluten Veränderungen angegeben werden. Die Angabe von statistischen "Signifikanzen" ist unzureichend und heute nicht mehr akzeptabel.

Jede Evaluation muss selbst nach strengen Maßstäben evaluiert werden.
1. Das Untersuchungsdesign muss so gewählt werden, dass eine möglichst eindeutige Beantwortung der Evaluationsfrage möglich ist. Das heißt vor allem, dass eine möglichst eindeutige Zuordnungen der zentralen Effekte zu Kausalfaktoren (z.B. Lehrmethode, Stoff, Schulorganisation) gesichert ist (Design-Validität); und
2. dass die eingesetzten Messinstrumente genau das messen, was sie zu messen vorgeben (Instrument-Validität).
3. Merke: eine schlechte Evaluation ist schlimmer als gar keine!
4. Diese Kriterien für eine gute Methodenevaluation können nicht unverändert auf die Evaluation von Personen oder Institutionen (z.B. Schulen) übertragen werden. Siehe oben.

Selbstevaluation von Methoden und Maßnahme

Selbstevaluation
von Methoden und Maßnahme