Home | ITSE | Literatur

(c) Georg Lind
Last revision: March 7, 2020

Literatur

ITSE: Improvement of Teaching through Self-Self-Evaluation

Moralische Kompetenz-Test
(MKT)

Konstanzer Methode der
Dilemma-Diskussion

Offener Unterricht

Education Policy Research Unit (EPRU) an der Arizona State University

Education and the Public Interest Center (EPIC)

Education policy analysis archives

Annotierte Bibliographie

Elekronischer Semesterapparat (geschützter Bereich)

Gesamte Publikationsliste des Autors

 

Lernen und (Selbst-)Evaluation

Die Qualität von Methoden des Lernens und Lehrens, von Lehrbüchern, von Lehrerausbildung und von Bildungspolitk lässt sich messen, aber nur, wenn das Messinstrument auf der Grundlage von fachlichen, pädagogischen, didaktischen und psychologischen Erkenntnisse konstruiert und validiert wurden.

Die meisten gängigen Messinstrumente beruhen jedoch nur auf sehr einfachen, zum Teil falschen Annahmen über die Natur menschlichen Wissens, die sich in statistischen Modellen verstecken und dadurch für viele schwer durchschaubar sind. Oft lässt sich nicht genau sagen, was eigentlich gemessen wird und was sich hinter wolkigen Bezeichnungen wie z.B. "mathematival literacy" versteckt.

Zudem haben diese Tests eine lernhemmende Wirkung. Es wird meist nur Begriffswissen abgefragt und nur das Ergebnis von Lösungsprozessen bewertet. Zudem lassen die Zeitvorgaben keine Zseit zum Denken, einem wichtigen Bildungsziel der Schule. Raten wird oft durch mehr Punkte belohnt als Nachdenken. Schließlich werden die zumeist recht einfach lösbaren Aufgaben durch so genannte "Distraktoren" und lange Einleitungstexte künstlich erschwert. Sie messen daher oft nur Testschlauheit und Testangst.

Was wir brauchen, ist eine neue Evaluationskultur und die Entwicklung angemessener, valider Tests, wie wir sie für die Messung der Moralkompetenz schon haben.

Beiträge des Herausgebers:

Lind, G. (2004). Jenseits von PISA — Für eine neue Evaluationskultur, S. 1 - 7. In: Institut für Schulentwicklung PH Schwäbisch Gmünd, ed., Standards, Evaluation und neue Methoden. Reaktionen auf die PISA-Studie. Baltmannsweiler: Schneider Verlag Hohengehren ... more

Lind, G. (2011). Verbesserung des Unterrichts durch Selbstevaluation. Ein Plädoyer für unverzerrte Evidenz [Improvement of teaching through self-evaluation. A plea for unbiased evidence.] In: J. Bellmann, Hg.: Wissen, was wirkt. Kritik evidenzbasierter Pädagogik, S. 173-195. Wiesbaden: VS-Verlag für Sozialwissenschaften. selbstevaluation

Lind, G. (2011). Selbst ist die Schule! Fremd- versus Selbstevaluation. [Self-directed schools! External versus self-evaluation.] Grundschule 4/2011, 24 - 26. selbstevaluation

Lind, G. (2013). Theorie und Praxis des Begriffs „Kompetenz“. Zur Notwendigkeit von Konkretisierungen. b:sl, 03:2013, 31 - 33. selbstevaluation

Lind, G. (2013). Meta-Analysen als Wegweiser? Zur Rezeption der Studie von Hattie in der Politik [Meta-analyses as guide for educational policy-making? On the use of the study by John Hattie in politics.] Konstanz. selbstevaluation

Lind, G. (2015). Von der Leistungs- zur Lernkultur. Anmerkungen zur Resolution des Grundschulverbands zur Ziffernnoten-Beurteilung. In: Lehren und Lernen, 41, S. 29 - 32. ... more

Lind, G. (2016). Die Bedeutsamkeit empirischer Befunde: Statistische Signifikanz vs. relative vs. absolute Effektstärken. Erweiterter Vortrag. (überarbeitete Neuauflage mit neuem Vorwort) amerika

Lind, G. (2019). The art of experimental psychology. Paper. amerika

Lind, G. (2019). Making moral competence visible. Chapter 4 of "How to Teach Moral Competence."


* An asterisk indicates that the article is available for my students for downloading from from this site (protected with password)..

Literatur in alphabethischer Reihenfolge:

ArbeitsgruS. Primarstufe (2006): Sind Noten nützlich und nötig? Zifferzensuren und ihre Alternativen im empirischen Vergleich. Eine wissenschaftliche Expertise des Grundschulverbandes, erstellt von der ArbeitsgruS. Primarstufe an der Universität Siegen (Hans Brügelmann mit Axel Backhaus u. a.). Grundschulverband e.V.: Frankfurt . Weitere Informationen è http://www.agprim.uni-siegen.de/notengutachten.htm

American Evaluation Association (2003). Position Statement on HIGH STAKES TESTING in PreK-12 Education. download:
http://www.eval.org/hst3.htm am 9.10.2003.

Amrein, Audrey & Berliner, D. (2002). High-stakes testing, uncertainty, and student learning. Education Policy Analysis Archives, 10 (18), March 28, 2002 [Online]. Bezogen von: http://epaa.asu.edu/ojs/article/view/297 im Juli 2002. ... more*

“Je wichtiger ein quantitativer sozialer Indikator für politische Entsscheidungsprozesse wird, umso wahrscheinlicher ist es, dass er die sozialen Prozess, die er helfen soll zu kontrollieren, verzerrt und korrumpiert. .. In dieser Studie über 18 Staaten [der USA] mit sanktionsbewehrten Tests (high-stakes tests) wird belegt, dass mit einer Ausnahme in allen Analysen das Lernen der Schüler unbestimmt bleibt, auf dem selben Niveau verharrt, auf dem es vor der Einführung sanktionsbewehrter Tests war, oder sogar abfiel, sobald die sanktionsbewehrte Test-Politik in Kraft gesetzt wurde.” (Meine Übersetzung; GL)

Amrein-Beardsley, A. (2008). Methodological concerns about the education value-added assessment system. Educational Researcher, 37(2), 65-75.

Balk, M. (2000). Evaluation von Lehrveranstaltungen: die Wirkung von Evaluations-rückmeldungen. Frankfurt: Lang.

Balser (2004). Online Delphie-Studie "Wie werden Evaluationen erfolgreich?":
http://www-user.rhrk.uni-kl.de/~balzer/eval-delphi.html

Bargel, T. & Framhein, G. (1976). Zur Diskussion von Bildungszielen und zur Leistungsmessung im Hochschulbereich. In: W. Zapf, ed. Gesellschaftspolitische Zielsysteme. Soziale Indikatoren IV. S. 126-161. Frankfurt: Campus.

Bargel, T., Markiewicz, W. & Peisert, H. (1982). University Graduates: Study experience and social role -- Empirical findings of a comparative study in five European countries. In M. Niessen & J. Peschar, Hg., Comparative research on education. S. 55-78. Oxford: Pergamon.

Bauersfeld, Heinrich (2003). Es kann für Testleistungen schädlich sein, viel zu wissen.... more

Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefel, U., Schneider, W., Stanat, P., Tillmann, K.-J. & Weiß, M. (2001). PISA 2000. Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Paderborn: Leske+Budrich.

Baumert, J. et al. (2003). PISA 2000 -- Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland. Zusammenfassung zentraler Befunde. Berlin: Max-Planck-Institut.

Correlation study: Reading ability (fastness

korrelation lesetest

(S. 221). Kommentar: Hängen Mathematikkompetenz und naturwissenschaftliches Verständnis wirklich so stark von der Lesefähigkeit der Schüler ab, wie das in PISA anscheinend gefunden wurde? Wahrscheinlicher ist es, dass diese sehr hohen Korrelationen auf einen Konstruktionsfehler der PISA-Tests hinweisen, nämlich dass die Mathematik- und Naturwissenschaftsaufgaben zu viel Text enthalten, der teilweise überflüssig ist und der die "Distraktoren" enthält, mit denen viele PISA-Aufgaben künstlich schwerer gemacht werden (siehe Bauersfeld, 2003; Lind, 2004; Jahnke & Meyerhöfer, 2006; Wuttke, 2007). GL

Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefel, U. (2001). PISA 2000. Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Paderborn: Leske+Budrich.
Retrieved from: http://www.bawue.gew.de/fundusho/wiratleeval.html (9.10.2003).

Berliner, David C.; Glass, Gene V & Associates (2014). 50 Myths and lies that threaten America’s public schools: The real crisis in education. New York: Teachers College Press.

“The mythical failure of public education has been created and perpetuated in large part by political and economic interests that stand to gain from the destruction of the traditional system.” (Vorwort)

Mit ihrer überzeugenden Zerlegung von 50 Mythen und Lügen, die das öffentliche Schulwesen in den USA bedrohen, ergänzen die renommierten Bildungsforscher David Berliner (Lehrbuch der "Educational Psychology") und Gene Glass (Begründer der "Meta-analyse" zur Zusammenfassung von Bildungsforschungsstudien) die Kritik von Diane Ravitch. Sie nehmen die meisten Mythen und Lügen aufs Korn, die auch in unseren Medien über Schulen und Bildungspolitik herumschwirren.

Böttcher, W. & Brohm, M. (2005). Soziale Selektion oder Förderung. Der Zusammenhang von guter Evaluation und guter Schule. In: Forum Wissenschaft, 22, 2, 46-49.

Böttcher, W. & Holtappels, H. G. & Brohm, M. , Hg. (2006). Evaluation im Bildungswesen. Eine Einführung in Grundlagen und Praxisbeispiele. Weinheim und München: Juventa Verlag.

Bos, W. & Postlethwaite, T. N. (2001). Internationale Schulleistungs-forschung. Ihre Entwicklungen und Folgen für die deutsche Bildungs-landschaft. In: F. E. Weinert, Hg. Leistungsmessungen in Schulen, S. 252-297. Weinheim: Beltz.

Boyd, Ronald T. C. (1989). Improving Teacher Evaluations.
http://ericae.net/pare/getvn.asp?v=1&n=7

Braams, B. (2002). Mathematics in the OECD PISA Assessment. Weitere Analysen:
http://www.math.nyu.edu/mfdd/braams/links/assess-rev.html

Braams (2004). Inhaltsbegutachtungen von standardisierten Tests (Link-Sammlung, engl.):

http://www.math.nyu.edu/mfdd/braams/links/pisa2003-sci1.html
http://www.math.nyu.edu/mfdd/braams/links/pisa2003-sci2.html
http://www.math.nyu.edu/mfdd/braams/links/pisa2003-sci3.html

Bracey, G.W. (2006). Reading Educational Research: How to Avoid Getting Statistically Snookered. Heinemann.

Bracey, G.W. (2005). No Child Left Behind: Where Does the Money Go? ... more

Brügelmann (2004). Lesefähigkeit von HandwerksmeisternInnen, Studierenden, LehrerInnen im Stolpertest. ... more

Brügelmann, H.(2004). Kerncurricula, Bildungsstandards und Leistungstests: Zur unvergänglichen Hoffnung auf die Entwicklung der guten Schule durch eine Evaluation „von oben“. Vierteljahrsschrift für wissenschaftliche Pädagogik, 2004. ... more

Brügelmann, H. (2008). Fieber genau zu messen ist noch keine Diagnose, Fieber erfolgreich zu senken noch keine Therapie. Wie Leistungstests in ihren. Beitrag zum Forum "Schule ist mehr als PISA..." der ZEIT-Stiftung in Hamburg, 6.-7.3.08 ... more

Brügelmann, H. (2009). Leistungsstandards und Kompetenztests -- eine pädagogische Sicht. Plädoyer für eine „pädagogische Leistungskultur" durch dialogische Lernberatung und für eine Schulentwicklung mit Hilfe des „Blicks über den Zaun“ von kritischen Freunden. Vortrag in Berlin ... more

Brügelmann, H. (2013). Ist das Geheimnis der besseren Testergebnisse gelöst? ZEIT 22.6.2013. .. more

Brügelmann, H. (2015): Vermessene Pädagogik – standardisierte Schüler. Zu Risiken und Nebenwirkungen von PISA, Hattie, VerA & Co. Beltz: Weinheim/ Basel. more

Butler, R. (1988). Enhancing and undermining intrinsic motivation: The effect of task-involving and ego-involving evaluation on interest and performance. British Journal of educational Psychology, 58, 1-14.

Experimental study outcomes: Grading lowers intrinsic learning motivation, regardless of level of giftedness. (GL)

butler_noten

Kommentar: Die Rückmeldung durch Noten verringert das Lerninteresse unabhängig von der Leistungshöhe der Schüler. Rückmeldung in Form von Kommentaren hat dagegen keine schädlich Wirkung - aber auch keine motivierende!

noten_leistung

Kommentar: Butler zeigt hier experimentell, dass auch die Leistung unter der Rückmeldung mittels Noten leidet (Dreiecke). Rückmeldung durch Kommetnare erhöht zunächst die Testleistungen (Quadrate), aber diese Wirkung scheint nicht nachhaltig zu sein. Bei der zweiten Nachtestung (t3) sinken in beiden Gruppen wieder die Werte.

Campbell, Donald T. (1976). Assessing the Impact of Planned Social Change. Paper #8 Occasional Paper Series. (Reprinted with permission of The Public Affairs Center, Dartmouth College) ... more*

"While the expensive machinery of social experimentation can be used to evaluate persons, it should not be." (p. 48)

"I recommend that we evaluation research methodologists should refuse to use our skills in ad hominem research. While the expensive machinery of social experimentation can be used to evaluate persons, it should not be. Such results are of very limited generalizability. Our skills should be reserved for the evaluation of policies and programs that can be applied in more than one setting and that any well-intentioned administrator with proper funding could adopt." (p. 48)

"Program administrators and clients have it in their power to sabotage our evaluation efforts, and they will attempt to do so if their own careers and interests are at stake." (p. 48)

"This prohibition on ad hominem research should also be extended to program clients. We should be evaluating not students or welfare recipients but alternative policies for dealing with their problems. It is clear that I feel such a prohibition is morally justified." (p. 49)

"The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor." (p. 49)

Comment (GL): This last statement in which Campbell summarizes his huge experience with evaluation research, has become very famous. It is generally referred to as "Campbell' Law." This law has been well supported by studies of the effect of high-stakes testing in the educational sector (Amrein & Berliner 2002; Nichols & Berliner 2005; 2007; Berliner et al. 2014; Brügelmann 2008).

 

Collins, Clarin & Amrein-Beardsley, A. (2011). Review of Value-addded measures in education by Douglas N.. Harris. Education Review, 14.
Retrived from http://www.edrev.info/reviews/rev1126.pdf

Czerny, Sabine (2010). Was wir unseren Kindern in der Schule antun ... und wie wir das ändern können. München: Südwest Verlag.

“Individuelle Förderung und Selektion schließen sich gegenseitig aus.” (p. 168)

Chamberlin, D., Chamberlin, E. S., Drought, N. E. & Scott, W. E. (1942). Did they succeed in college? Adventures in American education. Volume IV. New York Harper & Brothers. .... more

In einer einmaligen, 8 Jahre umfassenden empirischen Studie haben die Autoren das Lernen von College-Studenten untersucht, die auf einer High Schools waren, die nach den Prinzipien von John Deweys "progressiver Erziehung" ausgebildet wurden. Sie erzielten eine Ausnahmegenehmigung, um ohne die sonst üblichen Zulassungskriterien studieren zu können. Das Projekt zeigt, dass diese Studierenden ihren Mitstudenten nicht unterlegen waren, sondern in einigen Bereichen sogar überlegen.

Darling-Hammond, Linda, Amrein-Beardsley, A., Haertel, E. H., & Rothstein, J. (2011). Getting teacher evaluation right: A background paper for policy makers. Research Briefings. Washington, DC: American Educational Research Association, National Academy of Education.

Deci, E. L. (1995). Why we do what we do: The dynamics of personal autonomy. New York: G. P. Putnam's Sons.

Deci, E. L., Koestner, R., & Ryan, R. M. (1999) A meta-analytic review of experiments examining the effects of extrinisc rewards on intrinsic motivation. Psychological Bulletin, 125, 627-668.

Deming, W. E. (1994). The new economics for industry, government, education. Second edition. Cambridge MA: Massachusetts Institute of Technology.

Descamps, P. (2013). Gute Schule.Finnlands Erfolge beruhen auf einem Bildungssystem, das allen die gleichen Chancen gibt. Les Monde Diplomatique, April 2013.

"Während im internationalen Schulvergleich diverse Leistungsindikatoren, Prüfungen und Ranglisten im Vordergrund stehen, vertreten die finnischen Pädagogen eine andere Auffassung vom Umgang mit Bewertungen: Sie sollen dazu dienen, Methoden und Lernmittel im Sinne der Entfaltung von Lehrenden und Lernenden anzupassen, und nicht als Instrument der Kontrolle oder des Wettbewerbs. Deshalb werden auch nur Stichproben vorgenommen und die Ergebnisse der einzelnen Schulen weder landesweit verglichen noch öffentlich gemacht." (p. 20)

"While international school comparison fokusses on various indicators of achievement, tests and rankings, the Finnish pedagogues believe in a different use of evaluations: They should serve to adapt methods and teaching material in the sense of developing teaches and learners., and not as an instrument for controlling and competition. Therefore, they use only samples and do not compare results of schools nation-wide, nor do they make them public." (p. 20, my translation GL)

Dressel, P.L. (1957). Facts and fancy in assigning grades. Basic College Quarterly, 2, 6-12.

The myth of normal distribution of traits

"Eine immer wiederkehrende Fehlkonzeption ist, dass es eine 'normale' Verteilung der Noten gibt, die den Anteil von Einsen, Zweien, Dreien usw. definieren, die einem Schüler oder Studenten gegeben werden sollen. .... Das Wort 'normal' ist in diesem Sinne nur ganz entfernt verwadnt mit der Normalverteilung, wie sie von Statistikern präzise definiert wird. Ja, viele messbare Eigenschaften von Individuen haben sich als als normalverteilt herausgestellt, wenn man die relativen Häufigkeiten graphisch darstellt. Logische Schwierigkeiten, diese "Normalverteilung" beim Zensurengeben anzuwenden, resultieren aber aus diesen Tatsachen:

  • Nicht alle Eigenschaften sind normalverteilt.
  • Die Natur der Verteilung hängt teilweise vom Messinstrument ab.Das gilt vor allem für Test, da sie oft keinen definiten Null-Punkt haben und keine absoluten Messeinheiten.
  • Auch wenn eine Eigenschaft noramlverteilt sein sollte, gilt dies nur für große, unselektierte Gruppen von Menschen. Viele Schüler- und Studierendengruppen sind stark selektiert, womit die Annahme einer Normalverteilung sehr zweifelhaft ist. Wenn diese Personen noch dazu sich in der Ausbildung befinden, um bestimmte Änderungen bei ihnen zu erzeugen, gibt es starke Zweifel, ob die Verteilung ihrer Fähigkeiten 'normal' sein wird.

Noch ernstere Kritik zieht der Gebrauch von Normaverteilungen auf sich. wenn diese Verteilung als Bestimmungsgrund für die Prozentzahlen dieser oder jener Note herangezogen wird. .... Wenn diese Annahme ... ihrer mathematischen Mantel der Dunkelheit entkleidet wird, wird klar, das das ganze Geschäft darin besteht zu entscheiden, welche Prozentzahlen man subjektiv bevorzugt.

Da dies der Fall ist, erscheint es mehr realistisch, diese Entscheidung direkt auf der Grundlage der Prozente zu fällen als aufgrund ungerechtfertigter Prämissen irgendeine Verteilungsform vorauszusetzen.

Nehmen Sie, zum Beispiel, an wir würden eine solche gedankenlose Anwendung der 'normalen' Verteilung auf solche Eigenschaften machen wie die Verteilung der Lehrkompetenz unter Lehrern. 'Offentsichtlich' müssten dann einige Lehrer als Versager bezeichnet werden. 'Offensichtlich' müsste ihre Zahl genau so groß sein, wie die der herausragenden Lehrer. Lehrer werden schnell Gründe finden, um eine solche Annahme bei der Evaluation ihrer Arbeit zurück zu weisen. Diese Einwände gelten gleichermaßen für die Evaluation der Arbeit von Schülern und Studierenden." (S. 7-8; meine Übersetzung, GL)

Eigenstetter, Monika (2007). Verantwortung in Organisationen: Entwicklung und Validierung simulationsorientierter Instrumente zur Diagnostik verantwortungsvollen Entscheidens und Handelns im Arbeits-, Gesundheits- und Umweltschutz. Unveröffentlichte Dissertation, Universität Jena. ... more, see also annotations.

Einstein, Albert (1950). My years later. Philosophical Library Inc.

"Für mich scheint es das Schlimmste für eine Schule zu sein, wenn sie prinzipiell mit der Methode der Furcht, der Gewalt und künstlicher Autorität arbeitet. Eine solche Behandlung der Schüler zerstört die gesunden Gefühle, die Ernsthaftigkeit und die Selbstsicherheit der Schüler. Sie produziert das unterwürfige Individuum. ... Es ist relativ einfach, die Schule von diesem schlimmsten Übel frei zu halten: Stelle dem Lehrer so wenig Zwangsmittel wie möglich zur Verfügung, damit die einzigste Quelle des Respekts des Schülers für den Lehrer in den menschlichen und intellektuellen Qualitäten des Lehrers liegt.

Das allerwichtigste Motive für die Arbeit in der Schule und im Leben ist die Freude an der Arbeit, die Freude an ihren Ergebnissen und das Wissen um den Wert dieser Ergebnisse für die Gemeinschaft. In der Erweckung und Stärkung dieser psychologischen Kräfte in jungen Menschen sehe ich die Hauptaufgabe der Schule. Diese psychologische Grundlegung allein führt zu dem freudigen Verlangen nach dem höchsten Besitz der Menschheit: Wissen und handwerklicher Kunstfertigkeit.

Die Anregung dieser produktiven Kräfte ist sicher weniger leicht als die Anwendung von Gewalt oder die Erweckung von persönlichem Ehrgeiz, aber sie ist viel wertvoller. Der Punkt ist, man muss die kindliche Neigung zum Spiel und das kindliche Verlangen nach Anerkennung entwickeln, und das Kind hinlenken zu wichtigen Themenbereiche der Gesellschaft; Bildung und Erziehung sind hauptsächlich gegründet auf dem Verlangen nach erfolgreicher Aktivität und Würdigung.

Wenn die Schule von diesem Standpunkt aus erfolgreich arbeitet, wird sie reichlich belohnt werden durch die kommende Generation, und die Aufgaben der Schule werden wie eine Art Geschenk behandelt. Ich kannte Kinder, die die Schule den Ferien vorzogen." (S. 33-35; Übersetzung GL)

 

Endruweit, G. (2002). Lehrevaluation und Lehrziele. Forschung & Lehre 2002/8.

Engelhardt, Michael v. (1982). Die pädagogische Arbeit des Lehrers: eine empirische Einführung. Paderborn Schöningh.

Experimental result: Whereas teachers believe that they can motivate students to get good grades, actually it their interest in the subject matter which counts much more. (GL)



noten versus interesse
(S. 183) Antworten auf die Frage, wodurch Schüler in der Wahrnehmung ihrer Lehrer zum Lernen idealerweise motiviert werden sollten, und wodurch sie tatsächlich motiviert werden.

Entwistle, N.J. & Ramsden, P. (1983). Understanding student learning. London: Croom Helm.

Felder, R. (o.J.): Web-site "Resources in science and engineering education." http://www.ncsu.edu/felder-public/RMF.html (9.10.2003).

Feldman, K. & Newcomb, Th.M. (1970). The impact of college on students. Volume II. San Francisco: Jossey-Bass.

Flitner, E. (2005). Pädagogische Wertschöpfung. Zur Rationalisierung von Schulsystemen durch public-private partnerships am Beispiel von PISA. Erscheint in: J.Oelkers, R.Casale, R. Horlacher (Hg.),  Pädagogische Rationalität. Studien im Umkreis Max Webers. Zürich.

Frey, Bruno S. (2003). Mehr Leistung durch mehr Geld? Forschung & Lehre 10/2003, 543.

Fuller et al (2007). Gauging growth: How to judge No Child Left Behind? Educational Reseacher, Vol. 36, No. 5, S. 268–278. ...

Glass, G. (2002). Arizona employers say the Grade 10 AIMS Mathematics exam asks questions that are not representative of math skills actually used by their employees.... more

Groeben, Annemarie (2011). Notengebung. Zensuren – oder was? In: b&w, 06/2011, 14-18. ... more

Haenisch, H. (1998). Warum TlMSS nicht geeignet ist, etwas über die Leistungsfähigkeit deutscher Schulen auszusagen. ... more

Haenisch, H. & Kindervater, Ch. (1999). Evaluation der Qualität von Schule und Untericht. EU-Pilotprojekt zur Selbstevaluation: Ergebnisse der deutschen Projektschulen. Soest: Landesinstitut für Schule und Weiterbildung. ... more

Hage, N.E. (1996). Lehrevaluation und studentische Veranstaltungs-kritik. Projekte, Instrumente und Grundlagen. Bonn: BM Bildung, Wissenschaft, Forschung und Technologie.

Hagemeister, V. (2000). Irrwege und Wege zur „Testkultur“ Kann die „empirische Wende“ zur Qualitätssicherung beitragen? ... more

Hagemeister, V. (2006). Kritische Anmerkungen zum Umgang mit den Ergebnissen von PISA. ... more

Hartinger, Andreas (1998). Kann eine Öffnung von Unterricht Interesse fördern? In: H. Brügelmann, Hg., Jahrbuch Grundschule. Seelze: Friedrich Verlag, S. 67-71.

Self-directed learning is a much more powerful motivator for learning than teachers' order. (GL)

offener_Unterricht_Lerninteresse

Hartinger, A. & Fölling-Albers, M. (2002). Schüler motivieren und interessieren. Ergebnisse der Forschung. Anregungen für die Praxis. Bad Heibrunn: Klinkhardt.

Hopmann, S. T., Brinek, G., & Retzel, M. (2007). PISA zufolge PISA -- PISA According to PISA. Hält PISA was es verspricht? -- Does PISA keep what it promises?. Münster: LIT.

Institut für Schulentwicklung PH Schwäbisch Gmünd, Hg. (2004). Standards, Evaluation und neue Methoden. Reaktionen auf die PISA-Studie. Baltmannsweiler: Schneider Verlag Hohengehren.

Jahnke, T. & Meyerhöfer, W., Hg. (2006). PISA & Co – Kritik eines Programms. Verlag Franzbecker. Hildesheim 2006. 350 Seiten. € 9,90. ISBN 978-388120-428-6. ... more

Kahl, R. (2002). Aus dir wird nichts! Aus der Reihe: Nach PISA – Die Zukunft der Schule. SWR 2, Radiosendung, 26.10.2002 ... more

Kamii, C. (1991). Toward autonomy: the importance of critical thinking and choice making. School Psychology Review, 20, 382-388.

Kellaghan, T. & Stufflebeam, D.L. (2003. International handbook of educational evaluation. Part one. Dordrecht, NL: Kluwer Academic Publishers.

Kießwetter (2002). Unzulänglich vermessen und vermessen unzulänglich). PISA u. Co.

Klein, H. P. (2010). Nivellierung der Ansprüche. Neuntklässler bewältigen ohne Problem eine Zentralabiturarbeit. Frankfurter Allgemeine Zeitung, 14.10.2010, S 8.

Das Experiment von Klein zeigt, dass Prüfungs- und Testaufgaben, die Abiturienten vor große Probleme stellen, von den fachlichen Anforderungen her oft sehr leicht sind und selbst von Schülern ohne viel Unterricht gelöst werden können. Dies weist daraufhin, dass im Abitur weniger Fachkompetenz als Angstresistenz geprüft wird. (GL)

The experiment by Klein shows, that tests, which pose quite some problems for students who take their final exams, actually require little subject knowledge. Ninth graders with virtually now training in biology could solve almost all questions of the biology test used in German Abitur-examin. This is a further proof that most tests do not assess factual competence but rather reistance to test-anxiety. /GL)

Klieme, E. et al. (2003). Evaluation des BLK-Modellprogramms Demokratie lernen und leben Erster Bericht über die Ergebnisse der Eingangserhebung 2003. ... more

Kohn, A. (1999). From degrading to de-grading . High School Magazine, March 1999.

Kohn, A. (1999). Punished by rewards. The trouble with gold stars, incentive plans, A's, praise, and other bribes. Boston: Houghton Miflin.

Kohn, Alfie: The case against tougher standards
http://www.alfiekohn.org/standards/resources.htm

This web-site gives good arguments against the ever harder drive for testing and evaluation of schools and students. Wer schon immer kein gutes Gefühl bei dem gegenwärtigen Trend zu Massentests und einseitiger Evaluation von Lern- und Lehrleistungen hatte, kann sich hier über die Diskussion in den USA informieren, die keineswegs, wie hierzulande of angenommen wird, geschlossen auf die Bedürfnisse der Evluationsindustrie festgelegt ist.

Kohn, A. (2000). Two cheers for an end to the SAT. The Chronicle Review.
http://www.chronicle.com/weekly/v47/i26/26b01201.htm or
http://www.alfiekohn.org/teaching/sat.htm

Kohn, A. (2001). Beware of the standards, Not just the tests. Education Week. September 26, 2001.
http://www.alfiekohn.org/teaching/edweek/botsnjtt.htm

Kromrey, H. (1993). Lehrevaluation darf nicht auf Umfragen reduziert werden, in: MittHV 4/93, S. 268-271.

Lakatos, I. (1972). Falsification and the methodology of scientific research programs. In: I. Lakatos & A. Musgrave, eds., Criticism and the growth of knowledge, S. 91-196. Cambridge University Press.

Lee, Jaekyung, & Reeves, T. (2012). Revisting the impact of NCLB high-stakes school accountability, capacity, and resources: State NAEP 1990-2009 reading and math achievement gaps and trends. Educational Evaluation and Policy Analysis, 34, 2, 209-23.

Abstract: "... NCLB did not yet evidence sustainable and generalizable high-stakes accountability policy effects. Improving average achievement as well as narrowing achievement gaps was associated with long-term statewide instructional capacity and teacher resources rather than short-term NCLB implementation fidelity, rigor of standards and state agency's capacity for data tracking and intervention." (p. 209)

Kommentar: Kaum etwas zeigt besser den Mangel an Lernfähigkeit einer Regierung an als die Tatsache, dass aus 20 Jahren Misserfolg bislang keinerlei Konsequenzen gezogen wurden. Im Gegenteil: Die Obama-Regierung treibt die falsche Bush-Politik noch auf die Spitze: "Race to the Top" (RTT) hat sie ihre Bildungspolitik genannt.

Der Glaube der US-Regierung (und ihrer Nachahmer in Europa und im Rest der Welt) an die Wirksamkeit der Wettbewerbs-Ideologie und die Kombination von Schulleistungstests und harter Sanktionen haben bereits Züge eines religösen Dogmatismus angenommen: Man glaubt, dass die eigene Politik wirken muss, also wirkt sie auch, egal was in Wirklichkeit geschieht, nämlich nichts. Das ist in der Bildungspolitik offenbar nicht anders als in der Kriegspolitik, nur dass die Medien über deren Scheitern oft und offen berichten, über das Scheitern der Schulpolitik jedoch kaum.

Dass die Politik, die man wohlklingend "No child left behind" (NCLB; kein Kind bleibt zurck) genannt hat, gescheitert ist, wurde schon vor zehn Jahren nachgewiesen. NCLB "verlässt sich auf sanktions-bewehrte Tests von Schülern, um sicher zu stellen, dass die Schulen angemessene jährliche Fortschritte machen, um das Ziel zu erreichen, dass im Jahr 2014 [in zwei Jahren!] 100% der Schüler den Stoff der betreffenden Fächer [Mathe, English] beherrschen." (Lee & Reeves, 2012; S. 209; siehe oben.)

Anhand ihrer breit angelegten, methodologisch komplexen Analyse der Test-Werte der Scühler von 1990 bis 2009 stellen die Wissenschaftler Lee und Reeves (2012) in ihrer gerade erschienenen Studie fest, dass die NCLB-Politik bislang jeden Nachweis schuldig geblieben ist, dass diese Zielsetzung realistisch ist und sanktions-bewehrte Tests überhaupt etwas zur Verbesserung der Schülerleistung beitragen können, dass eine solche Verbesserung aber durchaus, wie ihre Daten auch zeigen, durch eine langfristig angelegte, landesweite Ausweitung der Lehrkapazität und der Lehrerausbildung erzielt werden kann. GL

Leppert, Ursula (2010). Ich habe eine Eins! Und du? Von der Notenlüge zur Praxis einer besseren Lernkultur. München: libress.

“Es bleibt festzuhalten: Lernen und Leistungsmessung schließen einander aus.” (p. 18)

Lind, G. (1986). Cultural differences in moral judgment? A study of West and East European University Students. Behavioral Science esearch, 20, 208-225.

Lind, G. (2002). Ist Moral lehrbar? Ergebnisse der modernen moralpsychologischen Forschung. Berlin: Logos-Verlag.

Lind, G. (2004). Jenseits von PISA — Für eine neue Evaluationskultur, S. 1 - 7. In: Institut für Schulentwicklung PH Schwäbisch Gmünd, ed., Standards, Evaluation und neue Methoden. Reaktionen auf die PISA-Studie. Baltmannsweiler: Schneider Verlag Hohengehren ... more

Lind, G. (2009). Amerika als Vorbild? Erwünschte und unerwünschte Folgen aus Evaluationen. [America as role model? Desired and undesired consequences of evaluation.] In: T. Bohl, T. & H. Kiper., eds., Lernen aus Evaluationsergebnissen – Verbesserungen planen und implementieren, S. 78-97. Bad Heilbrunn: Julius Klinkhardt.
Vollständige Fassung mit dem nicht publizierten Kapitel über Programmevaluation: green

Lind, G. (2009). Favorable learning environments for moral development – A multiple intervention study with nearly 3.000 students in a higher education context. Paper presented at the annual meeting of AERA in San Diego, April 13 - 17, 2009. amerika

Lind, G. (2008). The meaning and measurement of moral judgment competence - A dual aspect theory. In D. Fasko & W. Willis, Hg., Contemporary Philosophical and Psychological Perspectives on Moral Development and Education, S. 185 - 220. Creskill, NJ: Hampton Press.

Lind, G. (2009). Amerika als Vorbild? Erwünschte und unerwünschte Folgen aus Evaluationen. [America as role model? Desired and undesired consequences of evaluation.] In: T. Bohl, T. & H. Kiper., eds., Lernen aus Evaluationsergebnissen – Verbesserungen planen und implementieren, S. 78-97. Bad Heilbrunn: Julius Klinkhardt.
Vollständige Fassung mit dem nicht publizierten Kapitel über Programmevaluation:.. PDF ... Complete ms. with part on self-evaluation

Lind, G. (2011). Verbesserung des Unterrichts durch Selbstevaluation. Ein Plädoyer für unverzerrte Evidenz [Improvement of teaching through self-evaluation. A plea for unbiased evidence.] In: J. Bellmann, ed.: Wissen, was wirkt. Kritik evidenzbasierter Pädagogik, S. 173-195. Wiesbaden: VS-Verlag für Sozialwissenschaften. selbstevaluation

Lind, G. (2011). Selbst ist die Schule! Fremd- versus Selbstevaluation. [Self-directed schools! External versus self-evaluation.] Grundschule 4/2011, 24 - 26. selbstevaluation

Lind, G. (2011). Pädagogik oder Struktur? Auch die Hattie-Studie weiß keinen Rat. Hessische Lehrer-Zeitung 11/2011, 26-27. selbstevaluation

Lind, G. (2012). Noten machen süchtig. Interview. Franfurter Rundschau 13.9.2012. ... more

Lind, G. (2012). Effektstärke: Statistische versus praktische und theoretische Bedeutsamkeit. [Effect size: statistical versus practical significance.] Erweiterter Vortrag. selbstevaluation

Lind, G. (2013). Meta-analysen als Wegweiser? Zur Rezeption der Studie von Hattie in der Politik. [Meta-analyses as guide for educational policy-making? On the use of the study by John Hattie in politics.] Konstanz. selbstevaluation

Lind, G. (2014). Die Notenpraxis ist nicht demokratie-konform. In: Humane Schule, 40, Dezember 2014. ... more

Lind, G. (2015). Von der Leistungs- zur Lernkultur. Anmerkungen zur Resolution des Grundschulverbands zur Ziffernnoten-Beurteilung. In: Lehren und Lernen, 41, S. 29 - 32. ... more

Linn, Robert L. (2000). Assessments and accountability. Educational Researcher 29, 2, 4–16. ... more*

Tests wear out. This indicates that test-wiseness is one of the strongest factors behind test scores, not the factual competence that test makers asssume.

test validitätsverlust

Linn zeigt, dass Schulleistungstests sich schnell abnutzen. Die Testwerte steigend ständig, ohne dass diesem Anstieg ein wirklicher Kompetenzzuwachs zugrundeliegt. Dies belegt, dass diese Tests in hohem Maß Testschlauheit messen, statt der Kompetenz, die sie angeblich messen sollen.

Linn shows that tests' wear out quickly. Test results increase strongly eventhough there is no increase in the competence, which they alledgedly measure. Obviously tests measure more test-wiseness instead.

Loftus, G. R. (1993). A picture is more worth than thousand p-values: On the irrelevance of hypothesis testing in the computer age. Behavior Research Methods, Instrumentation and Computers, 25, 250-256.

Lohmann, Joachim (2013). Gemeinsam lernen -- kein Einwand stichhaltig! http://www.gggg-bund.de ... mehr

Zusammenfassung: "Die Reform der Schulstruktur war das am heftigsten umstrittene innenpolitische Thema der 70er Jahre. Seit den 80er Jahren versuchte die Politik, das Thema mit immer neuen Einwänden und Alternativstrategien zu verdrängen.
Doch keine der Einwände trägt, und keine Alternative ersetzt die Strukturreform – weder bei dem Ziel der Chancengleichheit noch bei dem der Leistungssteigerung. Für die OECD-Unterschiede bei der Chancengleichheit ist die Schulstruktur entscheidend. In einer gemeinsamen Schule für alle

  • wirkt sich durchschnittlich die Schulautonomie intensiver aus,
  • die Schüler verhalten sich positiver,
  • die Lehrer-Schüler-Beziehung gedeiht besser,
  • die Lehrkräfte sind schülerorientierter und
  • das Sitzenbleiben und die Abschulungen passieren seltener."

Loy, M. (2004). Mögliche Ursachen der schichtbedingten Unterschiede bei PISA-2000. Diplomarbeit im Fachbereich Psychologie, Universität Konstanz ... more

Test anxiety lowers achievement. Self-confidence and joy of learning increases them. (GL)

testleistung-pruefungsangst

Madaus, G. (2002). Interview über Tests, Testwerte und Testfehler (engl.) ... more

McKeachie, W. J. (1997). Student ratings. The validity of use. American Psychologist, 52, 1218-25.

McKeachie, W. J. (1999). Teaching tipps. Strategies, research and theory for college and university teachers. Boston: Houghton Mifflin.

McNeil, L. N. (2000). Contradictions of school reform. educational costs of standardized testing. New York: Routledge.

Meyer, H.-D. & Benavot, A. (2013). Pisa, power, and polics: The emergence of global educational governance. Oxford, England Symposium Books.

Meyer, H.-D. & Zahedi, K. (2014). An open letter to OECD' Andreas Schleicher, OECD, Paris. Global Policy. Download

Questioning OECD’s Growing Role in Public Education
Heinz-Dieter Meyer - 5th May 2014

The Open Letter to Dr. Schleicher expresses concerns that OECD’s influence in public schools has dramatically increased on a worldwide scale, promoting the narrowing of education reforms in the interest of greater “economic competitiveness,” while parents, educators, and local communities have little chance to participate in the formation of its objectives and standards. There is thus an unprecedented divergence between a global organization’s power to shape the affairs of millions of people and the ability of these people to participate in making it. .... (Full text see:
http://www.globalpolicyjournal.com/blog/05/05/2014/questioning-oecd%E2%80%99s-growing-role-public-education)

Meyerhöfer, W. (2013). Schluss mit PISA? Interview mit J. Wernicke. In: Telepolis, ... more.

Millman, J. & Darling-Hammond, L., eds. (1990). The new handbook of teacher evauation. Assessing elemtary ad secondary school teachers. Newbury, CA: Corwin Press.

Milton, O., Pollio, H. R., & Eison, J. A. (1986). Making sense of college grades. San Francisco Jossey-Bass Publishers.

Mintrop, H., & Sunderman, G. L. (2009). Predictable failure of federal sanctions-driven accountability for school improvement—and why we may retain it anyway. Educational Researcher, 38, 353–364.

Moldaschl, M.; Schwarz, C. (2005): Die Farben der Evaluierung. Eine Verteidigung der Evaluierung gegen ihre Befürworter. In: H. Welte; M. Auer, C. Meister-Scheytt, Hg.,Management von Universitäten Zwischen Tradition und (Post-)Moderne. München: Hampp. S. 407-430 (2. Aufl. 2006). ... more

"Dass diese Debatte heute ideologisch so aufgeladen ist, verdanken wir nicht zuletzt einer Ideologie, die sich als das Ende aller Ideologien versteht: dem ökonomischen Fundamentalismus. Indem dieser alles angreift, was in das "freie Spiel der Kräfte" eingreift, sei es ein staatlicher Schutz der Berufe, Regulierungen der Medikamentenzulassung, Tarifverträge mit der organisierten Arbeitnehmerschaft, öffentliche Hochschulen oder Polizei, oder Sozial- und Umweltstandards: eine sachliche Auseinandersetzung mit den Nebenfolgen von Sozial-, Umwelt-, Bildungs- und generell Modernisierungspolitik wird erschwert, Lagerdenken geschürt."

Moldaschl, M. (2005). Audit-Explosion und Controlling-Revolution Zur Verstetigung und Verselbständigung reflexiver Praktiken in der Wirtschaft. Soziale Welt 56, S. 163 - 190. ... more

Murphy, J., Halliger, P., & Heck, R.H. (2013). Leading via teacher evaluation: The case of the missing clothes? Educational Researcher, 42, 349-354.

"So here is what we know so far. Teacher evaluation for most of the twentieth century had very little influence on much of anything of substance." (p. 350)

Nagel, B. (2004). Zur Effizienz und Gerechtigkeit von Studiengebühren. In: F. Gürzkow & G. Quaißer, Hg., Hochschule gestalten. Denkanstöße aus Hochschulpolitik und Hochschulforschung. Bielefeld: Universitätsverlag. S. 187 - 199.

Nichols, S. L. & Berliner, D. (2005). The inevitable corruption of indicators and educators through high-stakes testing. EPSL-0503-101-EPRU. http://edpolicylab.org

Nichols, S. L. & Berliner, D. (2007). Collateral damage: How high-stakes testing corrupts schools. Cambridge, MA: Harvard Education Press.

Pascarella, E. T. & Terenzini, P.T. (1991). How college affects students. San Francisco: Jossey-Bass.

Pask, G. (1976). Styles and strategies of learning. British Journal of Educational Psychology 46, 128-148.

Piaget, Jean (1974 / 1948). Das Recht auf Erziehung und die Zukunft unseres Bildungssystems. München: Piper (Original 1948 publiziert).

“Obwohl man sich heute über die negative Rolle der Prüfungen völlig im klaren ist, stört dieser Fluch unseres Schulwesens (der Ausdruck ist nicht zu stark) die normalen Beziehungen zwischen Lehrer und Schüler doch nach wie vor auf allen Stufen und benimmt beiden mit der Freude an der Arbeit oft auch das gegenseitige Vertrauen.”
“Zum Selbstzweck wird die Prüfung, weil sie das ganze Denken und Tun des Lehrer beherrscht und ihm kaum mehr Zeit für seine eigentliche Berufung, Verstand und Gewissen zu wecken, lässt und weil sie die gesamt Arbeit des Schülers auf ein so künstliches Ergebnis wie der erfolgreichen Schulabschluss ausrichtet, statt ihn zu echter Aktivität und persönlicher Selbständigkeit anzuregen.” (S. 27)

"Das vom Bildungsziel [moralische Autnomie] aufgeworfene pädagogische Problem nun läuft auf die ... Kernfrage hinaus, ob es mittels Techniken, die stets einen gewissen geistigen und moralischen Zwang beinhalten, überhaupt gelingen kann, autonome Persönlichkeit heranzubilden oder ob das nicht vielmehr ein Widerspruch in sich ist, da Bildung der Persönlichkeit ... freie Aktivität innerhalb einer auf Zusammenarbeit und nicht auf Unterordnung aufgebauten sozialen Umwelt voraussetzt." (p. 37)

Prenzel, M. & Baumert, J (2008). Unbekanntes PISA - Über den Nutzen der internationalen Vergleichsstudie für die Hochschulen. Forschung & Lehrer. ... more

Ravitch, Diane (2010). The death and life of the great american school system. How testing and choice are undermining education. New York: Basic Books.

"I was aware that I had undergone a wrenching transformation in my perspective on school reform. Where once I had been hopeful, even enthusiastic, about the potential benefits of testing, accountability, choice, and markets, I now found myself experiencing profound skepticism about these same ideas. I was trying to sort through the evidence about what was working and what was not. I was trying to understand why I was increasingly skeptical about these reforms, reforms that I had supported enthusiastically. I was trying to see my way through the blinding assumptions of ideology and politics, including my own." (p. 1)

Ravitch, Diane (2013) Reign of error: The hoax of the privatization movement and the danger to America's public schools. New York: Alfred A. Knopf. Review

Eine fundierte Kritik der Versuche, das öffentliche Bildungswesen in den USA zu zerstören und in private Geldanlagen zu verwandeln. GL

"Tests are not scientific instruments" and are "not designed to measure school or teacher quality" (p. 264).

"If the American public understood that reformers want to privatize their public schools and divert their taxes to pay profits to investors, it would be hard to sell the corporate idea of reform. If parents understood that the reformers want to close down their community schools and require them to go shopping for schools, some far from home, that may or may not accept their children, it would be hard to sell the corporate idea of reform. If the American public understood that the very concept of education was being disfigured into a mechanism to apply standardized testing and sort their children into data points on a normal curve, it would be hard to sell the corporate idea of reform. If the American public understood that their children’s teachers will be judged by the same test scores that label their children as worthy or unworthy, it would be hard to sell the corporate idea of reform. If the American public knew how inaccurate and unreliable these methods are, both for children and for teachers, it would be hard to sell the corporate idea of reform. And that is why the reform message must be rebranded to make it palatable to the public." (p. 35)

Also forgotten is that public schools were created by communities and states for civic purposes. In the nineteenth century, they were often called “common schools.” They were a project of the public commons, the community. They were created to build and sustain democracy, to teach young people how to live and work together with others, and to teach the skills and knowledge needed to participate fully in society. Inherent in the idea of public education was a clear understanding that educating the younger generation was a public responsibility, shared by all, whether or not they had children in the public schools, whether or not they even had children. (p. 207)

Rhoades, K. & Madaus, G. (2003). Errors in standardized tests: A systemic problem. National Board on Educational Testing and Public Policy ... more

Rindermann, H. (2001). Lehrevaluation. Einführung und Überblick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen. Landau: Verlag empirische Pädagogik.

Rolff, Hans-Günter, (2015). Sind schulische Strukturfaktoren wirklich unwichtig? b&w, Ausgabe 3/2015, S. 26 - 29. ... more

Rose, Mike (2006). Grand visions and possible lives. Finding the public good through the details of classroom life. Education Week, Oct. 11, 2006. ... more*

"Without a doubt, there is much that is wrong with our schools. Citizens in a democracy must continually assess the performance of their public institutions. But the quality and language of that evaluation matter. Before we can evaluate, we need to be clear about what it is we’re evaluating, what the nature of the thing is: its variables and intricacies, its goals and purpose. We should also ask why we’re evaluating. To what end?"

Rosenthal, R., Rosnow, R. L. & Rubin, D. B. (2000). Contrast and effect sizes in behavioral research. A correlational approach. New York: Cambridge University Press.

Rothstein, J. (2011). Review of 'Learning about teaching: Initial findings from the measures of effective teaching project.' Boulder, CO: National Education Policy Center. Retrieved 6/18/2012 from
http://nepc.colorado.edu/thinktank/review-learning-about-teaching.

Sacks, Peter (1999). Standardized minds. The high prize of America´s testing culture and what we can do to change it. Cambridge, MA: Perseus Publishing.

Sanction on low test scores diminish learning outcomes.

Die Höhe der Sanktionen, die einzelne US-Staaten an das Erreichen bestimmter Testwerte knüpft, korreliert negativ mit demn Testleistungen. Mit anderen Worten, Strafandrohungen senken die Lernleistung der Schüler. (Sacks 1999, p. 98-99)

sacks_1999

Sacks, P. (2007). Tearing down the gates. Confronting the class divide in American education. Berkeley, CA: University of California Press ... more

Sahlberg, Pasi (2013). Finnish lessons. What can the world learn from educational change in Finland? New York: Teacher College Press.

Samson, G. E. et al. (1984). Academic and Occupational Performance: A Quantitative Synthesis. American Educational Research Journal, 1984 (not available online)

A review of 35 studies revealed that academic indicators (grades and tests) from college accounted for less than 3 percent of the variance in eventual occupational performance as judged by income, job effectiveness ratings, and job satisfaction. Moreover, these indicators had no predictive power whatsoever for M.D.s and Ph.D.s

Note: Tests and grade have hardly any predictive validity. (GL)

Sanders, J. R. (1994). The program evaluation standards. How to assess evaluations of educational program. 2nd edition. Thousand Oaks, USA: Sage Publications.

Schleicher, A. (2010). »Es hat sich enorm viel getan« Ein Gespräch mit Andreas Schleicher, dem internationalen Koordinator der PISA-Studie, über die Messbarkeit von - Bildung und den Wandel in der deutschen Schulpolitik. ZEIT Nr. 49, 2. Dezember 2010. ... more

Schmidt, C. M. & Fertig, M. (2003). Genaueres Hinsehen lohnt. Die Determinanten des Abschneidens deutscher Schüler an der PISA 2000-Studie. In Forschung & Lehre, 6/2003, 313-315 . ... more

Schoenfeld, A. (1999). Looking Toward the 21 st Century: Challenges of Educational Theory and Practice. Educational Researcher, 28, 4-14. .... more

Schoenfeld, A. (2006). What Doesn’t Work: The Challenge and Failure of the What Works Clearinghouse to Conduct Meaningful Reviews of Studies of Mathematics Curricula ... more*

Schratz, M. et al. (2000). Qualitätsentwicklung. Verfahren, Methoden, Instrumente. Weinheim: Beltz.

Schümer, G. (2006). Zur bildungspolitischen Bedeutung internationaler Schulleistungsstudien. In: Christian Brinkmann, Susanne Koch & Hans Gerhard Mendius: Wirkungsforschung und Politikberatung – eine Gratwanderung? In: Beiträge zur Arbeitsmarkt- und Berufsforschung 300, S. 245-273. ... more

Schweinhart, L. J. (2011). The High/Scope preschool study through age 40. Summary, conclusions and frequently asked questions. Ypsilanti, MI: High/Scope Press. (deutsche Übersetzung)

Scriven, M. (1999). The Nature of Evaluation Part I: Relation to psychology.
http://ericae.net/pare/getvn.asp?v=6&n=11

Scriven, M. (1999). The Nature of Evaluation Part II: Training. http://ericae.net/pare/getvn.asp?v=6&n=12

Shepard, L. A. (2002). The role of assessment in a learning culture. Educational Researcher, 29, 4-14. ... more

Smylie, M. A. (1994). Redesigning teachers' work: Connections to the classroom. In: L. Darling-Hammond, Ed., Review of Education, 20, 129-177 Washington, DC AERA.

Sjøberg, Svein (2016). OECD, PISA, and globalization: the influence of the international assessment regime. In: Tienken, C. H. & Mullen, C. A. (Eds) (2016). Education Policy Perils. Tackling the Tough Issues. Routledge.

Sjøberg, S. (2017). PISA as a challenge for science education: inherent problems and problematic results from a global assessment regime. Revista Brasileira de Pesquisa em Educação em Ciências, 17(1), 327–363.

"We experience the emergence of a global educational reform movement, where the OECD (Organization for Economic Cooperation and Development) through its project PISA (Programme for International Student Assessment) has become the key driver. PISA and its focus on league tables and rankings influence educational debates and educational policy world-wide. The OECD is, with PISA as the main instrument, emerging as a kind of global ministry of education, promoting their own standardized curriculum and system of quality assessment. PISA is designed to be used by the 30+ modern, highly developed countries in the OECD, but is also used by some 40 less developed non-OECD countries as a benchmark for their education system. This influence of OECD will be further widened by a version of PISA that will target developing countries, “PISA for development”. This instrument has the same underlying assumptions and ideals as PISA: the main concern is the national economy, not the personal development of the learner. There is also the underlying assumption that competition is always good, and that a free-market economy always promotes quality. The increasing role taken by the OECD is pushing aside the influence of international organization with different agendas and ideals, like UNESCO and UNICEF. Since studies like PISA by design cannot identify causal relationships behind neither success nor failure, the educational consequences of the studies are not clear. In many countries, PISA results are used to legitimize market-driven reforms, control of the teachers, payment by test results for teachers and principals, erosion of the public school system, privatization and the introduction of more testing regimes.In this development, the OECD now operates in close contact with the world’s largest commercial company in the education sector, Pearson Inc. The success of PISA as an instrument of governance is currently expanded also to target schools and their teaching in a more direct way: a PISA-like instrument, “PISA for Schools” is developed for local use, for schools and school districts, enabling them to compare their own schools to “PISA winners”. This development may also create anxiety and concern not only at the national or federal level, but also at the local level. This test is also a commercial product, opening up a large and untapped market."

Sjøberg, S. (2018). The power and paradoxes of PISA: Should Inquiry-Based Science Education be sacrificed to climb on the rankings? Nordic Studies in Science Education (in print)

"Abstract
Since publication of the first PISA results in 2001, the PISA scores have become a kind of global “gold standard” for educational quality. Climbing on the international PISA rankings have become a high priority for national educational policies world-wide, also in the Nordic countries. This article first explores why and how the OECD, with PISA as the main instrument, has emerged as the key defining organization for educational quality and policy. Some of the underlying assumptions, ideologies and values are critiqued. Secondly, the article draws attention to PISA findings that are surprising, unexpected and problematic. The most problematic finding for science education is that PISA-scores correlate negatively with nearly all aspects of inquiry-based science teaching (IBSE), the kind of teaching that is recommended by scientists as well as science educators."

Anmerkung: Sjoberg hält die Testwerte bei PISA für hoch problematisch. weil sie negativ mit forschungs-basiertem, entdeckendem Lernen korrelieren, das von Fachwissenschaftlern und Psychologen empfohlen wird. Dieser Befund ist nicht verwunderlich, da PISA-Tests durchweg Nachdenken und Diskussion, die beiden wichtigsten Grundlagen dieses Lernens, negativ bewerten und durch Punkteverlust bestrafen.

Stake, B. (2004). Convergence or inclusion. Comments to the Faculty of Education of the University of Granada, November 22, 2004, to promote discussion on proposals to increase "convergence" of university programs of teacher education.

Süllwold, F. (1992): Welche Realität wird bei der Beurteilung von Hochschullehrern durch Studierende erfaßt?, in: MittHV 1/92, S. 34.

Tomlinson, C.A. (2003): Deciding to teach them all ... mehr

Tucker, M., Darling-Hammond, L., & Jackson, J. (2013). Fewer, Better Tests Can Boost Student Achievement. Education Week, 7.10.2013,http://www.edweek.org/ew/articles/2013/10/09/07tucker.h33.html

"Americans are addicted to multiple-choice, computer-scored tests, mainly because they are cheap and easy to score. However, these tests drive a rote curriculum that will not produce the skills students need to get and keep good jobs in the 21st century—writing and speaking well, using advanced mathematics, analyzing complex problems, and finding and synthesizing information from many sources for creative problem-solving."

Wang, J. (2001). Rankings bei TIMSS sind nicht zuverlässig (engl.)

White, R. (1959). Motivation reconsidered: The concept of competence. Psychological Review, 66, 297-333.

Wissenschaftsrat (1996). Empfehlungen zur Stärkung der Lehre in den Hochschulen durch Evaluation.

Wissenschaftsrat (1996). Empfehlungen zur Stärkung der Lehre in den Hochschulen durch Evaluation. Bezogen von http://www.bawue.gew.de/fundusho/wiratleeval.html (9.10.2003).

Wuttke, J. (2007). Uncertainties and bias in PISA. In: S. T. Hopmann, G. Brinek & M. Retzl, eds., PISA zufolge PISA, S. 241-264 Berlin LIT-Verlag.

Wuttke, J. (2009). PISA: Nachträge zu einer nicht geführten Debatte. In: GDM-Mitteilungen 86, S. 22-30. ... more

Zaborowski, K. U., Meier, M., & Breidenstein, G. (2011). Leistungsbewertung und Unterricht. Ethnographische Studien zur Bewertungspraxis in Gymnasium und Sekundarschule. Wiesbaden: VS Verlag für Sozialwissenschaften. 350 Seiten. ISBN 978-3-531-16808-1

"Unter dem harmlos klingenden Titel Leistungsbewertung und Unterricht legen Katrin Ulrike Zaborowski, Michael Meier und Georg Breidenstein eine ethnographische Studie vor, in der die übliche Praxis der Leistungsbewertung an Gymnasien einer radikalen Kritik unterzogen wird. Eine zentrale These gipfelt darin, dass diese Form der Notengebung für einen Teil der Schülerinnen und Schüler jenen Misserfolg, der ihnen dann bescheinigt wird, im Grunde selbst hervorbringt.
Beobachtet wurden »unterrichtsentkoppelte Peerwelten«: Etliche Schülerinnen und Schüler werden von den Instruktionen, die ihnen erteilt werden, gar nicht erreicht. Den Lehrkräften scheint dies auch kaum ein Problem zu sein. Sie »positionieren« die Schülerinnen und Schüler auf den vorgegebenen Leistungsdimensionen und lassen sie dort letztlich allein. Diese Unterrichtstruktur dient offenbar der Reproduktion sozialer Ungleichheit. Mit der Zuschreibung, dass die Lernenden für den jeweiligen Erfolg ihres Lernens selbst verantwortlich sind, würden sich die Lehrenden von ihrer Verantwortung entlasten – zumindest von ihrem Teil an derselben. Es sei fatal, wenn beziehungsweise dass versucht wird, das »Sinnproblem schulischen Unterrichts« mit einer Überbetonung der Zensurengebung zu bearbeiten.
Dies führe zu Folgeproblemen und »grotesken« Erscheinungsformen. Die Schule begebe sich damit »in eine Auseinandersetzung, die sie nicht gewinnen kann« (p. 366). Methodisch ist an dieser Studie bemerkenswert, dass sie sich im Unterschied zu den bereits genannten Studien sehr konkret auf situative Prozesse einlässt und akribisch dokumentiert und analysiert, wie die Lehrenden mit den Lernenden umgehen. Beobachtet werden zum Beispiel Zuschreibungsprozesse, in denen die Betroffenen lernen, sich als »Fünferkandidaten« wahrzunehmen und zu akzeptieren. Das Hauptaugenmerk der Lehrenden scheint darauf gerichtet zu sein, eine Unterrichtskultur durchzusetzen, die vor allem auf die Anpassung an schulische Verhaltensnormen zielt. Diese Befunde dürften prinzipiell durchaus auch für andere Schulformen gelten beziehungsweise auch dort bedenkenswert sein.
Diese Deutungen und Bewertungen werden manchem Leser als eine einseitige und voreingenommene Sicht auf Schule erscheinen. Und es wird wohl zu Recht die Frage gestellt, wie denn konsequent und erfolgreich anders damit umgegangen werden soll und kann, dass Schülerinnen und Schüler unterschiedliche Leistungsmöglichkeiten mitbringen.* Dass der »schwarze Peter« für die beklagten Missstände den Lehrkräften zugeschrieben wird, ist sicherlich nicht in allen Fällen gerechtfertigt.
Es wäre genauer zu klären, ob und inwieweit sie sich bewusst oder unreflektiert zum Agenten gesellschaftlicher Funktionen machen (lassen), durch die soziale Ungleichheit reproduziert und legitimiert werden soll. Wie man mit der »Ungleichheit der Köpfe« (Herbart) produktiv und ohne soziale Diskriminierung umgehen kann, ist sicherlich ein noch nicht gelöstes Problem." (Rezension: Jörg Schlömerkemper, April 2012)

* Auf diese Fragen geht Lind (2011) ein.

Zigler, E. & Muenchow, S. (1992).Head start. The inside story of America's most successful educational experiment. New York Basic Books.

Keywords:

Evaluation, value-added assessment, effect size (Effektstärke), report card (Noten, Zeugnisse), fear, anxiety (Angst, Furcht), achievement (Leistung), teacher education (Lehrerausbildung), intrinsic motivation (intrinsische Motivation), Progressive Education, competence, test theory, ...