Sieger im Mittelmaß - die neue PISA Studie

29.06.2010 | Dr. Frank Gaeth

Deutschlands Kultusminister haben im Juni 2010 die Ergebnisse der Studie "Sprachliche Kompetenzen im Ländervergleich" vorgestellt, eine Studie in Auftrag gegeben beim Berliner Institut zur Qualitätsentwicklung im Bildungswesen (IQB) unter Leitung von Olaf Köller sowie Michel Knigge und Bernd Tesch als Herausgeber.

Über 36.000 Schülerinnen und Schüler aus der 9. Jahrgangsstufe aller 16 Länder wurden in den Fächern Deutsch und Englisch getestet. Berücksichtigte Teilkompetenzen waren für das Fach Deutsch Lesen, Zuhören und Orthografie, im Fach Englisch wurden Tests zum Lese- und Hörverstehen durchgeführt [1]. Seitdem bemühen sich Politik und Medien in der Deutung der Daten: Die Nachricht über „Sieger“ und „Verlierer“ erreichte wie selbstverständlich noch am selben Abend als erste Meldung die 20.00 Uhr Tagesschau der ARD und der SPIEGEL analysierte postwendend die Ursachen des Erfolgs: Was die Bayern besser machen. Und was nicht [2].

Nachdenkliche Menschen hingegen fragen sich, was die Autoren der Studie richtig machen. Und was nicht. Sofort fallen einem die Statistik-Witze zur Verwendung von Mittelwerten ein. So etwa die schon sprichwörtlichen zwei Töpfe voller Wasser, in die ein Statistiker seine Füße steckt. Das Wasser in dem einem Topf ist eiskalt, das im anderen kocht. Im Mittel geht es dem Statistiker gut. Aber schauen wir doch einfach mal das Ranking auf Seite 6 des Berichts an, den die Kultusminister der Länder für soviel Geld haben erstellen lassen.

Gehen wir hypothetisch davon aus, dass es den Veranstaltern wirklich gelungen ist, eine repräsentative Stichprobe zu ziehen, die vielen Möglichkeiten des Mogelns und ‚Optimierens’ erfolgreich zu unterbinden, die Probleme des probabilistischen Testmodells zu lösen und ein für sämtliche Bundesländer curricular valides, also dem Lehrplan der Schulen entsprechendes, oder zumindest sinnvolles Testinstrument aufzubauen. Schieben wir also einmal alle Zweifel, dass etwas gelungen sein könnte, an dem die PISA-Studien bislang in jedem einzelnen Punkt gescheitert waren, beiseite und konzentrieren uns nur auf diese Graphik.

Die besten mittleren Werte erzielen die Bundesländer Bayern, Sachsen und Baden-Württemberg, die niedrigsten Hamburg, Berlin und Bremen. Eben jene Mittelwerte gehen derzeit durch die Medien. Dargestellt sind neben diesen Mittelwerten auch einzelne Perzentile, also Merkmalswerte, die die Verteilung einer Variablen grob gesagt in Leistungsgruppen einteilen. Schauen wir auf die besten fünf Prozent Schüler in Spalte „95“, dann findet sich eine andere Reihenfolge, als die unter Berücksichtigung von Mittelwerten. Unter den Ländern mit den drei höchsten Werten ihrer besten fünf Prozent Schüler findet sich Sachsen (664), Berlin (650) und gleichauf Bayern (650). Nun könnte man sich die Frage stellen: Was macht Berlin richtig? Liegt die Ursache des Erfolgs darin, höhere Ansprüche zu stellen und nicht nur zu fördern, sondern auch zu fordern? Nehmen die untersuchten Kompetenzen im Fach Deutsch in der Schulpraxis Berlins möglicherweise einen unterschiedlichen Stellenwert ein? Liegt es am gemeinsamen Lernen? Lesen die Berliner Schüler etwa Untertitel der Kinofilme mit? Oder sind es die vielen Computer auf den Schreibtischen der Schülerinnen und Schüler, oder die Bücher der Eltern? Macht eventuell gar Stadtluft frei? Ist das Trinkwasser in Berlin besser? Alle diese Argumente wurden bisher als Ursachen für den Erfolg und Misserfolg bei internationalen Leistungstests von Experten angeführt.

Das ist Wissenschaft auf dem Niveau von Alchemie und Astrologie, denn die erste Frage ist doch, wofür diese Zahlen überhaupt stehen. Wie viele Testaufgaben gelöst wurden (und warum), ergibt sich aus den Werten nämlich nicht, denn es handelt sich –wie bei PISA- um eine relationale Skala, die nur -wie der Begriff schon nahe legt- die Relationen der erzielten Testwerte angibt, und die werden auch noch auf einer Skala mit einem beliebig gewählten Mittelwert und einer ebenso beliebig gewählten Standardabweichung abgebildet. In der vorliegenden Länderstudie, genau wie bei PISA international, waren es die Mittelwerte 500 und Standardabweichung von 100. Der Wert an sich hat also keinerlei inhaltliche Bedeutung ebenso wenig die Differenz zweier Werte, auch lassen sich daraus keine „Kompetenzstufen“ ableiten. Letztere sind einfach nur willkürliche Gliederungen der Werte in gleichabständige Bereiche.

Das ist jedoch nicht die einzige Konsequenz, denn nicht nur können die Zahlen an sich nicht sinnvoll interpretiert werden, und schon gar nicht als so genannter „Kompetenzzuwachs“ gemessen in Schuljahren wie auf S.12 des Berichts behauptet, auch können Leistungsfortschritte von einem Test zum nächsten nicht dargestellt werden. Wenn nämlich die Schüler sich von Test zu Test verbessern, dann wirkt sich das nicht unbedingt auf die Relation aus, diese kann durchaus erhalten bleiben. Gleiches gilt für die Verschlechterung von Leistungen. Besonders lustig wird es, wenn die besseren Schüler in ihrer Leistung nachlassen. Dann werden die schlechteren automatisch besser, denn es kommt ja nur auf deren Relation zu den Besseren an. Wer’s nicht glaubt, rechne sich das doch einfach mal durch [3] oder verfolge die Beispiele im Text weiter unten.

Um Leistungsfortschritte zu messen, sollte -ganz nebenbei bemerkt- eine so genannte Kohorte (Generation) gebildet werden. So können Effekte, die auf strukturelle Unterschiede der Stichproben zurückzuführen sind, vermieden werden.

Und noch eine Bemerkung: Eine Standardisierung am Mittelwert führt immer dazu, dass die Messwerte eines Teils der Messobjekte unterhalb des Mittelwertes liegt und ein anderer Teil darüber. Wer also „unterdurchschnittlich“ abschneidet, hat noch lange keine schlechten Ergebnisse abgeliefert.

Kommt gleich das nächste Problem. Betrachten wir noch einmal die Grafik von Seite 6 des Berichts ganz in Ruhe, dann fällt sofort die unterschiedliche Testwerteverteilung auf: Thüringen beispielsweise hat zwischen den besten und den schlechtesten fünf Prozent einen Abstand von 298 Punkten, Berlin hingegen von 377. Insgesamt haben die ostdeutschen Bundesländer eine geringere Testwertestreuung als die westlichen Bundesländer und hier fallen besonders die Großstädte auf. Wie bereits aus der PISA-Studie bekannt, ist eine wesentliche Ursache hierfür die Zusammensetzung der Gruppe. Schüler, deren Eltern einen so genannten Migrationshintergrund besitzen, weisen in Deutschland meist einen geringeren sozioökonomischen Indexwert auf als die übrigen Schüler (und auch einen Rückstand im Schulalter). Das gilt übrigens nicht für die klassischen Zuwanderungsländer, wie Kanada, Australien und Neuseeland, wo die Zuwanderer einen sogar höheren sozioökonomischen Index als die übrige Bevölkerung aufweisen. Der Zusammenhang von sozioökonomischem Niveau und Testergebnis ist ebenfalls nachgewiesen und wissenschaftlich trivial, tatsächlich ist dieser sogar einer der Hauptfaktoren zur Bestimmung der Testwerte. Je höher der Bildungshintergrund der Eltern und je höher der soziale Standard, desto besser die Testleistung. Hinzu treten Faktoren, die auf die soziale Struktur abzielen. Je stabiler das soziale Umfeld, desto leichter fällt es, seine ganze Kraft in schulische Leistung zu investieren. Das ist nicht neu. Neu hingegen scheint einigen Experten zu sein, dass der Mittelwert eben kein sinnvolles Maß der Darstellung heterogener Leistungsniveaus ist, oder um es etwas mathematischer auszudrücken: bei multimodalen Verteilungen.

Leistungsheterogene Gruppen mit einem Mittelwert zu kennzeichnen und darüber ein Ranking zu veranstalten ist daher schlicht unseriös. Die einzige Information, die sich aus dieser Darstellung entnehmen lässt, ist die, dass einige Bundesländer heterogenere Schülergruppen aufweisen als andere. Etwa ist der Anteil an Schülern mit Migrationshintergrund in den alten Bundesländern höher als in den neuen und variiert auch über die alten Bundesländer stark. Das aber ist längst bekannt und begründet kaum den finanziellen Aufwand für eine derart umfangreiche Studie.

Einzig interessant ist die Tatsache, dass die ‚besten’ fünf Prozent der Schüler über sämtliche Bundesländer verhältnismäßig identische Testleistungen abgeliefert haben sollen, zumindest dieser Graphik zufolge [4]. Aber das haben die Autoren wohl nicht erkannt.

Noch ein Argument zur PISA-Skala an sich. Nehmen wir zum einfachen Verständnis ein stark reduziertes Zahlenbeispiel, dann wird deutlich, wie eine Transformation auf eine PISA-Skala aus einer Mücke einen Elefanten machen kann und umgekehrt. Nehmen wir einmal die Messwerte 1 ; 2 ; 3, die bei einem Test gemessen worden sein könnten und transformieren sie auf eine PISA-Skala mit µ=500 und s=100, dann erhalten wir die transformierten Werte 400, 500 und 600. Das klingt doch schon ganz anders. Zwischen den Werten liegt jetzt in den Worten der Autoren „eine ganze Standardabweichung“. Das ist zwar richtig, aber in den absoluten Werten umfasst die Differenz eben nur einen einzigen Punkt. Und was bedeuten 3 Punkte: Handelt es sich um 3 Punkte von 3 insgesamt, von 30 von 300? Ist jemand mit 3 von 300 Punkten ein „Sieger“ nur weil er 600 PISA-Punkte erreicht hat? Erreichen unsere Teilnehmer in einem weiteren fiktiven Zahlenbeispiel von insgesamt 1.000 möglichen absoluten Punkten 997, 998 und 999 Punkte, wären wohl sämtliche Teilnehmer „Sieger“. Nicht jedoch nach PISA-Maßstäben. Nach der Transformation auf die PISA-Skala sieht es nämlich ganz anders aus. Hier erreichen sie ebenfalls 400, 500 und 600 Punkte. Plötzlich haben wir „Sieger“ und „Verlierer“. Nur weshalb? Wäre ein Schüler, der 99,7% aller Aufgaben korrekt gelöst hat, ein „Verlierer“ gar ein Problemfall? Gehört ein Wert von absolut 997 Punkten einer anderen „Kompetenzstufe“ an als ein absoluter Wert von 998 Punkten? Wäre eine Steigerung um 0,1 Prozent-Punkte auf der absoluten Skala, also etwa von 997 auf 998 ein „Kompetenzzuwachs“ von einem Schuljahr?

Mit PISA-Skalen argumentiert nur, wer die Öffentlichkeit beeindrucken will.

Von besonderem Interesse sind die Interpretationen der Autoren bezüglich des Zusammenhangs von mittleren Testergebnissen und Bildungsexpansion (gemessen am gymnasialen Anteil). Die Autoren schreiben:

    „Stellt man einen Zusammenhang zwischen Expansionsrate und im Mittel erreichter Leistung her, so zeigt sich, dass in allen untersuchten Teilkompetenzen substanzielle negative Korrelationen beobachtbar sind (r = -.69 im Lesen, r = -.80 im Zuhören und r = -.85 im Bereich der Orthografie), d.h. je höher der Anteil der Gymnasiasten in einem Land, desto niedriger fällt der Ländermittelwert aus.“[5]

Was wollen die Autoren damit sagen: Je mehr Schüler auf dem Gymnasium, desto schlechter die Leistung? Reduziert der Besuch des Gymnasiums etwa die „Kompetenz“ oder den „Kompetenzzuwachs“? Ist das Gymnasium gar ein Instrument zur Verhinderung geistiger Entwicklung? Das wäre neu. Tatsächlich sind die Autoren einem statistischem Artefakt aufgesessen, der schon aus den vergangenen PISA-Studien bekannt ist und in der Fachwelt als so genannte „Stage Migration“ bzw. als das „Will-Rogers-Phänomen“ bekannt wurde. Benannt ist dieses ‚Phänomen’ nach dem Humoristen und Philosophen Will Rogers, der meinte: Als die Einwohner von Oklahoma nach Kalifornien umzogen, hoben sie die durchschnittliche Intelligenz in beiden Staaten an [6]. Was bei Rogers humoristisch gemeint war, berichten die Autoren in vollem Ernst. Ganz offenkundig ist der Studie ein fundamentaler Fehler im Stichprobenplan unterlaufen. Wie in den vorangegangenen PISA-Studien ist die Stichprobe nicht repräsentativ. Man hat sich wohl nicht einmal die Mühe gemacht, neue Stichprobenpläne zu entwickeln.

"Mehr Anstrengung und Ehrgeiz zur Verbesserung der Chancengleichheit" [7] ist sicherlich zu begrüßen, allein das Messinstrument ist nicht in der Lage die Realität korrekt darzustellen und noch viel weniger die Autoren.

Die neue PISA-Studie, die nur nicht mehr so heißt, hat ihre methodischen Probleme nicht lösen können. Weder sind die Werte inhaltlich interpretierbar, noch neue Erkenntnisse gewonnen worden. Was sind denn nun die Faktoren für ein erfolgreiches Lernen, was sind die optimalen Strukturen und wie kann Benachteiligten besser geholfen werden? Darauf liefert die Studie nach wie vor keine Antworten. Sie reduziert vielmehr den Bildungsbegriff auf ein Ranking, einem Wettrennen ähnlich nur eben ohne sportliche Regeln. Die Studie lässt sich bestenfalls als Wissenschaftskitsch oder mit den Worten von Erich Maria Remarque beschreiben: Im Westen nichts Neues.

Literatur

[1] Olaf Köller, Michel Knigge & Bernd Tesch (Hrsg.): Sprachliche Kompetenzen im Ländervergleich (2010) S.4 http://www.iqb.hu-berlin.de/aktuell/dateien/LV_ZF_0809b.pdf

[2] Das machen die Bayern besser - und das nicht [SPIEGEL 26.06.2010] http://www.spiegel.de/schulspiegel/0,1518,702367,00.html

[3] Zur Bildung einer relationalen Skala mit œ und S bilde man eine Zahlenreihe, berechne den Gesamtmittelwert (M) und die Standardabweichung (sk). Sodann transformiere man jeden Wert, indem der Quotient der Differenz jedes Testwerts (xi) mit dem Gesamtmittel und der Standardabweichung mit der gewünschten Standardabweichung (S) multipliziert und mit dem gewünschten Mittelwert (œ) addiert wird. (xi-M)/sk *S+œ

[4] Im Prinzip ist nicht nur der Median betroffen, sondern selbstverständlich auch die übrigen Quantile. Daher überrascht eher der hohe Wert in Berlin.

[5] Olaf Köller, Michel Knigge & Bernd Tesch (Hrsg.): Sprachliche Kompetenzen im Ländervergleich (2010) S.8

[6] Wikipedia: Will-Rogers-Phänomen http://de.wikipedia.org/wiki/Will-Rogers-Ph%C3%A4nomen

[7] GEW: „Kultusminister müssen mehr Ehrgeiz entwickeln, um Chancengleichheit zu verbessern“ http://www.gew.de/GEW_Kultusminister_muessen_mehr_Ehrgeiz_entwickeln_um_Chancengleichheit_zu_verbessern.html

Weiterlesen / Weiterempfehlen

← zurück | Bildungspolitik | Dr. Frank Gaeth | weiterempfehlen →