Die Schule im Blindflug der Zahlen: Warum Deutschland seine Bildungsdaten feiert und die Qualität der Bildungsforschung zu selten prüft @SebTillmann

Viel Vermessung, wenig Gewissheit

Deutschland liebt in der Bildung den Blick aufs Display. Register sollen Lücken schließen, Dashboards Fortschritt anzeigen, Schüler-IDs Übergänge sichtbar machen, Monitoring die Politik klüger machen. Das klingt nach Vernunft, nach Ordnung, nach moderner Steuerung. Nur trägt diese Ordnung nicht weit, wenn das Wissen, auf dem sie ruht, brüchig ist. Mehr Daten ergeben noch keine bessere Erkenntnis. Ein Bildungssystem kann sehr präzise messen und dabei doch auf unsicherem Grund stehen. Dann werden Unsicherheiten nicht kleiner. Sie werden nur sauberer verwaltet. Genau dieser Punkt liegt unter der aktuellen Debatte über datengestützte Steuerung in Schule und früher Bildung. Auch die SWK knüpft wirksame Steuerung an valide und relevante Daten, verständliche Rückmeldungen und evidenzbasierte Unterstützungsmaßnahmen.

Der Kern des Problems lässt sich für Außenstehende in drei einfachen Fragen fassen. Erstens: Kommt beim Nachrechnen derselbe Befund heraus? Zweitens: Taucht das Ergebnis auch mit neuen Daten wieder auf? Drittens: Gelangen verschiedene Teams bei vertretbaren Auswertungswegen im Wesentlichen zum gleichen Schluss? In der Wissenschaft heißen diese drei Prüfungen Reproduzierbarkeit, Replizierbarkeit und analytische Robustheit. Sebastian Tillmann hat diese Unterscheidung in seinem Substack Nullhypothese jüngst sehr klar aufgeschrieben. Der Punkt ist simpel: Eine Zahl wird nicht dadurch wahr, dass sie in einer Studie steht. Sie muss einer Prüfung standhalten. Erst dann beginnt Erkenntnis.

https://nullhypothese.substack.com/p/die-vermessung-der-trummer

Wenn ein Befund schon am Rechenweg hängt

Die neuen Nature-Studien vom April 2026 haben diese Prüfungen in großem Maßstab vorgenommen. Die Studie zur Reproduzierbarkeit prüfte, ob publizierte Ergebnisse mit Originaldaten und Originalcode wiederhergestellt werden können. Das Ergebnis wirkt auf den ersten Blick schon unerquicklich genug: Viele Arbeiten entziehen sich der Prüfung, weil Daten gar nicht offengelegt werden. Die Studie zur Replizierbarkeit ging einen Schritt weiter und wiederholte 274 Hypothesen aus 164 Papieren mit neuen Stichproben. Rund 55 Prozent der Hypothesen replizierten im ursprünglichen Muster. Noch aufschlussreicher ist der Blick auf die Effektgrößen: Der mediane Zusammenhang sank von r = 0,25 in den Originalstudien auf r = 0,10 in den Replikationen. Wer das in Alltagssprache übersetzt, landet bei einem schlichten Satz: Ein guter Teil der Effekte bleibt zwar sichtbar, wird aber klein, oft sehr klein. Die Studie zur analytischen Robustheit zeigte zudem, dass nur 34 Prozent der Reanalysen denselben numerischen Befund erbrachten; 74 Prozent kamen immerhin zur gleichen qualitativen Schlussfolgerung.

Diese Zahlen verlangen keinen Kulturkampf gegen die Sozialwissenschaften. Sie verlangen Nüchternheit. Eine einzelne Studie ist kein Felsblock. Sie ist ein Arbeitsschritt. Wer aus jedem Paper sofort eine politische Wahrheit ableitet, macht aus Forschung eine Pressemitteilung mit Tabellen. Besonders lehrreich ist der Gegenpol aus Ökonomie und Politikwissenschaft. Dort untersuchte Nature Arbeiten aus Zeitschriften, die Daten- und Code-Sharing verbindlich vorschreiben. Mehr als 85 Prozent der Claims waren reproduzierbar, und 72 Prozent der ursprünglich signifikanten Effekte hielten Robustheitsprüfungen in derselben Richtung stand. Das ist keine Wunderbegabung der Disziplinen. Es ist das Ergebnis harter Regeln. Wer Offenlegung verlangt, hebt das Niveau schon vor der Veröffentlichung.

Die Schwachstelle heißt Bildungsforschung

Für die Bildungsforschung ist diese Lage besonders heikel. Sie liefert Stichworte, Programme, Förderlogiken, Diagnostikmodelle, Unterrichtsrezepte, Übergangskonzepte, Wirksamkeitsversprechen. Zugleich fällt das Feld in der neuen Metaforschung durch schwache Datenverfügbarkeit auf. Man muss fair bleiben: Die Teilstichproben sind klein, niemand sollte daraus eine Totalabwertung eines ganzen Fachs basteln. Doch die Richtung des Problems ist klar. Dort, wo Daten selten offenliegen und Prüfpfade fehlen, schrumpft die Nachprüfbarkeit. Und wo Nachprüfbarkeit fehlt, wächst die Versuchung, aus plausiblen Vermutungen politische Gewissheiten zu machen.

Gerade in Deutschland wirkt das besonders unerquicklich, weil die bildungspolitische Sprache seit Jahren mit dem Wort „evidenzbasiert“ arbeitet. Das klingt nach Labor, nach Strenge, nach hoher Verlässlichkeit. In Wahrheit bewegt sich vieles in einer Zwischenzone aus plausibler Annahme, partieller Evidenz und institutioneller Routine. Das ist kein Skandal im boulevardesken Sinn. Es ist gefährlicher. Denn es sieht vernünftig aus. Die Register werden sauber gepflegt, die Indikatoren ordentlich gruppiert, die Rückmeldungen standardisiert. Nur kann die Wissenschaftsbasis unter diesen Verwaltungsoberflächen erstaunlich weich sein. Ihr eigener Text über die Schüler-ID hat genau das auf den Punkt gebracht: Die ID ist Infrastruktur, nicht Bildungspolitik; sie ordnet Datenflüsse, ersetzt aber keine pädagogische Idee.

Die Schüler-ID heilt keine Didaktik

Damit rückt die deutsche Bildungsdebatte in ein eigentümliches Licht. Sie redet geordnet über Schnittstellen, Standards, Register und Übergänge. Sobald es um die Umgestaltung des Unterrichts, um neue Lernarchitekturen oder um die Konsequenzen generativer KI geht, wird sie unscharf. Das Problem liegt also tiefer als im Verwaltungsdesign. Es liegt im Verhältnis von Technologie, Didaktik und wissenschaftlicher Prüfbarkeit. Ein Land kann ohne Mühe Schülernummern vergeben und zugleich didaktisch im letzten Jahrzehnt leben. Wer ChatGPT im Klassenzimmer nur als Störfall behandelt, verteidigt oft nicht das Denken, sondern alte Aufgabenformate. Genau diese Diagnose ziehen Sie in Ihrem Schüler-ID-Text: Deutschland hat nicht allein ein Umsetzungsproblem. Es hat ein Problem mit Technologiekompetenz und mit dem Mut, Unterricht neu zu denken.

Die Frage lautet also nicht nur, ob Daten besser zwischen Behörden fließen. Die Frage lautet, wie aus Daten überhaupt tragfähige Erkenntnis für Unterricht, Förderung und Übergänge wird. Das SWK-Gutachten ist an dieser Stelle hilfreicher, als es viele politische Sonntagsreden sind. Es bindet Datennutzung an Qualität, Relevanz und Unterstützungsmaßnahmen. Genau dort müsste die nächste Reformstufe ansetzen. Nicht Datenliebe allein, sondern eine belastbare Evidenzarchitektur.

Die berufliche Bildung könnte den Gegenbeweis liefern

In der beruflichen Bildung läge sogar die Chance, es besser zu machen. Hier gibt es mit dem Forschungsdatenzentrum des BIBB bereits eine Infrastruktur, die Mikrodaten der Berufsbildungsforschung aufbereitet und der nicht-kommerziellen Forschung zugänglich macht. Das BIBB-FDZ ordnet seine Daten entlang des Lebensverlaufs von Schule über Ausbildung und Erwerbstätigkeit bis in die Weiterbildung. Das ist weit mehr als eine technische Serviceeinheit. Es ist ein möglicher Gegenbeweis gegen die deutsche Gewohnheit, sensible Daten und wissenschaftliche Prüfbarkeit gegeneinander auszuspielen. Wer will, kann hier zeigen, dass Datenschutz und Nachprüfbarkeit zusammenpassen.

Gerade die berufliche Bildung müsste aus den Nature-Befunden Konsequenzen ziehen. Programme für Übergangssektor, Ausbildungsreife, Matching-Plattformen, KI-gestützte Lernhilfen oder betriebliche Weiterbildung dürfen nicht wie Innovationsprosa behandelt werden. Sie brauchen präzise Zielgrößen, dokumentierte Umsetzung, nachvollziehbare Auswertung und die Möglichkeit zur Zweitprüfung. Die Berufsbildung hätte dafür fast alles, was man braucht: reale Daten, arbeitsmarktnahe Probleme, institutionelle Träger und eine hohe öffentliche Relevanz. Was fehlt, ist weniger Technik als wissenschaftspolitische Entschlossenheit.

Auch die HR-Welt lebt von geliehenem Wissen

Damit ist die Brücke zur Zukunft Personal schnell geschlagen. People Analytics, Corporate Learning, Skill-Architekturen, Recruiting-Technologien und Well-being-Programme treten heute gern mit dem Anspruch auf, evidenzbasiert zu sein. Nur stammen viele ihrer Begriffe und Instrumente aus Feldern, deren Evidenzqualität gerade selbst unter verschärfte Beobachtung geraten ist. Das ist kein akademisches Randthema. Es ist ein Glaubwürdigkeitsproblem der gesamten HR-Ökonomie. Wer auf Konferenzen Wirkung verspricht, sollte sagen können, auf welcher Evidenzklasse diese Wirkung beruht, welche Daten offengelegt wurden, ob Ergebnisse repliziert sind und welche Aussagen bloße Szenarien bleiben. Andernfalls wächst das Risiko, dass aus People Analytics eine sehr elegante Form des gut designten Behauptens wird.

Gerade deshalb sollten die Think Tanks von Zukunft Personal sich mit der Methodenfrage beschäftigen. Nicht als wissenschaftliches Feigenblatt, nicht als Pflichtübung im Anhang, vielmehr als Teil ihres Gegenstands. Wer über die Zukunft der Arbeit spricht, kommt an der Frage nicht vorbei, wie Wissen über Arbeit, Lernen, Motivation und Leistung eigentlich entsteht. Es genügt nicht, Dashboards, KI-Tools und Skill-Matrizen zu präsentieren. Die Bedingungen ihrer Geltung gehören offengelegt.

Ein Whitepaper ist noch kein Befund

Das Whitepaper des ZP Think Tanks Innovation, an dem ich mitgearbeitet habe, ist in diesem Punkt ein aufschlussreicher Fall. Zu seinen Stärken zählt sicherlich die Offenheit des Teams. Wir haben das Ganze als Experiment tituliert und den ko-kreativen Prozess aus Workshop, KI-generierten Einsichten, Deep-Search-Marathons, Podcasts und Delphi-Interviews offen dokumentiert. Im Disclaimer schreiben wir ausdrücklich, dass kein Anspruch auf Vollständigkeit, wissenschaftliche Validität im traditionellen Sinn oder Prognosegenauigkeit erhoben wird. Das ist redlicher als vieles, was in ähnlichen Formaten als Zukunftswissen verkauft wird.

Gerade diese Offenheit erzwingt allerdings auch die richtige Einordnung. Als Debattenpapier und Manifest funktioniert das Whitepaper gut. Als wissenschaftlich belastbares Evidenzprodukt bleibt es schwach abgesichert. Es veröffentlicht keinen Datensatz, keinen Code, keine Interviewleitfäden, keine nachvollziehbare Auswertungslogik, keine Prüfpfade für Dritte. Reproduzierbarkeit, Replizierbarkeit und analytische Robustheit lassen sich daher nicht prüfen. Es macht eine saubere Etikettierung nötig. Ein Impuls ist kein Befund. Ein Zukunftsbild ist keine systematische Evidenz. Ein Think Tank muss keine Fachzeitschrift werden. Im nächsten Schritt wollen wir jetzt bis September ein wenig tiefer gehen mit Leitfäden-Interviews und dergleichen. Das muss dann natürlich alles dokumentiert werden.

Vom Register ins Klassenzimmer, vom Whitepaper zur Prüfspur

Am Ende führt der Weg aus diesem Dilemma nicht über Datenverzicht. Deutschland braucht Daten. Es braucht Register, Monitoring, Verlaufswissen, gute Diagnostik und verlässliche Forschungsinfrastrukturen. Nur darf sich die Debatte darin nicht erschöpfen. Solange die Nachprüfbarkeit der zugrunde liegenden Forschung keine politische Priorität wird, bleibt die Bildungsreform unvollständig. Mehr Daten helfen nur dann, wenn gezeigt werden kann, wie aus ihnen robuste Erkenntnis wird. Für die Bildungspolitik heißt das: weniger Vertrauen in bloße Verwaltungsmodernisierung, mehr Druck auf Transparenz- und Replikationsstandards. Für die berufliche Bildung heißt es: die vorhandenen Dateninfrastrukturen als wissenschaftlichen Vorsprung nutzen. Für Zukunft Personal und ihre Think Tanks heißt es: die Methodenfrage stärker berücksichtigen.

Eine Schule wird nicht besser, weil ihr jeder Schüler eine Nummer trägt. Ein System wird nicht klüger, weil es mehr Felder in der Datenbank füllt. Gewissheit entsteht erst dort, wo Wissen die Prüfung aushält. Genau an dieser Stelle steht Deutschland noch immer erstaunlich oft im Nebel.

Kommentar verfassen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.