Die Zukunft der Stichprobe liegt im Verzicht auf die Stichprobe - Eine Replik auf das Marktforschungs-Jahrbuch zur Stichprobenqualität

Die Marktforschung diskutiert wieder über Stichproben. Das ist verdienstvoll, weil kaum ein Begriff so oft beschworen und so selten präzise verstanden wird wie dieser. In Christian Thunigs LinkedIn-Hinweis zum Jahrbuch der Marktforschung wird die Lage kenntnisreich beschrieben: sinkende Teilnahmebereitschaft, erschöpfte Online-Panels, schwer erreichbare junge Zielgruppen, KI-generierte Antworten, synthetische Daten, Mixed-Mode-Designs, neue Qualitätsstandards. Oliver Frangakos argumentiert aus der Perspektive eines globalen Panelanbieters, Holger Liljeberg aus der Perspektive klassischer Qualitätsforschung. Beide haben recht in dem, was sie verteidigen. Und doch führt die Debatte in die falsche Richtung. Die Zukunft der Stichprobe liegt nicht in der besseren Stichprobe. Sie liegt, so steil muss man es formulieren, im Verzicht auf die Stichprobe — jedenfalls dort, wo sie zur bloßen Legitimationsformel für Erkenntnis geworden ist.

Das ist kein Plädoyer gegen Empirie. Es ist auch kein Angriff auf Exit-Polls, valide Face-to-Face-Erhebungen, Einwohnermeldeamts-Stichproben, hochwertige CATI-Designs oder methodisch kontrollierte Mixed-Mode-Studien. Wer Befragungen direkt an den Toren der Wahlbüros durchführt, wer seltene Populationen sauber rekrutiert, wer tiefenscharfe sozialwissenschaftliche Feldforschung betreibt, braucht weiterhin Stichproben. Und zwar gute.

Die These betrifft einen anderen, größeren Bereich: die routinierte Markt-, Medien-, Kommunikations- und Kampagnenforschung, in der Stichproben oft nur noch den Anschein statistischer Solidität erzeugen, während die Wirklichkeit, die sie abbilden sollen, längst woanders spricht, sucht, klickt, kommentiert, kauft, schweigt oder widerspricht.

Die Stichprobe war eine Antwort auf Knappheit

Die klassische Stichprobe war eine geniale Antwort auf Knappheit. Man konnte nicht alle fragen, also fragte man einige. Man konnte Verhalten nicht dauerhaft beobachten, also erhob man Meinungen punktuell. Man konnte gesellschaftliche Kommunikation nicht in Echtzeit auswerten, also baute man Erhebungsapparate.

Daraus entstand eine Kultur der Befragung, die über Jahrzehnte erstaunlich leistungsfähig war. Doch ihre Voraussetzung war eine halbwegs erreichbare Gesellschaft. Diese Voraussetzung zerfällt.

Das Problem ist nicht nur, dass Menschen seltener ans Telefon gehen. Es ist tiefer. Die Befragung setzt voraus, dass Menschen wissen, was sie denken; dass sie sagen, was sie denken; dass die Befragungssituation ihr Denken nicht verändert; dass die Antwortkategorie zur inneren Lage passt; dass Erreichbarkeit nicht systematisch mit Meinung korreliert; dass Teilnahmebereitschaft keine eigene soziale Selektion erzeugt. Jede dieser Voraussetzungen ist heute prekär.

Mixed Mode ist nicht automatisch Repräsentativität

Darum greift auch die Hoffnung auf immer raffiniertere Mixed-Mode-Designs zu kurz. Sie ist methodisch ehrenwert, aber häufig defensiv. Wenn eine Gesellschaft über Festnetz, Mobiltelefon, Online-Panel, Messenger, App, Straße und postalische Einladung nur noch fragmentarisch erreichbar ist, dann ist die Kombination dieser Kanäle nicht automatisch ein Weg zurück zur Repräsentativität. Sie kann auch nur die Addition verschiedener Verzerrungen sein.

Man erreicht mehr Menschen, gewiss. Aber erreicht man dadurch die relevante Wirklichkeit? Die Branche hält am Begriff der Repräsentativität fest, weil er Vertrauen erzeugt. Aber Repräsentativität ist kein Weihwasser. Sie ist eine Eigenschaft eines Designs im Verhältnis zu einer definierten Grundgesamtheit, einem Erhebungsmodus, einer Fragestellung und einer Fehlerstruktur. Wer heute sagt, eine Stichprobe sei repräsentativ, sagt häufig weniger, als Auftraggeber glauben.

Repräsentativ wofür? Für Alter, Geschlecht, Bildung und Region? Für politische Aufmerksamkeit? Für Kaufbereitschaft? Für kulturelle Codes? Für digitale Sichtbarkeit? Für latente Wechselbereitschaft? Für die Fähigkeit, eine Marke überhaupt zu erinnern? Für die Bereitschaft, in einem Panel zum fünften Mal in diesem Monat eine Befragung auszufüllen?

Die eigentliche Krise ist epistemisch

Hier beginnt die eigentliche Stichprobenkrise. Sie ist keine technische Krise der Rekrutierung. Sie ist eine epistemische Krise. Die Stichprobe beantwortet immer noch die Frage: Wen fragen wir? Die strategisch interessantere Frage lautet längst: Welche Spuren sind aussagekräftig?

Moderne Gesellschaften produzieren ununterbrochen beobachtbare Signale. Sie schreiben Rezensionen, bewerten Produkte, teilen Videos, lesen Nachrichten, suchen Begriffe, verlassen Warenkörbe, abonnieren Kanäle, kommentieren Kandidaten, ignorieren Kampagnen, reagieren auf Ereignisse, bilden Resonanzräume. Diese Signale sind nicht identisch mit Meinung. Aber sie sind auch nicht weniger wirklich als eine Antwort auf einer Skala von eins bis zehn. Oft sind sie sogar näher an der sozialen Dynamik, weil sie nicht erst in der künstlichen Situation der Befragung erzeugt werden. LeFloid hat das auf der dmexco sehr gut zusammengefaßt.

Resonanz schlägt Repräsentation – LeFloid und die Echtzeit-Wende in der Meinungs- und Marktforschung – Nachlese zur #OBWahl in #Bonn

Bonn als Praxistest: Prognose ohne Befragung

Ein Beispiel dafür war die Oberbürgermeisterwahl in Bonn. Guido Déus von der CDU gewann die Stichwahl gegen die grüne Amtsinhaberin Katja Dörner. Das Ergebnis lag bei 53,99 Prozent für Déus und 46,01 Prozent für Dörner. Unsere Prognose lag im Korridor: Für Déus hatten wir 52 bis 55 Prozent erwartet, für Dörner 45 bis 48 Prozent. Auch die Stärke der CDU im Bonner Stadtrat hatten wir mit 25 bis 30 Prozent prognostiziert; tatsächlich kam die CDU auf 31,9 Prozent und wurde stärkste Kraft.

Das Entscheidende war nicht die Punktlandung als solche. Eine einzelne Wahl validiert kein Modell im strengen wissenschaftlichen Sinn. Aber sie kann zeigen, dass ein anderes Beobachtungsregime belastbare Signale liefert. Seit dem Frühjahr 2025 haben wir bei Sohn@Sohn ein alternatives Prognosemodell getestet: keine Umfrage, keine klassische Befragungsstichprobe, kein „Wenn am Sonntag Wahl wäre“. Stattdessen eine kontinuierliche Sentiment-Analyse.

Das Modell klassifizierte Signale aus News-Portalen, Social Media, Websites und digitalen Veranstaltungsformaten entlang positiver, neutraler und negativer Tonalitäten. Hinzu kamen Sichtbarkeitswerte, Interaktionsdaten, Resonanzräume und Verlaufskurven. Es handelte sich nicht um ein einzelnes KI-Tool, sondern um eine kuratierte, methodisch überformte Beobachtungsschicht: täglich aktualisiert, kontextsensitiv, mit manuellem Feintuning, offen für qualitative Verschiebungen und zugleich gestützt auf strukturierte Massendaten.

Sichtbarkeit ist nicht Zustimmung — aber ein Signal

Der Bonner Fall ist deshalb interessant, weil er zeigt, was klassische Befragungslogik oft unterschätzt. Nicht jede Interaktion ist Zustimmung. Nicht jede Sichtbarkeit ist Stärke. Nicht jede Empörung ist Ablehnung. Aber über längere Zeiträume entstehen Muster: Wer wird außerhalb des eigenen Lagers erwähnt? Welche Narrative setzen sich durch? Wo kippt Tonalität? Welche Kandidatur erzeugt nur Lagerkommunikation, welche erreicht fremde Resonanzräume? Wo verdichten sich Themen, wo versenden sie sich?

Genau hier liegt der Unterschied zwischen Befragungsdaten und Resonanzdaten. Die Befragung erzeugt eine Antwort. Die Resonanzanalyse beobachtet Bewegung. Die Befragung fragt nach Präferenz. Die Resonanzanalyse sucht nach Dynamik. Die Befragung ist eine Momentaufnahme. Die Resonanzanalyse ist eine Zeitreihe.

Damit verschiebt sich der Forschungsgegenstand. Nicht mehr die einzelne Antwort ist die elementare Einheit, sondern das Muster. Nicht mehr die punktuelle Befragung ist der Königsweg, sondern die Entwicklung über Zeit. Nicht mehr das Versprechen, eine Bevölkerung im Kleinen abzubilden, ist entscheidend, sondern die Fähigkeit, Bewegungen, Brüche, Resonanzverschiebungen und semantische Verdichtungen früh zu erkennen.

Der Kommentarstrang ist nicht repräsentativ — aber diagnostisch

Natürlich ist ein Kommentarstrang nicht repräsentativ. TikTok ist nicht die Bevölkerung. Reddit ist nicht die Mitte. Die Leserbriefspalte ist nicht das Wahlvolk. Aber diese Feststellung ist trivial. Die wichtigere Frage lautet: Welche Veränderung zeigt sich dort früher als in einer Befragung? Welche Begriffe wandern von der Peripherie ins Zentrum? Welche Themen verlieren Anschlussfähigkeit? Welche Akteure erzeugen Resonanz jenseits ihrer eigenen Anhängerschaft? Welche Botschaften werden nicht nur gesehen, sondern aufgenommen, umgedeutet, verspottet, weitergetragen?

Das lässt sich mit klassischen Stichproben nur schwer erfassen. Eine Befragung misst häufig das, was Befragte im Moment der Befragung zu sagen bereit und fähig sind. Digitale Resonanzanalyse misst, was in Kommunikationsräumen tatsächlich zirkuliert. Das ist ein anderer Erkenntnistyp. Er ist weniger sauber im alten Sinn, aber oft näher an der Dynamik.

Die „Sonntagsfrage“ ist eine nützliche Fiktion

Gerade in der politischen Prognostik wird das sichtbar. Die Frage „Wenn am Sonntag Wahl wäre?“ ist eine große zivilisatorische Erfindung der Demoskopie, aber sie ist auch eine eigentümliche Fiktion. Sie unterstellt eine Entscheidungssituation, die gerade nicht stattfindet. Sie zwingt Unentschlossene in Kategorien, die sie vielleicht noch gar nicht gebildet haben. Sie misst Präferenz als Selbstauskunft.

In fragmentierten Öffentlichkeiten kann jedoch die Veränderung der Resonanz wichtiger sein als der abgefragte Stand. Wer gewinnt Anschluss? Wer verliert Deutungshoheit? Wer wird außerhalb des eigenen Lagers positiv erwähnt? Wo kippt Tonalität? Wo entsteht Mobilisierung?

Dass solche Modelle funktionieren können, heißt nicht, dass sie klassische Wahlforschung ersetzen. Für amtliche Wahlforschung, Exit-Polls und methodisch saubere Nachwahlbefragungen gelten andere Regeln. Aber für Kampagnensteuerung, Frühindikatoren, Kandidatenwahrnehmung und strategische Kommunikation ist die Stichprobe oft zu langsam, zu statisch und zu sehr an Selbstauskunft gebunden.

Marktforschung darf nicht nur Absicherungsforschung sein

In der Marktforschung ist die Lage ähnlich. Seit Jahrzehnten fragt man Menschen nach Kaufabsichten, Wiedererkennung, Weiterempfehlung, Markenpräferenz. Man erhält Zahlen, Balken, Scores. Doch ein großer Teil dieser Forschung ist nicht Erkenntnisproduktion, sondern Absicherung. Sie legitimiert Entscheidungen, die längst getroffen wurden. Sie erzeugt Mittelmaß, weil sie das Neue an den Maßstäben des Bekannten prüft.

Wer radikale Kreativität durch Befragung vorab validieren will, bekommt selten Überraschung, aber häufig Beruhigung. Der Verzicht auf die Stichprobe bedeutet hier nicht den Verzicht auf Forschung. Er bedeutet den Verzicht auf die falsche Autorität der Befragung. Statt hypothetische Kaufabsichten abzufragen, kann man reales Such-, Klick-, Kauf-, Nutzungs- und Empfehlungsverhalten analysieren. Statt einzelne Kampagnenmotive in Panels zu testen, kann man semantische Resonanz, kulturelle Anschlussfähigkeit und Diffusionsgeschwindigkeit beobachten. Statt Menschen zu fragen, ob sie eine Botschaft verstanden haben, kann man untersuchen, wie sie diese Botschaft tatsächlich weiterverwenden.

Die Zukunft heißt nicht hybride Stichprobe, sondern hybride Evidenz

Das bessere Modell der Zukunft ist daher nicht die hybride Stichprobe, sondern die hybride Evidenzarchitektur. Sie kombiniert kontinuierliche Beobachtungsdaten mit qualitativer Tiefeninterpretation, experimentellen Designs, kleinen validen Ankerstudien und gelegentlichen hochwertigen Befragungen.

Die Stichprobe verschwindet nicht vollständig. Aber sie verliert ihre Rolle als Zentralorgan der Erkenntnis. Sie wird Kalibrierinstrument, Kontrollgruppe, Plausibilitätsanker. Nicht mehr der ganze Erkenntnisapparat.

Das ist auch die angemessene Antwort auf synthetische Daten. Synthetische Stichproben können nützlich sein, um Hypothesen zu simulieren, Fragebögen zu testen, Szenarien zu modellieren. Aber sie dürfen nicht zur billigen Ersatzbevölkerung werden. Ein Modell, das auf alten Befragungen trainiert wurde, reproduziert alte Verzerrungen. Ein Modell, das auf synthetischen Daten weitertrainiert wird, erzeugt irgendwann den statistischen Hallraum seiner eigenen Voraussetzungen.

Die Zukunft kann nicht darin liegen, Menschen durch plausibel klingende Maschinenantworten zu ersetzen. Sie liegt darin, menschliches Verhalten dort zu beobachten, wo es ohnehin Spuren hinterlässt — und diese Beobachtung methodisch zu kontrollieren.

Neue Daten brauchen strengere Gütekriterien

Dazu braucht die Branche neue Gütekriterien. Nicht mehr nur Fallzahl, Quote, Feldzeit und Gewichtung. Sondern Abdeckungslogik, Quellenarchitektur, Plattformbias, Bot-Resistenz, semantische Validität, Zeitreihenstabilität, Modelltransparenz, menschliche Nachcodierung, Fehlerprotokolle.

Eine Resonanzanalyse ist nur so gut wie ihre Fähigkeit, zwischen Lautstärke und Bedeutung zu unterscheiden. Sichtbarkeit ist nicht Zustimmung. Empörung ist nicht Ablehnung. Ironie ist nicht Negativität. Aktivität ist nicht Repräsentativität.

Genau deshalb darf diese Forschung nicht an Tools delegiert werden. Sie verlangt mehr Methode, nicht weniger.

In diesem Punkt haben Thunigs Gesprächspartner recht: Qualität bleibt der entscheidende Maßstab. Aber Qualität wird künftig anders hergestellt. Nicht durch die nostalgische Rückkehr zu einer Stichprobenwelt, die gesellschaftlich immer schwerer erreichbar ist. Sondern durch die kontrollierte Verbindung unterschiedlicher Evidenzformen.

Die alte Marktforschung suchte die repräsentative Antwort. Die neue muss das belastbare Signal finden.

Gesellschaften sind keine Säcke

Der Begriff der Stichprobe stammt aus einer Welt, in der man aus einem Sack eine Probe zog, um auf den Inhalt des Ganzen zu schließen. Diese Metapher war schon immer unvollkommen. Gesellschaften sind keine Säcke. Märkte sind keine homogenen Mischungen. Öffentlichkeiten sind dynamische, asymmetrische, technisch vermittelte Resonanzsysteme.

Wer aus ihnen eine Handvoll Befragte zieht, bekommt nicht automatisch Wahrheit, sondern einen methodisch erzeugten Ausschnitt.

Die Stichprobe der Zukunft besteht deshalb im aufgeklärten Verzicht auf die Stichprobe als Mythos. Wo klassische Stichproben stark sind, soll man sie nutzen. Wo sie nur noch Ritual sind, soll man sie lassen. Die entscheidende Frage lautet nicht länger, ob wir genug Menschen gefragt haben. Sie lautet: Haben wir die richtigen Signale verstanden?

Das wäre eine Zumutung für eine Branche, die ihr Selbstbild lange aus der Befragung bezogen hat. Aber Wissenschaft beginnt selten mit der Verteidigung ihrer Routinen. Sie beginnt mit der Einsicht, dass eine Methode, die einmal modern war, irgendwann selbst zum Erkenntnishindernis werden kann.

Die Stichprobe hat die empirische Sozial- und Marktforschung groß gemacht. Ihre Zukunft könnte darin liegen, nicht mehr im Mittelpunkt zu stehen.

Siehe auch:

https://www.bvm.org/jahrbuch-der-marktforschung/branchen-insights/artikelseite/die-stichprobenziehung-in-der-online-marktforschung-befindet-sich-in-einer-hybridphase

https://www.bvm.org/jahrbuch-der-marktforschung/branchen-insights/artikelseite/stichprobe-der-zukunft-ki-kosten-und-der-kampf-um-repraesentativitaet