Synthetische Samples in der Sozialforschung: Grenzen von KI generierten Antworten

Geschrieben von Verian Germany DE | 16.12.2025 12:25:00

Der Begriff „synthetic sample“ hat sich jüngst für von künstlicher Intelligenz (KI) generierte Umfrageantworten etabliert, die nicht von realen Menschen stammen. Kurz gesagt: Eine synthetische Stichprobe nutzt KI, um vorherzusagen, wie ein Mensch auf eine bestimmte Frage antworten würde, statt tatsächlich Individuen zu befragen.

So attraktiv dieser Ansatz in Bezug auf Geschwindigkeit und geringere Kosten erscheinen mag, ist es wichtig zu erkennen, dass synthetische Samples in der Sozialforschung nur eine sehr begrenzte und sorgfältig definierte Rolle spielen können. Im öffentlichen Sektor und der politische Entscheidungsfindung gefährdet der Einsatz von Synthetic Sample die Integrität und den demokratischen Wert von Forschung. Die Risiken sind erheblich, denn synthetische Stichproben können:

verdeckte Verzerrungen einführen,
mangelnde Transparenz aufweisen – insbesondere hinsichtlich ihrer Erzeugung, und
die Vielfalt und Nuancen realer Sichtweisen sowie sich rasch wandelnder Meinungen zu aktuellen Themen nicht erfassen.

Für die Sozialforschung, deren Ziel das Verstehen authentischer öffentlicher Meinung ist, kann die synthetische Stichprobe die Tiefe und Legitimität echter menschlicher Antworten nicht ersetzen. Bei Verian setzen wir uns dafür ein, dass echte Stimmen im Zentrum unserer Arbeit bleiben – insbesondere, wenn Forschung öffentliche Politik oder demokratische Entscheidungen mit Evidenz unterfüttert.

Was ist „Synthetic Sample“ – und wie unterscheidet es sich vom direkten KI‑Prompting?

Bei der synthetischen Stichprobe wird ein KI‑Modell darauf trainiert, die Antworten realer Befragter auf Umfragefragen zu simulieren. Das bedeutet: Die KI sagt Antworten auf Basis von Mustern voraus, die sie aus vorhandenen Daten gelernt hat. Auf den ersten Blick scheint der Unterschied zum direkten Prompting gering: In beiden Fällen liefert ein Sprachmodell Antworten auf Fragen, die wir sonst Menschen stellen würden.

In der Praxis unterscheiden sich jedoch Anspruch und Verwendung: Anders als simples Prompting mit allgemeinen KI‑Basismodellen geben Anbieter synthetischer Stichproben an, ein Modell gezielt mit historischen Umfragedaten zu trainieren, um reale Befragte in einer Erhebung zu simulieren und die Antworten zu geben, die diese gegeben hätten. Dies unterscheide sich angeblich von allgemeinen Modellen, die die durchschnittliche menschliche Antwort simulieren.

Während KI‑gestützte Datenaugmentation bestehender Daten traditionelle statistische Ergänzungsmethoden sinnvoll unterstützen und KI technische Aufgaben erleichtern kann, gibt der Einsatz von synthetischem Sample in der Sozialforschung Anlass zur Sorge.

Transparenz ist eine Herausforderung beim Einsatz von Synthetic Sample

KI‑Prompting allgemein, und synthetische Stichproben im Besonderen, kämpfen mit einem zentralen Problem: fehlende Transparenz bei Trainingsdaten, Prompt‑Strategien und Modellparametern. Gute Forschung lebt von maximaler Transparenz – die hier oft fehlt.

Schon kleine Prompt‑Variationen können zu stark unterschiedlichen Ergebnissen führen. Unterschiedliche Modelle, Temperatureinstellungen und Sampling‑Parameter beeinflussen die Resultate, doch Richtung und Stärke der Effekte sind selten dokumentiert. Ohne klare Offenlegung ersetzt Trial‑and‑Error die methodische Präzision.

Reproduzierbarkeit: Wenn identische Fragen zu unterschiedlichen „Stichproben“ führen

Große Sprachmodelle (LLMs) erzeugen naturgemäß Diversität – nützlich für kreative Aufgaben, problematisch für empirische Forschung. Selbst vermeintlich „repräsentative“ synthetische Stichproben zeigen hohe Varianz zwischen Durchläufen; eine robuste „beste Einstellung“ existiert nicht. Korrelationen zwischen Stichproben über Qualitätsmetriken sind oft niedrig, Zusammenhänge zwischen Fragebogenvariablen wechseln. Das erschwert Replikation und wirft die Frage auf: Was ist die „wahre“ synthetische Verteilung?

Wer eine bestimmte Erzählung in den Daten hervorheben will, kann Prompts und Parameter solange anpassen, bis das Ergebnis passt. Ohne versionierte Prompts, Modell‑IDs, Zeitstempel und Sensitivitätsanalysen ist die Zuverlässigkeit eines Befunds nicht bewertbar. Schon kleine methodische Fehlgriffe – oder bewusstes Tuning – können große inhaltliche Folgen haben.

Trainingsdaten: Lücken, Verzerrungen und die Illusion der Präzision

Die Qualität synthetischer Antworten hängt stark von den Trainingsdaten ab, die in Basismodellen weitgehend unbekannt bleiben.

Themenabdeckung, Erhebungsmethoden, Aktualität, kulturelle Kontexte: Vieles ist unklar, veraltet oder US‑zentriert.
Besonders problematisch ist die digitale Kluft: Menschen mit geringer Online‑Präsenz (z. B. Ältere, geringer Gebildete, ländliche Gruppen) sind unterrepräsentiert. Lautes und häufig gezeigtes Online‑Verhalten prägt das Modell; stille, offline geäußerte Haltungen bleiben untererfasst.
In politischen Szenarien zeigen Analysen ideologische Verzerrungen (liberale, linke und grüne Positionen überrepräsentiert) sowie stereotype Vereinfachungen, die bei Untergruppen zu systematischen Messfehlern führen können.
Für Wahlforschung, die hochaktuell, dynamisch und kontextabhängig ist, performen synthetische Stichproben derzeit schwach: Kurzfristige Trends, lokale Themen und Offline‑Einflüsse entziehen sich dem Trainingskorpus.

Zudem kann ein LLM niemals alle Merkmale menschlicher Befragter berücksichtigen: Erinnerungen, Emotionen, Erfahrungen, Persönlichkeit und andere individuelle Faktoren, die Antworten grundlegend prägen. Das bedeutet: Synthetische Antworten, so ausgefeilt sie sein mögen, können Reichtum und Vielfalt realer Perspektiven nicht vollständig abbilden.

Selbst wenn Anbieter synthetischer Stichproben angeben, ihre Modelle mit realen historischen Umfragedaten trainiert zu haben, bleibt unklar, wie sie Zugang zu Erhebungen erhielten, die oft Auftraggebern gehören und nicht veröffentlicht sind, wie viele Befragungen mit welcher Qualität sie einspeisten und ob die Menge verfügbarer Daten zum angemessenen Training ausreicht. Synthetische Stichproben sind ein kompletter Bruch mit transparenten Standard‑Imputationsmethoden, die die Kovarianzstruktur der realen Trainingsdaten erhalten.

Statistische Inferenz: Warum synthetische Samples keine Abkürzung zu Erkenntnissen über die Gesamtbevölkerung sind

Traditionelle Umfrageforschung leitet Schlussfolgerungen über Populationen aus Stichproben mit definierten Auswahlwahrscheinlichkeiten, Fehlermargen und Signifikanztests ab.

Synthetische Stichproben brechen diese Logik: Es gibt keine verlässliche Brücke zwischen modellgenerierten Antworten und realen Populationsparametern. Bootstrapping kann die Stabilität innerhalb der Simulation prüfen, doch der Übergang zur realen Bevölkerung bleibt spekulativ. Das Grundproblem ist nicht nur das Fehlen definierter Auswahlwahrscheinlichkeiten: LLMs sind keine Stichprobe aus einer realen Population. Sie repräsentieren Muster in Trainingsdaten, die marginalisierte Gruppen, Nicht‑Englisch‑Sprechende und Offline‑Populationen systematisch unterrepräsentieren. Ergebnisse als „repräsentativ“ zu bezeichnen, ohne gültige Ankerdaten, ist methodisch unhaltbar. Bei unterrepräsentierten Gruppen, für die es keine belastbaren Daten gibt, verschärfen synthetische Stichproben Gerechtigkeitsprobleme, statt diese zu lösen.

Aus statistischer Sicht gilt: Wenn man einfach die synthetische Stichprobengröße stark erhöht, wird jede Differenz statistisch signifikant – und verliert damit Bedeutung. Die Illusion der Signifikanz in riesigen synthetischen Datensätzen kann das Fehlen echter neuer Erkenntnisse verdecken und die Interpretierbarkeit der Ergebnisse untergraben.

Modelle neigen zudem dazu, Varianz zu glätten (Antworten häufen sich um den Mittelwert) und Nuancen zu übersehen. etwa Werteorientierungen oder aufkommende Themen. Genau hier sucht die Sozialforschung aber neue Einsichten, statt Bekanntes zu reproduzieren.

Demokratietheorie und Legitimität: Warum echte Stimmen unverzichtbar bleiben

Sozial‑ und Marktforschung haben eine demokratische Funktion: die Stimmen der Bevölkerung im demokratischen Prozess sichtbar zu machen. Werden diese Stimmen durch KI‑Outputs ersetzt, drohen zwei Effekte, für die Branche und allgemein für evidenzbasierte Entscheidungen:

Akzeptanzverlust für Daten mit undurchsichtigem Ursprung
Vertrauensverlust in Wissenschaft und demokratische Prozesse. Wenn Bürgerinnen und Bürger nicht erkennen können, welche Umfragen legitim und statistisch belastbar sind, könnte sich Skepsis auch auf sauber durchgeführte Studien ausweiten.

Beim Einsatz synthetischer Stichproben für politische Entscheidungen werden drei Formen demokratischer Legitimität gleichzeitig beeinträchtigt:

Input‑Legitimität (Entscheidungen spiegeln nicht reale Bürgerpräferenzen, sondern algorithmische Vorhersagen)
Output‑Legitimität (verzerrte Ergebnisse riskieren, nicht allen Bevölkerungsgruppen gleich zu dienen)
Throughput‑Legitimität (intransparente Algorithmen verfehlen die für Verwaltung und Governance nötige Offenheit).

Entscheidungsfindung auf Basis von Erkenntnissen aller Bürgerinnen und Bürger

Die Einbeziehung aller Menschen war in der politischen und sozialen Forschung stets ein normativer Grundsatz der Forschungsethik. Für Entscheidungen mit großen Auswirkungen oder hohen Budgets müssen daher reale Personen befragt werden. Wenn Politikerinnen und Politiker Entscheidungen auf synthetischen Daten basieren, werden Bürgerinnen und Bürger fragen: Worin unterscheidet sich das davon, ChatGPT nach der „beliebtesten Entscheidung“ zu fragen?

Politische Entscheidungen entstehen oft in einem Umfeld neuer Herausforderungen und nie dagewesener Krisen. Nur bei der Befragung echter Menschen entstehen jedoch wirklich neue Einsichten – Wendepunkte bei Meinungen, neue Themen oder feine Dynamiken, die im Trainingskorpus nicht vorkommen. Wahl‑ und Politikforschung illustriert diese Herausforderung besonders gut: Sie passiert in Echtzeit, ist kontextreich und selbst für erfahrene Teams anspruchsvoll. Synthetische Samples erfassen diese Komplexität nicht zuverlässig – besonders, wenn Offline‑Diskurse oder nicht artikulierte Stimmungen Wahlentscheidungen prägen.

Sinnvolle Anwendungsfälle: wo die synthetische Stichprobe in der Sozialforschung Mehrwert bieten kann

Trotz ihrer Grenzen gibt es nützliche, vertretbare Anwendungen synthetischer Stichproben, insbesondere dort, wo nicht die statistische Inferenz über eine Population das Ziel ist, sondern explorative, iterative oder ergänzende Aufgaben:

Kommunikations‑ & Kreativtests zu Design‑ oder Produktpräferenzen: erste Reaktionen auf Claims, Tonalitäten oder Visuals, um Hypothesen für die Feldarbeit zu schärfen, wenn Kampagnen die Gesamtbevölkerung und nicht Nischenzielgruppen adressieren. In risikoarmen Settings mit vielen historischen Vergleichsstudien kann KI Optionen eingrenzen und die Befragtenlast senken.
Kognitive Pretests: heuristisches Testen von Frageverständnis, Antwortskalen oder Instruktionen, vor der Pilotstudie mit Menschen.
Datenaugmentation: Ergänzung bestehender realer Daten – z. B. das Simulieren von „weiß nicht“-Antworten oder vorsichtiges Aufstocken kleiner Untergruppen.

Auch hier gilt: Synthetische Daten ersetzen nicht die Validierung mit realen Befragten. Sie verkürzen Wege, verbessern Instrumente und helfen, Ressourcen effizienter einzusetzen.

Synthetische Daten haben somit legitime Anwendungen, gerade, weil sie nicht beanspruchen, tatsächliche öffentliche Meinung zu messen. Sie erfüllen Hilfsfunktionen innerhalb größerer Forschungsprozesse, die in realer Beobachtung verankert sind. Sie sind nie die alleinige oder endgültige Grundlage für Aussagen über Verhalten, Präferenzen oder Meinungen von Menschen.

Fortschritt begrüßen, aber menschliche Stimmen nicht ersetzen

Synthetic Sample ist ein spannendes Werkzeug im methodischen Werkzeugkasten, besonders für schnellere Iteration, das Verfeinern von Instrumenten und das Vorbereiten von Hypothesen. Es ist jedoch kein Ersatz für menschliche Datenerhebung, wenn es um verlässliche, legitime und demokratisch relevante Erkenntnisse geht. Selbst wenn KI‑Modelle Fortschritte bei Reproduzierbarkeit und Trainingsdaten machen, bleiben Herausforderungen bei Transparenz, demokratischer Legitimität und statistischer Inferenz bestehen.

Bei Verian bleibt unsere Mission, neue gesellschaftliche Entwicklungen sichtbar zu machen – insbesondere jene, die (noch) nicht im Trainingskorpus stehen. Deshalb nutzen wir KI umsichtig, dokumentieren transparent, validieren robust und stellen reale Menschen in den Mittelpunkt.

Quellen:

Bisbee J, Clinton JD, Dorff C, Kenkel B, Larson JM. Synthetic Replacements for Human Survey Data? The Perils of Large Language Models. Political Analysis. 2024;32(4):401-416. doi:10.1017/pan.2024.5

Boelaert, J., Coavoux, S., Ollion, É., Petev, I., & Präg, P. (2025). Machine Bias. How Do Generative Language Models Answer Opinion Polls?1. Sociological Methods & Research, 54(3), 1156-1196.

Cummins, J. (2025) The threat of analytic flexibility in using large language models to simulate human data: A call to attention. https://arxiv.org/abs/2509.13397
Lutz, M., Sen, I., Ahnert, G., Rogers, E., & Strohmaier, M. (2025). The prompt makes the person (a): A systematic evaluation of sociodemographic persona prompting for large language models. arXiv preprint arXiv:2507.16076.

Morris, Elliott G. 2025. “Your Polls on ChatGPT.” Verasight White Paper Series.

Morris, G. Elliott, Benjamin Leff, and Peter K. Enns. 2025. “The Limits of Synthetic Samples in Survey Research” Verasight White Paper Series.

Sarstedt, M., S. Adler, L. Rau, and Bernd Schmitt 2024 “Using large language models to generate silicon samples in consumer and marketing research: Challenges, opportunities, and guidelines..” vol. 41, no. 6: 1254-1270.

Von der Heyde, L., Haensch, A.-C., & Wenz, A. (2025). Vox Populi, Vox AI? Using Large Language Models to Estimate German Vote Choice. Social Science Computer Review, 0(0).

Wang, A., Morgenstern, J., & Dickerson, J. P. (2024). Large language models that replace human participants can harmfully misportray and flatten identity groups. arXiv preprint arXiv:2402.01908.

Vollständigen Beitrag anzeigen