Der Begriff „synthetic sample“ hat sich jüngst für von künstlicher Intelligenz (KI) generierte Umfrageantworten etabliert, die nicht von realen Menschen stammen. Kurz gesagt: Eine synthetische Stichprobe nutzt KI, um vorherzusagen, wie ein Mensch auf eine bestimmte Frage antworten würde, statt tatsächlich Individuen zu befragen.
So attraktiv dieser Ansatz in Bezug auf Geschwindigkeit und geringere Kosten erscheinen mag, ist es wichtig zu erkennen, dass synthetische Samples in der Sozialforschung nur eine sehr begrenzte und sorgfältig definierte Rolle spielen können. Im öffentlichen Sektor und der politische Entscheidungsfindung gefährdet der Einsatz von Synthetic Sample die Integrität und den demokratischen Wert von Forschung. Die Risiken sind erheblich, denn synthetische Stichproben können:
Für die Sozialforschung, deren Ziel das Verstehen authentischer öffentlicher Meinung ist, kann die synthetische Stichprobe die Tiefe und Legitimität echter menschlicher Antworten nicht ersetzen. Bei Verian setzen wir uns dafür ein, dass echte Stimmen im Zentrum unserer Arbeit bleiben – insbesondere, wenn Forschung öffentliche Politik oder demokratische Entscheidungen mit Evidenz unterfüttert.
Bei der synthetischen Stichprobe wird ein KI‑Modell darauf trainiert, die Antworten realer Befragter auf Umfragefragen zu simulieren. Das bedeutet: Die KI sagt Antworten auf Basis von Mustern voraus, die sie aus vorhandenen Daten gelernt hat. Auf den ersten Blick scheint der Unterschied zum direkten Prompting gering: In beiden Fällen liefert ein Sprachmodell Antworten auf Fragen, die wir sonst Menschen stellen würden.
In der Praxis unterscheiden sich jedoch Anspruch und Verwendung: Anders als simples Prompting mit allgemeinen KI‑Basismodellen geben Anbieter synthetischer Stichproben an, ein Modell gezielt mit historischen Umfragedaten zu trainieren, um reale Befragte in einer Erhebung zu simulieren und die Antworten zu geben, die diese gegeben hätten. Dies unterscheide sich angeblich von allgemeinen Modellen, die die durchschnittliche menschliche Antwort simulieren.
Während KI‑gestützte Datenaugmentation bestehender Daten traditionelle statistische Ergänzungsmethoden sinnvoll unterstützen und KI technische Aufgaben erleichtern kann, gibt der Einsatz von synthetischem Sample in der Sozialforschung Anlass zur Sorge.
KI‑Prompting allgemein, und synthetische Stichproben im Besonderen, kämpfen mit einem zentralen Problem: fehlende Transparenz bei Trainingsdaten, Prompt‑Strategien und Modellparametern. Gute Forschung lebt von maximaler Transparenz – die hier oft fehlt.
Schon kleine Prompt‑Variationen können zu stark unterschiedlichen Ergebnissen führen. Unterschiedliche Modelle, Temperatureinstellungen und Sampling‑Parameter beeinflussen die Resultate, doch Richtung und Stärke der Effekte sind selten dokumentiert. Ohne klare Offenlegung ersetzt Trial‑and‑Error die methodische Präzision.
Große Sprachmodelle (LLMs) erzeugen naturgemäß Diversität – nützlich für kreative Aufgaben, problematisch für empirische Forschung. Selbst vermeintlich „repräsentative“ synthetische Stichproben zeigen hohe Varianz zwischen Durchläufen; eine robuste „beste Einstellung“ existiert nicht. Korrelationen zwischen Stichproben über Qualitätsmetriken sind oft niedrig, Zusammenhänge zwischen Fragebogenvariablen wechseln. Das erschwert Replikation und wirft die Frage auf: Was ist die „wahre“ synthetische Verteilung?
Wer eine bestimmte Erzählung in den Daten hervorheben will, kann Prompts und Parameter solange anpassen, bis das Ergebnis passt. Ohne versionierte Prompts, Modell‑IDs, Zeitstempel und Sensitivitätsanalysen ist die Zuverlässigkeit eines Befunds nicht bewertbar. Schon kleine methodische Fehlgriffe – oder bewusstes Tuning – können große inhaltliche Folgen haben.
Die Qualität synthetischer Antworten hängt stark von den Trainingsdaten ab, die in Basismodellen weitgehend unbekannt bleiben.
Zudem kann ein LLM niemals alle Merkmale menschlicher Befragter berücksichtigen: Erinnerungen, Emotionen, Erfahrungen, Persönlichkeit und andere individuelle Faktoren, die Antworten grundlegend prägen. Das bedeutet: Synthetische Antworten, so ausgefeilt sie sein mögen, können Reichtum und Vielfalt realer Perspektiven nicht vollständig abbilden.
Selbst wenn Anbieter synthetischer Stichproben angeben, ihre Modelle mit realen historischen Umfragedaten trainiert zu haben, bleibt unklar, wie sie Zugang zu Erhebungen erhielten, die oft Auftraggebern gehören und nicht veröffentlicht sind, wie viele Befragungen mit welcher Qualität sie einspeisten und ob die Menge verfügbarer Daten zum angemessenen Training ausreicht. Synthetische Stichproben sind ein kompletter Bruch mit transparenten Standard‑Imputationsmethoden, die die Kovarianzstruktur der realen Trainingsdaten erhalten.
Traditionelle Umfrageforschung leitet Schlussfolgerungen über Populationen aus Stichproben mit definierten Auswahlwahrscheinlichkeiten, Fehlermargen und Signifikanztests ab.
Synthetische Stichproben brechen diese Logik: Es gibt keine verlässliche Brücke zwischen modellgenerierten Antworten und realen Populationsparametern. Bootstrapping kann die Stabilität innerhalb der Simulation prüfen, doch der Übergang zur realen Bevölkerung bleibt spekulativ. Das Grundproblem ist nicht nur das Fehlen definierter Auswahlwahrscheinlichkeiten: LLMs sind keine Stichprobe aus einer realen Population. Sie repräsentieren Muster in Trainingsdaten, die marginalisierte Gruppen, Nicht‑Englisch‑Sprechende und Offline‑Populationen systematisch unterrepräsentieren. Ergebnisse als „repräsentativ“ zu bezeichnen, ohne gültige Ankerdaten, ist methodisch unhaltbar. Bei unterrepräsentierten Gruppen, für die es keine belastbaren Daten gibt, verschärfen synthetische Stichproben Gerechtigkeitsprobleme, statt diese zu lösen.
Aus statistischer Sicht gilt: Wenn man einfach die synthetische Stichprobengröße stark erhöht, wird jede Differenz statistisch signifikant – und verliert damit Bedeutung. Die Illusion der Signifikanz in riesigen synthetischen Datensätzen kann das Fehlen echter neuer Erkenntnisse verdecken und die Interpretierbarkeit der Ergebnisse untergraben.
Modelle neigen zudem dazu, Varianz zu glätten (Antworten häufen sich um den Mittelwert) und Nuancen zu übersehen. etwa Werteorientierungen oder aufkommende Themen. Genau hier sucht die Sozialforschung aber neue Einsichten, statt Bekanntes zu reproduzieren.
Sozial‑ und Marktforschung haben eine demokratische Funktion: die Stimmen der Bevölkerung im demokratischen Prozess sichtbar zu machen. Werden diese Stimmen durch KI‑Outputs ersetzt, drohen zwei Effekte, für die Branche und allgemein für evidenzbasierte Entscheidungen:
Beim Einsatz synthetischer Stichproben für politische Entscheidungen werden drei Formen demokratischer Legitimität gleichzeitig beeinträchtigt:
Die Einbeziehung aller Menschen war in der politischen und sozialen Forschung stets ein normativer Grundsatz der Forschungsethik. Für Entscheidungen mit großen Auswirkungen oder hohen Budgets müssen daher reale Personen befragt werden. Wenn Politikerinnen und Politiker Entscheidungen auf synthetischen Daten basieren, werden Bürgerinnen und Bürger fragen: Worin unterscheidet sich das davon, ChatGPT nach der „beliebtesten Entscheidung“ zu fragen?
Politische Entscheidungen entstehen oft in einem Umfeld neuer Herausforderungen und nie dagewesener Krisen. Nur bei der Befragung echter Menschen entstehen jedoch wirklich neue Einsichten – Wendepunkte bei Meinungen, neue Themen oder feine Dynamiken, die im Trainingskorpus nicht vorkommen. Wahl‑ und Politikforschung illustriert diese Herausforderung besonders gut: Sie passiert in Echtzeit, ist kontextreich und selbst für erfahrene Teams anspruchsvoll. Synthetische Samples erfassen diese Komplexität nicht zuverlässig – besonders, wenn Offline‑Diskurse oder nicht artikulierte Stimmungen Wahlentscheidungen prägen.
Trotz ihrer Grenzen gibt es nützliche, vertretbare Anwendungen synthetischer Stichproben, insbesondere dort, wo nicht die statistische Inferenz über eine Population das Ziel ist, sondern explorative, iterative oder ergänzende Aufgaben:
Auch hier gilt: Synthetische Daten ersetzen nicht die Validierung mit realen Befragten. Sie verkürzen Wege, verbessern Instrumente und helfen, Ressourcen effizienter einzusetzen.
Synthetische Daten haben somit legitime Anwendungen, gerade, weil sie nicht beanspruchen, tatsächliche öffentliche Meinung zu messen. Sie erfüllen Hilfsfunktionen innerhalb größerer Forschungsprozesse, die in realer Beobachtung verankert sind. Sie sind nie die alleinige oder endgültige Grundlage für Aussagen über Verhalten, Präferenzen oder Meinungen von Menschen.
Synthetic Sample ist ein spannendes Werkzeug im methodischen Werkzeugkasten, besonders für schnellere Iteration, das Verfeinern von Instrumenten und das Vorbereiten von Hypothesen. Es ist jedoch kein Ersatz für menschliche Datenerhebung, wenn es um verlässliche, legitime und demokratisch relevante Erkenntnisse geht. Selbst wenn KI‑Modelle Fortschritte bei Reproduzierbarkeit und Trainingsdaten machen, bleiben Herausforderungen bei Transparenz, demokratischer Legitimität und statistischer Inferenz bestehen.
Bei Verian bleibt unsere Mission, neue gesellschaftliche Entwicklungen sichtbar zu machen – insbesondere jene, die (noch) nicht im Trainingskorpus stehen. Deshalb nutzen wir KI umsichtig, dokumentieren transparent, validieren robust und stellen reale Menschen in den Mittelpunkt.
Bisbee J, Clinton JD, Dorff C, Kenkel B, Larson JM. Synthetic Replacements for Human Survey Data? The Perils of Large Language Models. Political Analysis. 2024;32(4):401-416. doi:10.1017/pan.2024.5
Boelaert, J., Coavoux, S., Ollion, É., Petev, I., & Präg, P. (2025). Machine Bias. How Do Generative Language Models Answer Opinion Polls?1. Sociological Methods & Research, 54(3), 1156-1196.
Cummins, J. (2025) The threat of analytic flexibility in using large language models to simulate human data: A call to attention. https://arxiv.org/abs/2509.13397
Lutz, M., Sen, I., Ahnert, G., Rogers, E., & Strohmaier, M. (2025). The prompt makes the person (a): A systematic evaluation of sociodemographic persona prompting for large language models. arXiv preprint arXiv:2507.16076.
Morris, Elliott G. 2025. “Your Polls on ChatGPT.” Verasight White Paper Series.
Morris, G. Elliott, Benjamin Leff, and Peter K. Enns. 2025. “The Limits of Synthetic Samples in Survey Research” Verasight White Paper Series.
Sarstedt, M., S. Adler, L. Rau, and Bernd Schmitt 2024 “Using large language models to generate silicon samples in consumer and marketing research: Challenges, opportunities, and guidelines..” vol. 41, no. 6: 1254-1270.
Von der Heyde, L., Haensch, A.-C., & Wenz, A. (2025). Vox Populi, Vox AI? Using Large Language Models to Estimate German Vote Choice. Social Science Computer Review, 0(0).
Wang, A., Morgenstern, J., & Dickerson, J. P. (2024). Large language models that replace human participants can harmfully misportray and flatten identity groups. arXiv preprint arXiv:2402.01908.