News and Insights

Quand l’IA fabrique des opinions : les risques des échantillons synthétiques en recherche sociale

Rédigé par Hubspot Author | 26 janv. 2026 11:20:12

L’appellation « données synthétiques » ou synthetic data est récemment apparue pour désigner les réponses à des enquêtes générées par des modèles d’intelligence artificielle (IA) plutôt que par de vraies personnes. En d’autres termes, un échantillon synthétique consiste à utiliser l’IA pour prédire ce que serait la réponse d’un humain, plutôt que d’interroger des individus réels.

Si cette approche permet rapidité et réduction des coûts, il est important de reconnaître qu’un échantillon synthétique n’a qu’un rôle très limité dans la recherche sociale. Dans le secteur public et politique, se fier à un échantillon synthétique risque de compromettre l’intégrité et la valeur démocratique de la recherche. Ces risques sont importants, car les échantillons synthétiques peuvent :

  • introduire des biais cachés,
  • manquer de transparence, notamment sur leur mode de génération,
  • échouer à capturer la diversité et les nuances des points de vue réels des citoyens ainsi que l'évolution des opinions sur des sujets d’actualité et en rapide évolution.

Pour la recherche sociale, où la compréhension de l’opinion publique authentique est essentielle, les échantillons synthétiques ne peuvent remplacer la richesse et la légitimité des réponses humaines réelles. Chez Verian, nous nous engageons à ce que les « voix réelles » restent au cœur de notre travail, particulièrement lorsque la recherche éclaire les politiques publiques ou les décisions démocratiques.

Qu’est-ce qu’un « échantillon synthétique » et en quoi diffère-t-il de l’utilisation directe d’une IA générative via un prompt ?

Un échantillon synthétique ou la génération de données synthétiques impliquent l’entrainement d’un modèle d’IA pour simuler la façon dont de vrais répondants humains pourraient répondre aux questions d’une enquête. Cela signifie que l’IA prédit des réponses basées sur des schémas appris à partir de données existantes. À première vue, la différence avec le prompting direct semble minime : dans les deux cas, un modèle de langage fournit des réponses à des questions que nous poserions classiquement à des humains.

En pratique, cependant, les attentes et les applications diffèrent. Contrairement au simple prompting utilisant des modèles d’IA fondamentaux généraux, les fournisseurs d’échantillons synthétiques ou de données synthétiques affirment pouvoir spécifiquement entraîner un modèle avec des données d’enquêtes passées pour simuler de vrais répondants humains et fournir les réponses qu’ils auraient données à une enquête. Ceci serait ainsi différent des modèles d’IA plus généraux qui simulent la réponse humaine moyenne.

Bien que la génération de données par l'IA puisse compléter les méthodes traditionnelles de création de données statistiques et que l'IA puisse soutenir certaines tâches techniques, l’utilisation d’un échantillon synthétique soulève de nombreuses inquiétudes.

La transparence, un défi majeur de l’échantillonnage synthétique

L’interrogation de l’IA par instruction (prompt) en général, et l’échantillon synthétique en particulier, souffrent tous deux d’un problème central : le manque de transparence sur les données d’entraînement, les stratégies de prompting et les paramètres du modèle. Un bon travail de recherche repose sur une transparence maximale, souvent absente ici.

En l’absence d’un contrôle précis et d’une documentation exhaustive des prompts, des paramètres du modèle et des données d’entraînement, il devient de fait quasi impossible de reproduire, de comparer ou de valider rigoureusement les résultats obtenus. Ces résultats dépendent à la fois du modèle d’IA utilisé, du réglage de ses paramètres, des choix effectués par le chercheur dans la formulation des instructions, ainsi que des paramètres d’échantillonnage. Tout ceci n’étant pas documenté de manière systématique, mesurer l’influence respective de chacun de ces facteurs, tant en nature qu’en amplitude, semble particulièrement complexe. Sans divulgation claire, le tâtonnement remplace la rigueur méthodologique.

Reproductibilité : quand des questions identiques produisent des « échantillons » différents

De la même manière que les réseaux de neurones étaient perçus, il y a encore quelques années, comme des modèles « boîtes noires » pour leurs utilisateurs, ces systèmes d’IA restent aujourd’hui largement opaques : chercheurs comme citoyens peinent à appréhender les modèles sous-jacents, leurs mécanismes internes et les choix qui les structurent.

En outre, même de petites variations de prompts peuvent conduire à des résultats drastiquement différents. Cette forte sensibilité aux conditions d’interrogation pose un problème central au regard d’un principe fondamental de la démarche scientifique : la reproductibilité des expériences.

Les grands modèles de langage (LLM) produisent naturellement de la diversité, utile pour les tâches créatives, mais problématique pour la recherche empirique. Même les échantillons synthétiques supposés « représentatifs » présentent une forte variance entre les essais, un « meilleur réglage » robuste n’existant pas. Les corrélations entre échantillons selon les critères de qualité sont souvent faibles, et les relations entre variables du questionnaire fluctuent. Cela complique la reproduction et soulève la question : quelle est la « vraie » distribution synthétique ?

Si l’on souhaite mettre en avant une histoire particulière dans les données, il est possible d’ajuster les prompts et les paramètres jusqu’à obtenir le résultat souhaité. Sans prompts versionnés, identifiants de modèles, horodatages et analyses de sensibilité, il est impossible d’évaluer la fiabilité réelle d’une conclusion. Même de petites erreurs méthodologiques ou des ajustements volontaires peuvent avoir de conséquences substantielles majeurs.

Données d’entraînement : lacunes, biais et illusion de précision

La qualité des réponses synthétiques dépend fortement des données d’entraînement, qui restent largement confidentielles dans les modèles fondamentaux.

Plusieurs lacunes ou biais sont immédiatement repérables :

  • Couverture des sujets, méthodes de collecte des données, actualité, contextes culturels : beaucoup d’éléments sont flous, obsolètes ou centrés sur les États-Unis.
  • Le fossé numérique est particulièrement problématique : les personnes ayant une faible présence en ligne (par exemple, les personnes âgées, moins éduquées, les populations rurales) sont sous-représentées. Ce qui est voyant et fréquent en ligne façonne le modèle, tandis que les attitudes discrètes et hors ligne sont peu couvertes.
  • Dans les scénarios politiques, des analyses montrent des biais idéologiques (les opinions libérales, de gauche et écologistes sont surreprésentées) et des simplifications stéréotypées pouvant conduire à des erreurs systématiques, notamment pour les sous-groupes.
  • Pour la recherche électorale, qui est actuelle, dynamique et dépendante du contexte, les échantillons synthétiques sont actuellement peu performants : les tendances à court terme, les enjeux locaux et les influences hors ligne échappent aux données d’entraînement du modèle.

De plus, un modèle de langage ne peut, par nature, intégrer l’ensemble des caractéristiques propres aux répondants humains (leurs souvenirs, leurs émotions, leurs expériences vécues, leur personnalité et d’autres facteurs psychiques) qui influencent profondément les réponses individuelles à une enquête. Cette limite implique que les réponses synthétiques, aussi élaborées soient-elles, ne sauraient restituer pleinement la richesse, la diversité et parfois l’incohérence des perspectives humaines.

Les phénomènes étudiés grâce aux enquêtes sont en effet intrinsèquement multifactoriels : connaissances, attitudes, opinions, comportements et sentiments y sont étroitement imbriqués. Les relations entre ces dimensions sont souvent logiques et cohérentes, mais pas systématiquement, ce qui constitue une caractéristique fondamentale des réponses humaines.

Même si les fournisseurs d’échantillons synthétiques affirment avoir entraîné leur modèle avec de vraies données d’enquêtes passées, la manière dont ils ont accédé à ces enquêtes, la qualité et variété de ces dernières, ainsi que la quantité de données utilisée pour entraîner leur modèle adéquatement restent floues. Les échantillons synthétiques marquent une rupture totale avec les méthodes d’imputation standard et transparentes qui conservent la structure de covariance des données réelles (c’est-à-dire l’ensemble des corrélations entre tous les questions d’une enquête) utilisées pour « entraîner » le modèle d’imputation.

Inférence statistique : pourquoi les données synthétiques ne remplacent pas les vraies données pour comprendre une population

Les enquêtes par sondages traditionnelles tirent des conclusions sur une population à partir d’échantillons avec des probabilités de sélection, des marges d’erreur et des tests de significativité définis.

Les échantillons synthétiques rompent avec cette logique : il n’existe pas de lien fiable entre les réponses générées par le modèle et les paramètres réels de la population. Le rééchantillonnage peut tester la stabilité au sein de la simulation, mais le lien avec la population réelle demeure spéculatif. Le problème fondamental n’est pas seulement l’absence de probabilités de sélection définies, mais bien que les LLM ne représentent pas un échantillon d’une population réelle. Ils reflètent des schémas dans les données d’entraînement, qui sous-représentent systématiquement les groupes marginalisés, les non-anglophones et les populations hors ligne. Affirmer que les résultats sont « représentatifs » sans données d’ancrage valides est méthodologiquement indéfendable, et pour les groupes peu entendus où aucune donnée fiable n’existe, les échantillons synthétiques aggravent, plutôt qu’ils ne résolvent, les problèmes d’équité.

D’un point de vue statistique, si l’on génère simplement une taille d’échantillon synthétique suffisamment grande, chaque différence devient statistiquement significative et perd donc son sens. L’illusion des significativités dans les ensembles de données synthétiques massifs peut masquer l’absence de véritables insights sur les populations et nuire à l’interprétabilité des résultats.

Les modèles ont également tendance à aplatir la variance (les réponses sont regroupées autour de la moyenne) et à négliger les nuances, telles que les orientations de valeurs ou les sujets émergents (les fameux « signaux faibles »). Or, c’est précisément là que la recherche sociale cherche de nouveaux éclairages, et non à reproduire l’existant.

Théorie démocratique et légitimité : pourquoi les voix humaines restent essentielles

La recherche sociale et marketing remplit une fonction démocratique : faire entendre la voix des citoyens. Si ces voix sont remplacées par des résultats IA, deux effets menacent le secteur et, plus largement, la prise de décision fondée sur des preuves empiriques :

  • perte d’acceptation pour des résultats dont l’origine est opaque,
  • perte de confiance dans la science et les processus démocratiques. Si les citoyens ne peuvent distinguer quelles enquêtes sont légitimes et statistiquement solides, ils risquent d’étendre leur scepticisme à toutes les études, même les plus rigoureuses.

En utilisant l’échantillon synthétique pour la prise de décision politique, trois formes de légitimité démocratique sont simultanément lésées :

  • la légitimité d’entrée (les décisions ne reflètent pas les préférences citoyennes réelles, seulement des prédictions algorithmiques),
  • la légitimité de sortie (les résultats biaisés risquent de ne pas servir toutes les populations de manière égale),
  • la légitimité procédurale (les algorithmes opaques manquent de la transparence requise pour assurer la transparence et le contrôle des décisions publiques / des institutions).

Prise de décision fondée sur les voix / contributions de tous les citoyens

L’inclusion de tous les citoyens a toujours été centrale dans la recherche politique et sociale comme principe normatif de l’éthique de la recherche. Pour les décisions à fort impact ou impliquant des budgets élevés, de vraies personnes doivent être interrogées. Si les politiques basent leurs décisions sur des données synthétiques, les citoyens peuvent se demander : quelle différence avec le fait de demander à ChatGPT quelle est la décision politique « la plus populaire » ?

Les décisions politiques sont souvent prises dans un contexte de nouveaux défis et de crises inédites. Ce n’est qu’en interrogeant de vrais humains que de véritables nouveaux éclairages émergent : des évolutions d’opinion, des sujets nouveaux ou des dynamiques subtiles absentes des corpus d’entraînement. La recherche électorale et politique illustre bien ce défi. Elle se déroule en temps réel, s’inscrit dans des contextes riches et demeure complexe, y compris pour des équipes de recherche expérimentées. Les échantillons synthétiques ne parviennent pas à capturer de manière fiable cette complexité, en particulier lorsque le discours hors ligne ou les sentiments non exprimés façonnent les choix de vote.

Cas d’usage pertinents : quand les échantillons synthétiques peuvent apporter de la valeur dans la recherche sociale

Malgré leurs limites, il existe des applications utiles et justifiables des échantillons synthétiques, en particulier lorsque l’objectif n’est pas l’inférence statistique sur une population, mais des tâches exploratoires, itératives ou complémentaires :

  • Tests de communication et de créativité sur des préférences de design ou de produit : évaluer les réactions initiales à des messages, des tonalités ou des visuels pour affiner les hypothèses en amont du terrain lorsque les campagnes ciblent la population générale plutôt que des audiences niches. Dans des contextes à faible risque avec de nombreuses études comparatives existantes, l’IA peut aider à réduire les options et la charge des répondants.
  • Prétests cognitifs : tester de façon heuristique la compréhension des questions, des échelles de réponse ou des instructions avant un prétest ou un pilote auprès de vrais humains.
  • Augmentation/Imputation de données : compléter des données réelles existantes, par exemple en simulant des réponses « ne sait pas » ou en renforçant avec prudence la représentation de sous-groupes de petite taille.

Cependant, même dans ces domaines, les données synthétiques ne remplacent pas la validation auprès de vrais répondants. Elles raccourcissent les parcours, améliorent les outils et aident à mieux allouer les ressources.

Si les données synthétiques ont donc des utilisations légitimes, celles-ci réussissent précisément parce qu’elles ne prétendent pas mesurer l’opinion publique réelle. Les données synthétiques remplissent des fonctions auxiliaires au sein de processus de recherche plus larges, ancrés dans l’observation du monde réel. Elles ne sont jamais la source unique ou définitive pour les affirmations sur les comportements, préférences ou opinions humaines.

Adopter le progrès, sans remplacer les voix humaines

Les échantillons synthétiques sont un outil passionnant dans la boîte à outils méthodologique, en particulier pour une itération plus rapide, l’affinage des instruments et la préparation d’hypothèses. Cependant, ils ne constituent pas un substitut à la collecte de données humaines lorsqu’il s’agit d’insights fiables, légitimes et démocratiquement pertinents. Même si les modèles IA progressent pour résoudre les problèmes de reproductibilité et de données d’entraînement, les défis autour de la transparence, de la légitimité démocratique et de l’inférence statistique demeurent.

Chez Verian, notre mission reste de rendre visibles les nouveaux développements sociétaux – surtout ceux qui ne figurent pas (encore) dans le corpus d’entraînement. C’est pourquoi nous utilisons l’IA avec discernement, documentons de manière transparente, validons rigoureusement et plaçons les personnes réelles au centre de nos recherches.