Données synthetiques vs données personnelles pour l'IA
Données synthetiques pour l'IA : cadre juridique, avantages RGPD, risques de ré-identification et bonnes pratiques de conformité.
L’entraînement des systèmes d’intelligence artificielle repose sur des volumes massifs de données. Lorsque ces données sont des données personnelles au sens du RGPD, les obligations de conformité sont substantielles : base légale, minimisation, limitation des finalités, transparence, droits des personnes, sécurité. Les données synthétiques, générées artificiellement pour reproduire les propriétés statistiques de données réelles sans correspondre à des individus identifiés ou identifiables, apparaissent comme une alternative prometteuse. Elles permettent potentiellement de s’affranchir du cadre contraignant du RGPD tout en disposant de jeux de données exploitables pour l’entraînement de modèles d’IA.
Cette promesse doit toutefois être examinée avec rigueur juridique. La qualification des données synthétiques au regard du RGPD n’est pas univoque, et les risques de ré-identification ne sont pas nuls. Le cadre normatif applicable, au croisement du AI Act et du RGPD, impose une analyse précise pour chaque cas d’usage.
Le cadre juridique des données synthétiques
La qualification au regard du RGPD
Le RGPD s’appliqué aux “données à caractère personnel”, définies à l’article 4(1) comme toute information se rapportant à une personne physique identifiée ou identifiable. Le considérant 26 précise qu’il y a lieu de prendre en considération l’ensemble des moyens raisonnablement susceptibles d’être utilisés pour identifier la personne, en tenant compte des coûts et du temps nécessaires à l’identification ainsi que des technologies disponibles.
Les données synthétiques, par définition, sont générées artificiellement et ne se rapportent pas directement à des personnes réelles. Si le processus de génération est correctement mis en oeuvre, les données synthétiques ne devraient pas permettre l’identification directe ou indirecte de personnes physiques et ne devraient donc pas constituer des données personnelles au sens du RGPD.
Toutefois, cette qualification dépend de la méthode de génération et du risque résiduel de ré-identification. La CNIL a souligne que les données synthétiques ne sont pas automatiquement anonymes et que leur qualification doit être evaluee au cas par cas. Si les données synthétiques conservent des patterns trop proches des données sources et qu’un risque raisonnable de ré-identification existe, elles peuvent rester des données personnelles au sens du RGPD.
La distinction entre anonymisation et données synthétiques
L’anonymisation consiste à transformer des données personnelles de manière irréversible, de sorte qu’elles ne permettent plus l’identification de la personne concernée. Les données anonymisées sortent du champ d’application du RGPD (considérant 26).
Les données synthétiques ne sont pas a proprement parler des données anonymisées : elles ne sont pas le résultat de la transformation de données personnelles existantes, mais le produit d’un processus de génération qui utilise des données réelles comme source d’apprentissage. La distinction est significative juridiquement : le processus de génération de données synthétiques à partir de données personnelles constitue lui-même un traitement de données personnelles soumis au RGPD, même si les données produites échappent ensuite au règlement.
La pseudonymisation, quant à elle, ne constitue pas une anonymisation : les données pseudonymisées restent des données personnelles. Certaines techniques de génération de données synthétiques produisent en réalité des données pseudonymisées plutôt que véritablement synthétiques, si un lien avec les données sources peut être rétabli.
Le AI Act et les données d’entraînement
Le AI Act impose des exigences spécifiques en matière de qualité des données d’entraînement pour les systèmes à haut risque (article 10). Ces exigences s’appliquent indépendamment de la nature des données (personnelles ou synthétiques) : les jeux de données doivent être pertinents, représentatifs, et dans toute la mesure du possible exempts d’erreurs.
L’utilisation de données synthétiques pour l’entraînement de systèmes d’IA à haut risque doit donc satisfaire aux mêmes exigences de qualité que l’utilisation de données réelles. Le fournisseur doit documenter dans sa documentation technique le recours à des données synthétiques, les méthodes de génération utilisées, les mesures de validation de la qualité et de la representativite des données synthétiques et les risques potentiels liés à l’utilisation de données synthétiques (biais, manqué de representativite, artefacts de génération).
Les méthodes de génération de données synthétiques
Les approches statistiques classiques
Les méthodes statistiques classiques génèrent des données synthétiques en reproduisant les distributions statistiques des données sources. Les techniques de bootstrapping, d’echantillonnage parametrique (génération à partir de distributions estimees) et de simulation de Monte-Carlo permettent de créer des jeux de données respectant les propriétés statistiques de premier et second ordre (moyennes, variances, correlations) des données réelles.
Ces méthodes sont relativement simples à mettre en oeuvre et offrent des garanties de confidentialité raisonnables, mais elles peinent a capturer les structures complexes (interactions non lineaires, clusters, distributions multimodales) présentes dans les données réelles.
Les réseaux antagonistes génératifs (GAN)
Les GAN (Générative Adversarial Networks) constituent la méthode la plus répandue pour la génération de données synthétiques de haute fidélité. Un GAN se compose de deux réseaux de neurones : un générateur qui produit des données synthétiques et un discriminateur qui tente de distinguer les données synthétiques des données réelles. L’entraînement iteratif des deux réseaux converge vers la génération de données synthétiques difficiles a distinguer des données réelles.
Les GAN produisent des données synthétiques de grande qualité, mais cette qualité même pose un risque juridique : plus les données synthétiques sont proches des données réelles, plus le risque de ré-identification est élevé. Des phenomenes de “mémorisation” ont été documentés, ou le générateur reproduit quasi exactement certains enregistrements des données d’entraînement.
Les modèles de diffusion et les modèles de langage
Les modèles de diffusion et les grands modèles de langage (LLM) sont de plus en plus utilisés pour la génération de données synthétiques. Les LLM peuvent générer des données textuelles synthétiques (rapports médicaux, évaluations de performance, descriptions de cas) qui imitent les données réelles sans correspondre à des individus spécifiques. Les modèles de diffusion sont utilisés pour la génération d’images synthétiques.
Ces méthodes posent des défis spécifiques en matière de confidentialité : les LLM entraînés sur des données personnelles peuvent reproduire des informations personnelles dans leurs sorties. La conformité RGPD de l’IA générative impose une attention particulière à ces risques.
La confidentialité differentielle
La confidentialité differentielle (differential privacy) est un cadre mathématique qui permet de quantifier et de limiter le risque de ré-identification dans les données synthétiques. En ajoutant un bruit calibre au processus de génération, la confidentialité differentielle garantit que la présence ou l’absence d’un individu dans les données sources à un impact négligeable sur les données synthétiques produites.
L’intégration de la confidentialité differentielle dans le processus de génération constitue la meilleure garantie juridique que les données synthétiques ne sont pas des données personnelles. Le paramètre epsilon de la confidentialité differentielle quantifie le niveau de protection : plus epsilon est faible, plus la protection est forte, mais plus la qualité des données synthétiques est degradee.
Les risques juridiques des données synthétiques
Le risque de ré-identification
Le risque principal des données synthétiques est la ré-identification, c’est-à-dire la possibilité de relier des enregistrements synthétiques à des individus réels. Ce risque peut se matérialiser par mémorisation (le générateur reproduit des enregistrements réels), par inférence (les propriétés statistiques des données synthétiques permettent de déduire des informations sur des individus) ou par attaque par linkage (le croisement des données synthétiques avec des sources externes permet l’identification).
L’évaluation du risque de ré-identification doit être documentée et intégrée dans l’AIPD lorsque le processus de génération utilise des données personnelles. Les méthodes d’évaluation incluent les tests de singularité (proportion d’enregistrements uniques), les tests de linkabilite (capacité a relier des enregistrements synthétiques à des enregistrements réels) et les tests d’inférence (capacité a déduire des attributs sensibles).
Le traitement des données sources
Même si les données synthétiques produites ne sont pas des données personnelles, le processus de génération constitue un traitement de données personnelles lorsqu’il utilise des données sources contenant des données personnelles. Ce traitement est soumis à l’ensemble des obligations du RGPD : base légale (article 6), information des personnes concernées (articles 13-14), respect des droits (articles 15-22), sécurité (article 32) et, le cas échéant, AIPD (article 35).
La base légale la plus fréquemment invoquée pour la génération de données synthétiques est l’intérêt légitime (article 6(1)(f)), sous reserve de la réalisation d’un test de mise en balance. Le consentement peut également être utilise, mais il doit être spécifique à la finalité de génération de données synthétiques.
Le risque de biais
Les données synthétiques reproduisent les propriétés statistiques des données sources, y compris les biais. Si les données sources présentent des biais (sous-représentation de certains groupes, correlations discriminatoires), les données synthétiques reproduiront ces biais. L’utilisation de données synthétiques biaisées pour entraîner un système d’IA de recrutement ou de scoring, par exemple, peut conduire à des décisions discriminatoires.
Le AI Act impose que les données d’entraînement soient “suffisamment représentatifs” (article 10). Cette exigence s’appliqué aux données synthétiques comme aux données réelles. L’audit algorithmique doit vérifier l’absence de biais dans les données synthétiques utilisées pour l’entraînement.
Les bonnes pratiques
L’évaluation systématique du risque de ré-identification
Toute utilisation de données synthétiques doit être precedee d’une évaluation rigoureuse du risque de ré-identification. Cette évaluation doit appliquer les critères du considérant 26 du RGPD (moyens raisonnablement susceptibles d’être utilisés pour l’identification), documenter les résultats dans la documentation technique et l’AIPD et être mise à jour régulièrement pour tenir compte de l’évolution des techniques de ré-identification.
La validation de la qualité des données synthétiques
La qualité des données synthétiques doit être validée sur deux dimensions : la fidélité (les données synthétiques reproduisent fidèlement les propriétés statistiques des données sources) et l’utilité (les données synthétiques permettent d’entraîner des modèles performants). Cette validation doit être documentée dans la documentation technique du système d’IA.
La documentation du processus de génération
Le processus de génération de données synthétiques doit être entièrement documenté : méthode de génération, paramètres, données sources, mesures de confidentialité, résultats des évaluations de ré-identification et de qualité. Le registre des systèmes IA doit inclure les informations relatives aux données synthétiques utilisées pour l’entraînement.
Les obligations de sous-traitance RGPD s’appliquent lorsque la génération de données synthétiques est confiée à un tiers. Le contrat doit couvrir les conditions d’accès aux données sources, les mesures de confidentialité et la propriété des données synthétiques produites.
Le texte du RGPD et ses considérants sont disponibles sur EUR-Lex. Les recommandations de la CNIL sur l’anonymisation et les données synthétiques completent utilement le cadre légal.
FAQ
Les données synthétiques sont-elles soumises au RGPD ?
La réponse dépend du risque de ré-identification. Si les données synthétiques ne permettent pas, par des moyens raisonnablement susceptibles d’être utilisés, d’identifier directement ou indirectement une personne physique, elles ne constituent pas des données personnelles et échappent au RGPD. Toutefois, cette qualification doit être evaluee au cas par cas, en tenant compte de la méthode de génération, du risque de mémorisation, des possibilités de croisement avec d’autres sources et de l’évolution des techniques de ré-identification. Le processus de génération des données synthétiques, lorsqu’il utilise des données personnelles comme source, est lui-même un traitement soumis au RGPD. La CNIL recommande de documenter l’évaluation du risque de ré-identification et de la mettre à jour régulièrement.
Les données synthétiques peuvent-elles remplacer totalement les données réelles pour l’entraînement de l’IA ?
D’un point de vue technique, les données synthétiques peuvent dans certains cas remplacer les données réelles, mais avec des limites. Les données synthétiques reproduisent les propriétés statistiques des données sources, mais elles peuvent manquer de certaines subtilités présentes dans les données réelles (cas limités, distributions inhabituelles, interactions complexes). Pour les systèmes d’IA à haut risque, le AI Act exige que les données d’entraînement soient “pertinentes et suffisamment représentatives”. Le recours exclusif à des données synthétiques doit être justifié par une évaluation démontrant que la qualité des données synthétiques est suffisante pour le cas d’usage. En pratique, une approche hybride combinant données réelles et données synthétiques est souvent optimale, les données synthétiques permettant d’augmenter le volume et la diversité du jeu d’entraînement tout en limitant les risques de conformité RGPD.
Comment évaluer si les données synthétiques générées par un GAN sont suffisamment “anonymes” ?
L’évaluation du caractère anonyme des données synthétiques générées par un GAN repose sur trois axes principaux. Premièrement, le test de mémorisation : vérifier que le générateur ne reproduit pas d’enregistrements identiques ou quasi identiques aux données sources, en mesurant la distance minimale entre chaque enregistrement synthétique et l’enregistrement source le plus proche. Deuxièmement, le test de singularité : évaluer la proportion d’enregistrements synthétiques uniques et le risque d’identification par des attributs quasi-identifiants (combinaison rare d’attributs). Troisièmement, le test d’attaque par inférence : simuler des attaques visant à déduire la présence d’un individu dans les données sources à partir des données synthétiques. L’utilisation de la confidentialité differentielle dans le processus d’entraînement du GAN fournit des garanties mathématiques quantifiables. En l’absence de confidentialité differentielle, les tests empiriques doivent être documentés et mis à jour régulièrement pour tenir compte de l’évolution des techniques d’attaque.