AI Act

IA générative et données personnelles : cadre juridique applicable

ChatGPT, Gemini, Claude : l'IA générative soulève des questions inédites en matière de protection des données. Analyse du cadre RGPD et AI Act.

Par Thiébaut DevergrannePublie le 26 fevrier 2026Mis a jour le 26 fevrier 202611 min de lecture

Sommaire

Les défis spécifiques de l’IA générative pour la protection des données
Le plan d’action de la CNIL sur l’IA générative
La base légale pour l’entraînement des modèles génératifs
Le droit à l’effacement face aux poids du modèle
Les obligations du AI Act pour les modèles d’IA a usage général (GPAI)
Les obligations de transparence spécifiques à l’IA générative
Cas pratiques : déploiement d’IA générative en entreprise
Les sanctions encourues
Conclusion

L’essor des systèmes d’IA générative – ChatGPT (OpenAI), Gemini (Google), Claude (Anthropic), Mistral, Llama (Meta) – a profondément modifie le paysage de la protection des données personnelles. Ces systèmes, fondés sur de grands modèles de langage (LLM) entraînés sur des corpus massifs de données, posent des questions juridiques inédites que les cadres réglementaires existants n’avaient pas spécifiquement anticipées. Le rapport entre IA générative et données personnelles constitue aujourd’hui l’un des enjeux majeurs du droit du numérique.

Cet article analyse le cadre juridique applicable à l’IA générative au regard du RGPD et du AI Act, en s’appuyant notamment sur les travaux de la CNIL et les premières décisions des autorités européennes de protection des données.

Les défis spécifiques de l’IA générative pour la protection des données

L’entraînement sur des données massives : un traitement de données personnelles

Les grands modèles de langage sont entraînés sur des corpus de données colossaux, souvent issus du web ouvert. Ces corpus contiennent inévitablement des données à caractère personnel : noms, adressés, numéros de téléphone, informations professionnelles, opinions, données de santé publiées en ligne, photographies, et bien d’autres catégories d’informations rattachables à des personnes physiques identifiées ou identifiables.

Ce constat emporté une conséquence juridique directe : l’entraînement d’un modèle d’IA générative sur des données contenant des informations personnelles constitue un traitement de données à caractère personnel au sens de l’article 4 du RGPD. Le fournisseur du modèle est, à ce titre, soumis à l’ensemble des obligations du règlement.

La question de la qualification de responsable de traitement mérite attention. Le fournisseur du modèle d’IA générative détermine les finalités (création d’un modèle de langage performant) et les moyens essentiels du traitement (choix des données d’entraînement, architecture du modèle, paramètres d’entraînement). Il agit donc en qualité de responsable de traitement pour la phase d’entraînement, indépendamment du fait que les données soient publiquement accessibles en ligne.

Les données personnelles dans les sorties du modèle

L’IA générative ne se contente pas de traiter des données personnelles en entrée : elle peut également en produire dans ses sorties. Un grand modèle de langage interroge sur une personne publique ou privée est susceptible de générer des informations la concernant – correctes ou non – qui constituent des données à caractère personnel.

Cette génération de données personnelles en sortie soulevé plusieurs problématiques :

L’exactitude : les modèles génératifs produisent fréquemment des informations factuellement inexactes sur des personnes (hallucinations). Ces informations erronees constituent des données personnelles inexactes, en contradiction directe avec le principe d’exactitude de l’article 5.1.d du RGPD.
La base légale : quel fondement juridique autorise la génération et la communication de données personnelles à un tiers (l’utilisateur du système) ? Cette question est distincte de celle de la base légale pour l’entraînement.
Les droits des personnes : comment les personnes dont les données sont générées par le système peuvent-elles exercer effectivement leurs droits d’accès, de rectification et d’effacement ?

Le problème des hallucinations

Les hallucinations – la génération d’informations fausses mais présentées avec assurance par le modèle – constituent un risque juridique majeur en matière de protection des données personnelles. Lorsqu’un modèle génère des informations inexactes sur une personne identifiée (faux parcours professionnel, fausses condamnations, fausses affiliations), cela soulevé des enjeux à plusieurs niveaux :

Violation du principe d’exactitude (article 5.1.d du RGPD) : les données personnelles générées ne sont pas exactes et à jour.
Atteinte potentielle à la réputation de la personne concernée.
Difficulte de rectification : le responsable de traitement peut se trouver dans l’incapacité technique de garantir que le modèle ne reproduira plus l’information erronee.

L’autorité italienne de protection des données (Garante) a été la première a agir sur cette question, ordonnant temporairement la suspension de ChatGPT en Italie en mars 2023, avant d’autoriser la reprise du service sous conditions, incluant la mise en place de mécanismes de correction des données inexactes.

Le plan d’action de la CNIL sur l’IA générative

Les orientations stratégiques

La CNIL a engagé un travail de fond sur l’IA générative et les données personnelles, autour de quatre axes : la clarification du cadre juridique applicable (recommandations spécifiques aux modèles génératifs), l’accompagnement des acteurs (dispositifs dédiés, “bac a sable” réglementaire), le dialogue européen au sein du CEPD, et les contrôles (enquêtes en cours sur les principaux fournisseurs de LLM).

Les recommandations pratiques de la CNIL

Les recommandations de la CNIL concernant l’IA générative et les données personnelles couvrent plusieurs dimensions essentielles :

Sur la base légale pour l’entraînement : la CNIL a indiqué que l’intérêt légitime peut constituer une base légale valable pour l’entraînement de modèles d’IA générative sur des données publiquement accessibles, sous reserve d’une mise en balance rigoureuse et de la mise en oeuvre de garanties appropriées. Le consentement peut également être utilise, mais sa mise en oeuvre à l’échelle des corpus d’entraînement des LLM pose des difficultés pratiques considérables.

Sur la transparence : la CNIL insisté sur l’obligation d’informer les personnes dont les données sont utilisées pour l’entraînement, tout en reconnaissant que cette obligation doit être adaptée aux contraintes pratiques (impossibilité d’informer individuellement chaque personne dont les données figurent dans un corpus de milliards de documents). L’information peut être fournie de manière générale, par le biais de la politique de confidentialité du fournisseur.

Sur le droit d’opposition : la CNIL souligne l’importance de mettre en place des mécanismes effectifs permettant aux personnes de s’opposer à l’utilisation de leurs données pour l’entraînement de modèles, y compris via des protocoles techniques (robots.txt, balises meta, opt-out forms).

La base légale pour l’entraînement des modèles génératifs

L’intérêt légitime : base légale de référence

Pour les modèles entraînés sur des données accessibles publiquement sur internet, l’intérêt légitime (article 6.1.f du RGPD) apparaît comme la base légale la plus couramment invoquée. Sa mise en oeuvre suppose toutefois une analyse rigoureuse en trois étapes :

L’analyse en trois étapes suppose d’identifier l’intérêt légitime (développement d’un modèle performant, intérêt commercial ou de recherche), de démontrer la nécessité du traitement (en explorant les alternatives moins intrusives comme les données synthétiques ou l’anonymisation), puis de procéder à la mise en balance. Les facteurs determinants incluent le caractère public des données, les attentes raisonnables des personnes (généralement défavorable – peu de personnes s’attendent à ce que leurs publications servent à entraîner une IA), les mesures de minimisation et l’existence d’un mécanisme d’opposition effectif.

Le cas des données sensibles

L’article 9 du RGPD interdit en principe le traitement des catégories particulières de données (données de santé, opinions politiques, convictions religieuses, données biométriques, orientation sexuelle, etc.). Or, les corpus d’entraînement des LLM contiennent inévitablement de telles données.

L’exception de l’article 9.2.e (données manifestement rendues publiques) est fréquemment invoquée, mais sa portée fait l’objet d’interprétations divergentes. Publier sur un réseau social n’implique pas nécessairement avoir “manifestement rendu publiques” ses données au sens du RGPD.

Le droit à l’effacement face aux poids du modèle

Le paradoxe technique

L’article 17 du RGPD confère aux personnes le droit d’obtenir l’effacement de leurs données personnelles. Applique à l’IA générative, ce droit se heurte à une difficulté technique fondamentale : les données personnelles utilisées pour l’entraînement ne sont pas stockées de manière discrète et identifiable dans le modèle. Elles sont “absorbees” dans les milliards de paramètres (poids) du réseau de neurones, de manière diffusé et inseparable des autres informations apprises.

Les approches possibles et la position des autorités

Plusieurs pistes sont envisagées : la suppression des données des jeux d’entraînement (la CNIL considéré que cela peut suffire sans ré-entraînement du modèle), le machine unlearning (technique emergente permettant de “desapprendre” des données spécifiques), le filtrage des sorties (empêcher la restitution d’informations sur une personne), et en dernier recours le ré-entraînement complet sur un corpus expurge.

Les autorités tendent vers une approche pragmatique : l’effacement des données d’entraînement, combiné au filtrage des sorties et à une évaluation du risque de mémorisation, peut constituer une réponse adéquate. Cette position reste susceptible d’évolution avec la jurisprudence.

Les obligations du AI Act pour les modèles d’IA a usage général (GPAI)

Le régime spécifique des GPAI

Le AI Act introduit un régime juridique spécifique pour les modèles d’IA a usage général (Général Purpose AI – GPAI), catégorie qui englobe les grands modèles de langage au coeur de l’IA générative. Ce régime, prévu aux articles 51 à 56 du règlement, impose des obligations aux fournisseurs de modèles GPAI.

Les obligations pour les modèles GPAI

Tous les fournisseurs de modèles GPAI doivent rédiger une documentation technique, publier un résumé détaillé des données d’entraînement, mettre en place une politique de respect du droit d’auteur et fournir aux fournisseurs en aval les informations nécessaires à leur propre conformité.

Les modèles a risque systémique (seuil de 10^25 FLOPs ou désignation par le Bureau de l’IA) sont soumis à des obligations supplémentaires : évaluations standardisées incluant le red teaming, mitigation des risques systémiques, suivi des incidents graves et mesures de cybersécurité renforcées.

L’articulation avec le RGPD

Le AI Act et le RGPD se cumulent sans se substituer l’un à l’autre. Un fournisseur de modèle GPAI est simultanément soumis :

Aux obligations du AI Act relatives aux modèles GPAI (documentation technique, transparence sur les données d’entraînement, etc.)
Aux obligations du RGPD en tant que responsable de traitement de données personnelles (base légale, droits des personnes, AIPD, sécurité, etc.)

Cette superposition impose une démarche de conformité intégrée. Pour une analyse détaillée de l’articulation entre ces deux cadres, consultez notre article : IA et RGPD : les règles applicables.

Les obligations de transparence spécifiques à l’IA générative

Transparence et marquage du contenu

L’article 50 du AI Act impose que les sorties synthétiques soient marquées dans un format lisible par les machines, que les deepfakes soient identifiés comme artificiels, et que le texte généré par IA à des fins d’information publique soit signalé (sauf revue éditoriale humaine).

Ces obligations se cumulent avec le RGPD : le déployeur doit informer les personnes que leurs données sont traitées par une IA (articles 13-14 RGPD), que le contenu est généré artificiellement (article 50 AI Act) et de l’existence d’une décision automatisée le cas échéant (article 22 RGPD).

Cas pratiques : déploiement d’IA générative en entreprise

L’utilisation de ChatGPT, Gemini ou Claude en interne

Le déploiement d’outils d’IA générative au sein d’une entreprise soulevé plusieurs questions de conformité : la qualification des acteurs (responsable de traitement, responsable conjoint ou simple utilisateur selon les conditions contractuelles), le traitement des données personnelles potentiellement présentes dans les prompts des salariés, les transferts internationaux lorsque l’outil est hébergé hors UE, et la conservation ou réutilisation des données saisies pour le ré-entraînement du modèle. Lorsqu’une entreprise connecte un modèle d’IA générative à sa base documentaire interne via un mécanisme de RAG (Retrieval-Augmented Generation), des enjeux de conformité supplémentaires se posent, notamment en matière de contrôle d’accès et de minimisation des données indexées.

L’intégration dans un service client et le développement propriétaire

L’utilisation de l’IA générative en service client (chatbot, assistance) impose d’informer le client qu’il interagit avec une IA, de disposer d’une base légale validé, de limiter les risques d’inexactitude et de prévoir un renvoi vers un opérateur humain. Une entreprise développant son propre modèle doit intégrer la conformité des la conception : AIPD, documentation des données d’entraînement, filtrage des données sensibles, mécanismes de droit d’opposition et d’effacement, tests de mémorisation et suivi continu des sorties.

Les sanctions encourues

Le non-respect des obligations du RGPD dans le contexte de l’IA générative et des données personnelles exposé les organisations à des sanctions significatives :

Sanctions RGPD : amendes pouvant atteindre 20 millions d’euros ou 4 % du chiffre d’affaires annuel mondial (article 83 du RGPD).
Sanctions AI Act : amendes pouvant atteindre 15 millions d’euros ou 3 % du chiffre d’affaires annuel mondial pour les fournisseurs de modèles GPAI, et 35 millions d’euros ou 7 % pour les pratiques interdites.

Les premières sanctions ont déjà été prononcées : l’autorité italienne a infligé une amende de 15 millions d’euros a OpenAI en décembre 2024 pour violations du RGPD liées au fonctionnement de ChatGPT (défaut de base légale, insuffisance de l’information des utilisateurs, absence de mécanisme de vérification de l’âge).

Conclusion

Le cadre juridique applicable à l’IA générative et aux données personnelles est en cours de structuration rapide. La superposition du RGPD et du AI Act cree un environnement réglementaire exigeant, qui impose aux fournisseurs et deployers de systèmes d’IA générative une démarche de conformité rigoureuse et proactive.

Les principaux points d’attention sont la base légale pour l’entraînement, la gestion des données personnelles dans les sorties du modèle, le traitement des hallucinations, la mise en oeuvre effective des droits des personnes – et en particulier du droit à l’effacement --, et le respect des obligations de transparence cumulees du RGPD et du AI Act.

L’anticipation est essentielle. Les organisations qui intègrent la conformité des la phase de conception de leurs projets d’IA générative se positionnent favorablement, tant sur le plan juridique que sur le plan de la confiance de leurs utilisateurs. Pour un panorama complet des obligations, consultez notre guide sur le AI Act et notre analyse de l’articulation IA et RGPD.