IA generative et donnees personnelles : cadre juridique applicable
ChatGPT, Gemini, Claude : l'IA generative souleve des questions inedites en matiere de protection des donnees. Analyse du cadre RGPD et AI Act.
- Les defis specifiques de l’IA generative pour la protection des donnees
- Le plan d’action de la CNIL sur l’IA generative
- La base legale pour l’entrainement des modeles generatifs
- Le droit a l’effacement face aux poids du modele
- Les obligations du AI Act pour les modeles d’IA a usage general (GPAI)
- Les obligations de transparence specifiques a l’IA generative
- Cas pratiques : deploiement d’IA generative en entreprise
- Les sanctions encourues
- Conclusion
IA generative et donnees personnelles : cadre juridique applicable
L’essor des systemes d’IA generative – ChatGPT (OpenAI), Gemini (Google), Claude (Anthropic), Mistral, Llama (Meta) – a profondement modifie le paysage de la protection des donnees personnelles. Ces systemes, fondes sur de grands modeles de langage (LLM) entraines sur des corpus massifs de donnees, posent des questions juridiques inedites que les cadres reglementaires existants n’avaient pas specifiquement anticipees. Le rapport entre IA generative et donnees personnelles constitue aujourd’hui l’un des enjeux majeurs du droit du numerique.
Cet article analyse le cadre juridique applicable a l’IA generative au regard du RGPD et du AI Act, en s’appuyant notamment sur les travaux de la CNIL et les premieres decisions des autorites europeennes de protection des donnees.
Les defis specifiques de l’IA generative pour la protection des donnees
L’entrainement sur des donnees massives : un traitement de donnees personnelles
Les grands modeles de langage sont entraines sur des corpus de donnees colossaux, souvent issus du web ouvert. Ces corpus contiennent inevitablement des donnees a caractere personnel : noms, adresses, numeros de telephone, informations professionnelles, opinions, donnees de sante publiees en ligne, photographies, et bien d’autres categories d’informations rattachables a des personnes physiques identifiees ou identifiables.
Ce constat emporte une consequence juridique directe : l’entrainement d’un modele d’IA generative sur des donnees contenant des informations personnelles constitue un traitement de donnees a caractere personnel au sens de l’article 4 du RGPD. Le fournisseur du modele est, a ce titre, soumis a l’ensemble des obligations du reglement.
La question de la qualification de responsable de traitement merite attention. Le fournisseur du modele d’IA generative determine les finalites (creation d’un modele de langage performant) et les moyens essentiels du traitement (choix des donnees d’entrainement, architecture du modele, parametres d’entrainement). Il agit donc en qualite de responsable de traitement pour la phase d’entrainement, independamment du fait que les donnees soient publiquement accessibles en ligne.
Les donnees personnelles dans les sorties du modele
L’IA generative ne se contente pas de traiter des donnees personnelles en entree : elle peut egalement en produire dans ses sorties. Un grand modele de langage interroge sur une personne publique ou privee est susceptible de generer des informations la concernant – correctes ou non – qui constituent des donnees a caractere personnel.
Cette generation de donnees personnelles en sortie souleve plusieurs problematiques :
-
L’exactitude : les modeles generatifs produisent frequemment des informations factuellement inexactes sur des personnes (hallucinations). Ces informations erronees constituent des donnees personnelles inexactes, en contradiction directe avec le principe d’exactitude de l’article 5.1.d du RGPD.
-
La base legale : quel fondement juridique autorise la generation et la communication de donnees personnelles a un tiers (l’utilisateur du systeme) ? Cette question est distincte de celle de la base legale pour l’entrainement.
-
Les droits des personnes : comment les personnes dont les donnees sont generees par le systeme peuvent-elles exercer effectivement leurs droits d’acces, de rectification et d’effacement ?
Le probleme des hallucinations
Les hallucinations – la generation d’informations fausses mais presentees avec assurance par le modele – constituent un risque juridique majeur en matiere de protection des donnees personnelles. Lorsqu’un modele genere des informations inexactes sur une personne identifiee (faux parcours professionnel, fausses condamnations, fausses affiliations), cela souleve des enjeux a plusieurs niveaux :
- Violation du principe d’exactitude (article 5.1.d du RGPD) : les donnees personnelles generees ne sont pas exactes et a jour.
- Atteinte potentielle a la reputation de la personne concernee.
- Difficulte de rectification : le responsable de traitement peut se trouver dans l’incapacite technique de garantir que le modele ne reproduira plus l’information erronee.
L’autorite italienne de protection des donnees (Garante) a ete la premiere a agir sur cette question, ordonnant temporairement la suspension de ChatGPT en Italie en mars 2023, avant d’autoriser la reprise du service sous conditions, incluant la mise en place de mecanismes de correction des donnees inexactes.
Le plan d’action de la CNIL sur l’IA generative
Les orientations strategiques
La CNIL a engage un travail de fond sur l’IA generative et les donnees personnelles, autour de quatre axes : la clarification du cadre juridique applicable (recommandations specifiques aux modeles generatifs), l’accompagnement des acteurs (dispositifs dedies, “bac a sable” reglementaire), le dialogue europeen au sein du CEPD, et les controles (enquetes en cours sur les principaux fournisseurs de LLM).
Les recommandations pratiques de la CNIL
Les recommandations de la CNIL concernant l’IA generative et les donnees personnelles couvrent plusieurs dimensions essentielles :
Sur la base legale pour l’entrainement : la CNIL a indique que l’interet legitime peut constituer une base legale valable pour l’entrainement de modeles d’IA generative sur des donnees publiquement accessibles, sous reserve d’une mise en balance rigoureuse et de la mise en oeuvre de garanties appropriees. Le consentement peut egalement etre utilise, mais sa mise en oeuvre a l’echelle des corpus d’entrainement des LLM pose des difficultes pratiques considerables.
Sur la transparence : la CNIL insiste sur l’obligation d’informer les personnes dont les donnees sont utilisees pour l’entrainement, tout en reconnaissant que cette obligation doit etre adaptee aux contraintes pratiques (impossibilite d’informer individuellement chaque personne dont les donnees figurent dans un corpus de milliards de documents). L’information peut etre fournie de maniere generale, par le biais de la politique de confidentialite du fournisseur.
Sur le droit d’opposition : la CNIL souligne l’importance de mettre en place des mecanismes effectifs permettant aux personnes de s’opposer a l’utilisation de leurs donnees pour l’entrainement de modeles, y compris via des protocoles techniques (robots.txt, balises meta, opt-out forms).
La base legale pour l’entrainement des modeles generatifs
L’interet legitime : base legale de reference
Pour les modeles entraines sur des donnees accessibles publiquement sur internet, l’interet legitime (article 6.1.f du RGPD) apparait comme la base legale la plus couramment invoquee. Sa mise en oeuvre suppose toutefois une analyse rigoureuse en trois etapes :
L’analyse en trois etapes suppose d’identifier l’interet legitime (developpement d’un modele performant, interet commercial ou de recherche), de demontrer la necessite du traitement (en explorant les alternatives moins intrusives comme les donnees synthetiques ou l’anonymisation), puis de proceder a la mise en balance. Les facteurs determinants incluent le caractere public des donnees, les attentes raisonnables des personnes (generalement defavorable – peu de personnes s’attendent a ce que leurs publications servent a entrainer une IA), les mesures de minimisation et l’existence d’un mecanisme d’opposition effectif.
Le cas des donnees sensibles
L’article 9 du RGPD interdit en principe le traitement des categories particulieres de donnees (donnees de sante, opinions politiques, convictions religieuses, donnees biometriques, orientation sexuelle, etc.). Or, les corpus d’entrainement des LLM contiennent inevitablement de telles donnees.
L’exception de l’article 9.2.e (donnees manifestement rendues publiques) est frequemment invoquee, mais sa portee fait l’objet d’interpretations divergentes. Publier sur un reseau social n’implique pas necessairement avoir “manifestement rendu publiques” ses donnees au sens du RGPD.
Le droit a l’effacement face aux poids du modele
Le paradoxe technique
L’article 17 du RGPD confere aux personnes le droit d’obtenir l’effacement de leurs donnees personnelles. Applique a l’IA generative, ce droit se heurte a une difficulte technique fondamentale : les donnees personnelles utilisees pour l’entrainement ne sont pas stockees de maniere discrete et identifiable dans le modele. Elles sont “absorbees” dans les milliards de parametres (poids) du reseau de neurones, de maniere diffuse et inseparable des autres informations apprises.
Les approches possibles et la position des autorites
Plusieurs pistes sont envisagees : la suppression des donnees des jeux d’entrainement (la CNIL considere que cela peut suffire sans re-entrainement du modele), le machine unlearning (technique emergente permettant de “desapprendre” des donnees specifiques), le filtrage des sorties (empecher la restitution d’informations sur une personne), et en dernier recours le re-entrainement complet sur un corpus expurge.
Les autorites tendent vers une approche pragmatique : l’effacement des donnees d’entrainement, combine au filtrage des sorties et a une evaluation du risque de memorisation, peut constituer une reponse adequate. Cette position reste susceptible d’evolution avec la jurisprudence.
Les obligations du AI Act pour les modeles d’IA a usage general (GPAI)
Le regime specifique des GPAI
Le AI Act introduit un regime juridique specifique pour les modeles d’IA a usage general (General Purpose AI – GPAI), categorie qui englobe les grands modeles de langage au coeur de l’IA generative. Ce regime, prevu aux articles 51 a 56 du reglement, impose des obligations aux fournisseurs de modeles GPAI.
Les obligations pour les modeles GPAI
Tous les fournisseurs de modeles GPAI doivent rediger une documentation technique, publier un resume detaille des donnees d’entrainement, mettre en place une politique de respect du droit d’auteur et fournir aux fournisseurs en aval les informations necessaires a leur propre conformite.
Les modeles a risque systemique (seuil de 10^25 FLOPs ou designation par le Bureau de l’IA) sont soumis a des obligations supplementaires : evaluations standardisees incluant le red teaming, mitigation des risques systemiques, suivi des incidents graves et mesures de cybersecurite renforcees.
L’articulation avec le RGPD
Le AI Act et le RGPD se cumulent sans se substituer l’un a l’autre. Un fournisseur de modele GPAI est simultanement soumis :
- Aux obligations du AI Act relatives aux modeles GPAI (documentation technique, transparence sur les donnees d’entrainement, etc.)
- Aux obligations du RGPD en tant que responsable de traitement de donnees personnelles (base legale, droits des personnes, AIPD, securite, etc.)
Cette superposition impose une demarche de conformite integree. Pour une analyse detaillee de l’articulation entre ces deux cadres, consultez notre article : IA et RGPD : les regles applicables.
Les obligations de transparence specifiques a l’IA generative
Transparence et marquage du contenu
L’article 50 du AI Act impose que les sorties synthetiques soient marquees dans un format lisible par les machines, que les deepfakes soient identifies comme artificiels, et que le texte genere par IA a des fins d’information publique soit signale (sauf revue editoriale humaine).
Ces obligations se cumulent avec le RGPD : le deployer doit informer les personnes que leurs donnees sont traitees par une IA (articles 13-14 RGPD), que le contenu est genere artificiellement (article 50 AI Act) et de l’existence d’une decision automatisee le cas echeant (article 22 RGPD).
Cas pratiques : deploiement d’IA generative en entreprise
L’utilisation de ChatGPT, Gemini ou Claude en interne
Le deploiement d’outils d’IA generative au sein d’une entreprise souleve plusieurs questions de conformite : la qualification des acteurs (responsable de traitement, responsable conjoint ou simple utilisateur selon les conditions contractuelles), le traitement des donnees personnelles potentiellement presentes dans les prompts des salaries, les transferts internationaux lorsque l’outil est heberge hors UE, et la conservation ou reutilisation des donnees saisies pour le re-entrainement du modele.
L’integration dans un service client et le developpement proprietaire
L’utilisation de l’IA generative en service client (chatbot, assistance) impose d’informer le client qu’il interagit avec une IA, de disposer d’une base legale valide, de limiter les risques d’inexactitude et de prevoir un renvoi vers un operateur humain. Une entreprise developpant son propre modele doit integrer la conformite des la conception : AIPD, documentation des donnees d’entrainement, filtrage des donnees sensibles, mecanismes de droit d’opposition et d’effacement, tests de memorisation et suivi continu des sorties.
Les sanctions encourues
Le non-respect des obligations du RGPD dans le contexte de l’IA generative et des donnees personnelles expose les organisations a des sanctions significatives :
- Sanctions RGPD : amendes pouvant atteindre 20 millions d’euros ou 4 % du chiffre d’affaires annuel mondial (article 83 du RGPD).
- Sanctions AI Act : amendes pouvant atteindre 15 millions d’euros ou 3 % du chiffre d’affaires annuel mondial pour les fournisseurs de modeles GPAI, et 35 millions d’euros ou 7 % pour les pratiques interdites.
Les premieres sanctions ont deja ete prononcees : l’autorite italienne a inflige une amende de 15 millions d’euros a OpenAI en decembre 2024 pour violations du RGPD liees au fonctionnement de ChatGPT (defaut de base legale, insuffisance de l’information des utilisateurs, absence de mecanisme de verification de l’age).
Conclusion
Le cadre juridique applicable a l’IA generative et aux donnees personnelles est en cours de structuration rapide. La superposition du RGPD et du AI Act cree un environnement reglementaire exigeant, qui impose aux fournisseurs et deployers de systemes d’IA generative une demarche de conformite rigoureuse et proactive.
Les principaux points d’attention sont la base legale pour l’entrainement, la gestion des donnees personnelles dans les sorties du modele, le traitement des hallucinations, la mise en oeuvre effective des droits des personnes – et en particulier du droit a l’effacement --, et le respect des obligations de transparence cumulees du RGPD et du AI Act.
L’anticipation est essentielle. Les organisations qui integrent la conformite des la phase de conception de leurs projets d’IA generative se positionnent favorablement, tant sur le plan juridique que sur le plan de la confiance de leurs utilisateurs. Pour un panorama complet des obligations, consultez notre guide sur le AI Act et notre analyse de l’articulation IA et RGPD.
Restez informe sur la conformite
Recevez nos analyses et guides pratiques sur le RGPD, NIS2, AI Act et plus. Rejoint par 52 000+ professionnels.