ChatGPT et RGPD : ce que dit la CNIL
ChatGPT et RGPD : analyse des recommandations de la CNIL sur l'IA générative, bases légales, droits des personnes et obligations.
L’irruption de ChatGPT dans le paysage numérique a constitue un évènement majeur pour la protection des données personnelles en Europe. Depuis la mise à disposition publique de ChatGPT par OpenAI en novembre 2022, les autorités européennes de protection des données se sont saisies de la question de la conformité de ce service au RGPD. En France, la CNIL a engagé un travail de fond qui a abouti à la publication de recommandations détaillées, applicables non seulement a ChatGPT mais à l’ensemble des systèmes d’IA générative.
Cet article analyse les positions de la CNIL sur la conformité de ChatGPT au RGPD, en s’appuyant sur ses recommandations, ses fiches pratiques et ses actions de contrôle.
Le contexte : la CNIL face à l’IA générative
Les premières actions en Europe
L’Italie a été la première a agir : le 31 mars 2023, l’autorité italienne de protection des données (Garante) a ordonné la suspension temporaire de ChatGPT en Italie, invoquant l’absence de base légale pour la collecte de données d’entraînement, l’absence d’information aux personnes, l’absence de vérification de l’âge, et l’inexactitude des données générées. OpenAI a rétabli le service en Italie après avoir mis en place des mesures correctives.
Cet épisode a accélère la mobilisation des autorités européennes. Le Comité européen de la protection des données (CEPD) a créé une task force dédiée a ChatGPT pour coordonner les approches nationales et éviter la fragmentation réglementaire.
L’approche de la CNIL : accompagnement et contrôle
La CNIL a adopté une approche en deux temps. D’abord, un travail d’analyse et de publication de recommandations détaillées pour clarifier le cadre juridique applicable. Ensuite, des actions de contrôle pour vérifier la conformité effective des fournisseurs d’IA générative. Plusieurs plaintes ont été reçues par la CNIL concernant ChatGPT, et des contrôles ont été engagés.
Les recommandations de la CNIL sur l’IA générative
La base légale pour l’entraînement des modèles
La question centrale est celle de la base légale au sens de l’article 6 du RGPD pour l’entraînement des grands modèles de langage sur des corpus contenant des données personnelles. La CNIL a analysé les différentes bases légales envisageables :
L’intérêt légitime (article 6.1.f) : la CNIL considéré que l’intérêt légitime peut constituer une base légale valable pour l’entraînement de modèles d’IA générative sur des données publiquement accessibles, sous reserve d’une mise en balance rigoureuse. L’analyse doit vérifier que l’intérêt poursuivi (développement d’un modèle performant) est légitime, que le traitement est nécessaire à cet intérêt, et que les droits et intérêts des personnes ne prévalent pas.
Les facteurs à prendre en compte dans la mise en balance incluent le caractère public des données, les attentes raisonnables des personnes, les mesures de minimisation (filtrage, anonymisation partielle), et l’existence d’un mécanisme d’opposition effectif (opt-out).
Le consentement (article 6.1.a) : théoriquement possible mais pratiquement très difficile à mettre en oeuvre à l’échelle des corpus d’entraînement des LLM, qui contiennent des milliards de documents provenant de millions de sources différentes.
L’exécution contractuelle (article 6.1.b) : cette base légale n’est pas appropriée pour la phase d’entraînement, qui ne s’effectué pas dans le cadre d’un contrat avec les personnes dont les données sont utilisées. Elle peut en revanche être invoquée pour le traitement des données saisies par l’utilisateur dans le cadre de l’utilisation du service.
L’information des personnes
La CNIL souligne l’obligation d’informer les personnes dont les données sont utilisées pour l’entraînement, conformément aux articles 13 et 14 du RGPD. Pour les données collectées directement (données saisies par les utilisateurs), l’information doit être fournie de manière claire et accessible dans la politique de confidentialité du service. Pour les données collectées indirectement (données aspirées du web pour l’entraînement), l’information peut être fournie de manière générale, compte tenu de l’impossibilité pratique d’informer individuellement chaque personne.
La CNIL recommandé que les fournisseurs d’IA générative publient des informations détaillées sur la nature des données d’entraînement, les sources utilisées, les finalités du traitement, les mesures de protection mises en oeuvre, et les modalités d’exercice des droits.
Le droit d’opposition et le droit à l’effacement
La CNIL insisté sur la nécessite de mettre en place des mécanismes effectifs permettant aux personnes d’exercer leurs droits au sens du RGPD. Concernant ChatGPT, plusieurs droits posent des difficultés techniques spécifiques :
Le droit d’opposition : les personnes doivent pouvoir s’opposer à l’utilisation de leurs données pour l’entraînement du modèle. OpenAI a mis en place un formulaire de demande d’opposition. La CNIL considéré que ce mécanisme est nécessaire mais doit être facilement accessible et effectif.
Le droit à l’effacement : la suppression de données personnelles d’un modèle déjà entraîne pose des défis techniques majeurs. Le “desapprentissage” (machine unlearning) est un domaine de recherche actif mais les techniques actuelles ne garantissent pas une suppression complète. La CNIL reconnaît cette difficulté tout en exigeant que les fournisseurs mettent en oeuvre les mesures techniques les plus avancées disponibles.
Le droit de rectification : lorsqu’un modèle génère des informations inexactes sur une personne (hallucinations), celle-ci doit pouvoir obtenir une rectification. La CNIL est attentive aux mécanismes mis en place par les fournisseurs pour traiter ces demandes.
La protection des données des utilisateurs
Au-delà de la phase d’entraînement, la CNIL s’intéressé au traitement des données des utilisateurs de ChatGPT :
- Les conversations saisies par les utilisateurs constituent des données personnelles lorsqu’elles contiennent des informations identifiantes ;
- La réutilisation des conversations pour l’amélioration du modèle doit reposer sur une base légale validé et faire l’objet d’une information claire ;
- Le paramètre d’opt-out permettant aux utilisateurs de désactiver l’utilisation de leurs conversations pour l’entraînement doit être facilement accessible ;
- La conservation des données doit être limitée à ce qui est nécessaire au regard des finalités poursuivies.
L’articulation avec le AI Act
Le double cadre réglementaire
ChatGPT est un système d’IA a usage général (GPAI) au sens du AI Act. À ce titre, il est soumis aux obligations du chapitre V du règlement, applicables depuis le 2 août 2025. L’articulation entre le RGPD et le AI Act cree un double cadre réglementaire :
- Le RGPD régit le traitement des données personnelles (base légale, droits des personnes, transferts, sécurité) ;
- Le AI Act régit la mise sur le marché et l’utilisation du modèle (documentation technique, transparence, gestion des risques, droit d’auteur).
OpenAI doit satisfaire aux exigences des deux textes de manière cumulative. La conformité IA exige une approche intégrée couvrant les deux réglementations.
Les obligations spécifiques GPAI
En tant que fournisseur de modèle GPAI, OpenAI doit :
- Publier une documentation technique détaillée du modèle ;
- Mettre à disposition des informations pour les fournisseurs en aval ;
- Mettre en place une politique de respect du droit d’auteur ;
- Publier un résumé des données d’entraînement.
Si GPT-4 (ou ses successeurs) est qualifié de modèle à risque systémique, des obligations supplémentaires s’appliquent : évaluation du modèle, attenuation des risques systémiques, notification des incidents graves.
Les actions de contrôle de la CNIL
Les plaintes reçues
La CNIL a reçu plusieurs plaintes individuelles et collectives concernant ChatGPT. Ces plaintes portent principalement sur le défaut d’information des personnes dont les données ont été utilisées pour l’entraînement, la génération d’informations inexactes (hallucinations) sur des personnes identifiées, le traitement des données des utilisateurs, et l’absence de consentement pour la collecte de données d’entraînement.
La coordination européenne
La CNIL participe activement à la task force ChatGPT du CEPD, qui travaillé à l’harmonisation des approches nationales. Cette coordination est essentielle pour éviter que les fournisseurs d’IA générative ne soient soumis à des exigences divergentes selon les États membres. Le CEPD a publié un rapport sur les principaux enjeux identifiés, servant de base aux actions nationales.
Les implications pratiques pour les entreprises utilisatrices
L’employeur comme déploiement
Les entreprises qui mettent ChatGPT à disposition de leurs salariés ou qui l’utilisent dans leurs processus internes sont qualifiées de “déploiements” (deployers) au sens du AI Act. À ce titre, elles sont soumises à des obligations propres :
- Information des personnes : les clients, candidats ou salariés dont les données sont traitées par ChatGPT doivent être informés de cette utilisation ;
- AIPD : si l’utilisation de ChatGPT est susceptible d’engendrer un risque élevé pour les droits des personnes, une analyse d’impact est requise ;
- Encadrement contractuel : l’utilisation de l’API OpenAI doit faire l’objet d’un contrat incluant les clauses de sous-traitance de l’article 28 du RGPD ;
- Politique interne : une politique de gouvernance de l’IA doit encadrer les usages autorisés et interdits.
Les bonnes pratiques
La CNIL recommandé aux entreprises utilisatrices de ChatGPT de ne pas saisir de données personnelles sensibles dans le service, d’activer le paramètre de non-utilisation des conversations pour l’entraînement, de former les collaborateurs aux risques et aux bonnes pratiques, et de documenter les usages et les bases légales dans le registre des traitements.
Les entreprises doivent également vérifier les conditions contractuelles d’OpenAI concernant les transferts de données vers les États-Unis, sujet toujours sensible au regard du RGPD et de la jurisprudence Schrems II.
FAQ
ChatGPT est-il conforme au RGPD ?
À ce jour, aucune autorité européenne de protection des données n’a prononcé de décision définitive concluant à la conformité ou à la non-conformité globale de ChatGPT au RGPD. Plusieurs enquêtes sont en cours, et OpenAI a mis en place des mesures correctives en réponse aux préoccupations des autorités (information des personnes, mécanisme d’opposition, paramètre d’opt-out pour l’entraînement). La conformité de ChatGPT au RGPD dépend de l’évaluation de multiples aspects (base légale, transparence, droits des personnes, transferts internationaux) et fera probablement l’objet de décisions spécifiques dans les mois a venir.
Une entreprise peut-elle utiliser ChatGPT pour traiter des données personnelles de ses clients ?
Oui, mais sous conditions strictes. L’entreprise doit disposer d’une base légale pour le traitement, informer les personnes concernées, encadrer contractuellement la relation avec OpenAI (clauses de sous-traitance de l’article 28 du RGPD), évaluer les risques pour les personnes (AIPD si nécessaire), et s’assurer que les transferts de données vers les États-Unis sont encadrés. L’utilisation de l’API OpenAI avec des garanties contractuelles est généralement preferee à l’utilisation de l’interface grand public, qui offre moins de contrôle sur le traitement des données.
Quelles sanctions la CNIL peut-elle prononcer contre OpenAI ?
La CNIL dispose de l’ensemble de la palette de sanctions prévue par le RGPD : avertissement, mise en demeure, limitation temporaire ou définitive du traitement, injonction de mise en conformité, et amende administrative pouvant atteindre 20 millions d’euros ou 4% du chiffre d’affaires annuel mondial. Pour OpenAI, dont le chiffre d’affaires mondial est en croissance rapide, l’amende maximale théorique serait calculee sur la base du pourcentage du chiffre d’affaires. La coordination avec les autres autorités européennes est un élément clé de la procédure.