Actualités

Développement d’un système d'IA : la CNIL publie des fiches pratiques sur la collection de données via web scraping

27 juin 2025

Le 19 juin 2025, la CNIL a publié deux nouvelles fiches pratiques sur l'intelligence artificielle, la première sur l'usage de l'intérêt légitime pour développer un système d'IA et la seconde sur la collecte de données via web scraping. Ces fiches visent à clarifier les règles applicables à la constitution de bases de données d'apprentissage contenant des données personnelles.

Le 19 juin 2025, la CNIL a publié deux nouvelles fiches pratiques sur l'intelligence artificielle. La première précise les conditions d'usage de la base légale de l'intérêt légitime pour développer un système d'IA (voir notre post ici) et la seconde traite plus spécifiquement de la collecte de données via "moissonnage" ou "web scraping". Ces fiches visent à clarifier les règles applicables à la constitution de bases de données d'apprentissage contenant des données personnelles.

Dans la seconde fiche pratique, la CNIL détaille les mesures à prendre pour réaliser une collecte appropriée des données via le web scraping. La généralisation du web scraping a en effet profondément modifié l'usage d'internet, en rendant toutes les données publiées en ligne potentiellement accessibles, collectables et réutilisables. Cette pratique soulève des risques importants pour les personnes concernées, notamment :

Des atteintes à la vie privée et aux droits garantis par le RGPD (volume massif de données, données sensibles, personnes vulnérables, difficulté à exercer ses droits) ;
Le risque de collecte illégale, notamment en cas d'atteinte à des droits de propriété intellectuelle ou d'absence de consentement ;
Des atteintes à la liberté d'expression, via un effet dissuasif ou d'autocensure.

Si le web scraping n'est pas interdit par principe, la CNIL insiste sur la nécessité d'une analyse au cas par cas et appelle à la mise en place de garanties adaptées. Elle recommande par ailleurs un encadrement législatif spécifique pour les usages par les autorités publiques. En l'absence de tel cadre, elle rappelle les obligations des responsables de traitement et précise les conditions dans lesquelles ces pratiques peuvent être envisagées pour entraîner des systèmes d'IA.

1. Respecter les mesures obligatoires au titre du RGPD

La CNIL rappelle que certaines mesures sont obligatoires, notamment au titre du principe de minimisation des données (article 5.1.c du RGPD). Cela implique de :

Définir en amont des critères précis de collecte ;
Exclure certaines catégories de données non nécessaires, par exemple au moyen de filtres (ex. : données bancaires, de géolocalisation) ;
A défaut de filtrage possible, exclure certains types de sites internet, notamment ceux fréquentés majoritairement par des mineurs ou contenant structurellement des données sensibles ou concernant des personnes vulnérables ;
Supprimer les données non pertinentes collectées par erreur, dès leur identification ;
Exclure les sites qui s'opposent clairement au web scraping via des mécanismes comme robots.txt ou les CAPTCHA.

La CNIL rappelle qu'une vigilance particulière s'impose concernant les données sensibles, compte tenu des volumes massifs traités. La collecte résiduelle et non intentionnelle de données sensibles, malgré ces précautions, n'est pas en soi illégale, comme l'a rappelé la CJUE (affaire C-136/17). En revanche, dès lors que le responsable a connaissance qu'il traite de telles données, il est tenu de les supprimer sans délai, par des moyens automatisés lorsque cela est possible.

Par ailleurs, la CNIL rappelle que le traitement de données sensibles n'est autorisé que par exception, notamment lorsque ces données ont été manifestement rendues publiques par la personne concernée. Cela suppose un acte positif clair de sa part, réalisé en connaissance de cause (CJUE, C-252/21, Meta Platforms).

2. Respecter les attentes raisonnables

Pour garantir l'équilibre attendu au titre de l'intérêt légitime, le responsable du traitement doit par ailleurs tenir compte des attentes raisonnables des personnes. A cet égard, la CNIL indique qu'il convient de tenir compte des critères suivants :

La nature de la relation entre la personne concernée et le responsable de traitement.
Les restrictions explicites imposées par les sites internet (CGU, fichiers robots.txt, CAPTCHA, etc.). L'absence de respect de ces restrictions exclut que le traitement relève des attentes raisonnables.
La nature des sites sources (réseaux sociaux, forums, etc.).
Le type de publication : publication publique (ex : blog) vs publication avec accès restreint (ex : post privé sur un réseau social).
L'accessibilité publique ou non des données.

3. Mettre en place des garanties supplémentaires

Enfin, la CNIL souligne que le responsable du traitement devra généralement mettre en œuvre des garanties supplémentaires pour limiter l'atteinte aux droits et libertés des personnes notamment au regard de l'usage prévu pour l'IA entraînée et de l'impact effectif de ce système sur les personnes concernées. Il appartient au responsable de traitement de juger au cas par cas s'il est nécessaire de mettre en œuvre ces garanties supplémentaires en fonction des modalités spécifiques du traitement.

Parmi les garanties recommandées figurent les suivantes :

Établir une liste de sites exclus par défaut, notamment ceux contenant des données sensibles ou fortement intrusives (forums santé, sites pornographiques, sites généalogiques, etc.) ;
Exclure les sites s'opposant au web scraping, notamment par des CGU ou des mesures techniques explicites ;
Limiter la collecte aux données librement accessibles et dont les personnes ont conscience de rendre publiquement accessibles ;
Assurer une large information des personnes concernées, en diversifiant les canaux (site web, réseaux sociaux, liste des sites web scrapés, voire collaboration avec les éditeurs de sites sur lesquels les données ont été collectées) ;
Prévoir un droit d'opposition préalable et effectif, appuyé par des mécanismes techniques adaptés (opt-out, listes repoussoirs) ;
Appliquer des procédés d'anonymisation ou de pseudonymisation immédiatement après la collecte ;
Prévenir tout recoupement des données à partir des identifiants des personnes, sauf nécessité démontrée, en générant par exemple des pseudonymes aléatoires par contenu.