Sébastien Gaspard
Au sommaire de cet article
J’ai régulièrement des discussions avec des experts RGPD ou des prospects sur le contenu du RGPD (Règlement Général sur la Protection des Données) et notamment sur la définition de l’anonymat. Le sujet récurrent est : « selon la définition du RGPD, il est quasiment impossible d’anonymiser la donnée ».
1. Ce que dit la loi
Une solution d’anonymisation doit être construite au cas par cas et adaptée aux usages prévus. Pour aider à évaluer une bonne solution d’anonymisation, le G29 propose trois critères :
Ainsi :
Avis du G29 Avis05/2014 sur les Techniques d’anonymisation
2. Ce que ce texte implique
Donc, si une donnée assez précise permet de retrouver ne serait-ce qu’une seule personne dans l’ensemble anonymisé, alors on peut considérer que l’anonymisation n’est pas probante et donc qu’on enfreint le RGPD en utilisant ce jeu de données. Il devient donc assez évident que pour le responsable du traitement (ou toute autre personne ayant accès aux données sources qui ont généré cet ensemble anonymisé), il est possible de retrouver des individus si ne serait-ce qu’une seule valeur numérique est conservée lors de l’anonymisation.
Le sujet en question « selon la définition du RGPD, il est quasiment impossible d’anonymiser la donnée » semble vrai quand on cherche à réaliser l’action sur la totalité d’un système d’information. Le corollaire de ceci « étant donné qu’il est impossible d’anonymiser, il est inutile de lancer un projet d’anonymisation » vient donc dans un deuxième temps, coupant court à toute discussion sur le sujet.
3. Ce qu’il faut donc mettre en place
On peut en conclure que l’anonymisation, pour être complète, doit altérer la totalité des données sources par les techniques de randomisation et de généralisation, et qu’il est pertinent de s’assurer du résultat par la mesure du risque de ré-identification. Pour plus d’information sur ces sujets, vous pouvez aller chercher dans la littérature les notions de « k-anonymity », « l-diversity », « t-closeness », « δ-disclosure privacy », » « β-likeness », « δ-presence », « k-map », « thresholds on average risk, methods based on super-population models », « (ε, δ)-differential privacy » ou encore « game-theoretic de-identification approach ».
Autant de termes barbares pour les personnes non initiées aux théories mathématiques permettant de vérifier à des niveaux divers et variés si la complétude de l’anonymisation peut être affirmée.
4. Il est donc inefficace de mettre en place un projet d’anonymisation
Ainsi, pour mettre en place un système d’anonymisation globale à toute l’entreprise respectant à coup sûr le RGPD, il faudra investir dans une solution complète d’anonymisation et de vérification mathématique, mais aussi s’équiper de serveurs très puissants pour faire tourner les algorithmes de vérification, et engager un expert statisticien ou data analyste pour définir les critères de vérification et en comprendre les résultats.
Très vite, le coût apparaît disproportionné par rapport aux bénéfices, surtout que ceux-ci sont très souvent sous-estimés. Nombre d’entreprises découvrent souvent bien trop tard ce bénéfice, généralement après avoir mesuré ce qu’une intrusion dans leur système leur a coûté.
5. Et dans la vraie vie ?
Nous voici donc dans l’incapacité de répondre aux exigences du RGPD par de l’anonymisation du SI à un prix raisonnable. Faut-il pour autant conclure qu’il est pertinent de ne rien faire ? Oui, les données anonymes sont très complexes à mettre en place pour respecter à 100% le RGPD… Mais revenons à des débats plus pragmatiques. Est-il vraiment problématique que les personnes ayant accès à la donnée de production puissent remonter à l’individu dans un ensemble anonymisé ? De mon point de vue, le risque de défaillance de l’entreprise à protéger les données personnelles est faible. Il existe certains cas comme le rapprochement de données entre concurrents ou le cas d’un sous-traitant indélicat qui pourraient poser soucis, mais ces soucis sont plus de l’ordre de l’espionnage industriel ou du démarchage en concurrence déloyale que de celui du RGPD. Dans le cas du sous-traitant indélicat, un conseil, changez-en pour un sous-traitant un peu plus cher et de confiance, vous y gagnerez au final..
Revenons aux fondamentaux du RGPD. À aucun moment il n’est dit dans ce texte que l’anonymisation est nécessaire pour protéger les données. L’anonymisation est un moyen de sortir des données du champ d’action du RGPD, mais en aucun cas l’unique solution.
6. Surface d’exposition des données
Le RGPD demande d’apporter des mesures de sécurité devant être adaptées en fonction des risques qui pèsent sur les personnes concernées, en cas d’exploitation non-consentie de leurs données personnelles.
Ainsi, il convient de réduire l’exposition de ces données aux seules personnes en ayant le besoin dans le cadre du traitement de l’information. La plupart des environnements de production des entreprises proposent des mesures suffisantes pour se protéger des vols de données, mais les usages actuels dans le monde de l’informatique engendrent des surfaces d’exposition de la donnée bien plus grandes et bien moins sécurisées que les environnements de production.
Parmi ces surfaces d’exposition, certaines sont traitées par la cryptographie, comme le chiffrement des communications avec les explorateurs internet ou des communications inter–site (le fameux HTTPS). D’autres sources d’exposition résident dans les applications des téléphones mobiles, connectées aux réseaux d’entreprise et gérées par une politique de sécurité informatique interne stricte. D’autres encore proviennent des environnements de tests qui, bien souvent, sont des copies de la production sans la sécurité adéquate. Dans ce cas, l’anonymisation, même incomplète (donc de la pseudonymisation), réduit drastiquement la surface d’exposition des données, ce qui améliore l’état global de la sécurité et de la conformité au RGPD. Dans la pratique, le recours à la pseudonymisation, bien que ne permettant pas de sortir les données du champ d’action du RGPD, est encouragé et relaxe les entreprises qui l’utilisent sur plusieurs exigences de la régulation.
7. Il est donc quand même pertinent d’entamer un processus d’anonymisation
L’anonymisation, même incomplète, apporte donc des solutions améliorant le niveau de mise en conformité avec le RGPD et pose les premières pierres d’une solution idéale.
Le coût et la technicité de la mise en place d’une solution parfaite d’anonymisation globale rendent son implémentation à l’heure actuelle quasi-impossible. Cependant, la réduction des risques et la mise en place de projets appelés à évoluer dans le temps, rendent ces projets tout à fait pertinents et conformes aux besoins actuels.
La plupart des solutions d’anonymisation sont en constante évolution et permettent d’améliorer la situation par optimisations successives de l’état de l’anonymat. L’évolution des technologies apportera son lot de solutions mais aussi son lot de problèmes, C’est pourquoi il n’est pas judicieux de procrastiner à mettre en place les mesures de protection. Au contraire, il est recommandé d’anticiper le risque .
Moins les données seront exposées et moins les technologies émergentes comme le « machine learning », les « ordinateurs quantiques » ou l’« IA » (terme que je déteste tellement il est galvaudé de nos jours) pourront avoir d’impact sur la vie des personnes qui nous ont confié leurs données. Car, je le rappelle, le RGPD n’est pas là pour nous enquiquiner avec des règles strictes et infondées à suivre mais pour protéger les individus.
Nul besoin d’anonymiser de manière stricte pour être conforme au RGPD. Il faut mettre en place un ensemble d’éléments de protection de la donnée qui, au final, protège les gens.
8. Mon conseil
Se lancer dans un projet d’anonymisation complet de la base de production est un travail coûteux en argent et en temps. De plus, il comporte un risque non négligeable d’échec. L’anonymisation étant probablement incomplète, elle devient alors une pseudonymisation, et ne sort pas du champ d’application du RGPD.
On peut cependant bien faire. Pour cela, il convient alors de distinguer les usages, et de compartimenter les besoins afin d’avoir une maîtrise totale de ce que vous utilisez :
Et je terminerai sur une note optimiste : N’oubliez pas qu’un projet d’anonymisation vit dans le temps, non seulement parce qu’il ne sera pas parfait du premier coup, mais aussi parce que les algorithmes efficaces aujourd’hui ne le seront peut-être pas demain. Vous avez donc le temps et la possibilité de mettre en place un processus d’amélioration continue pour, à terme, arriver à une anonymisation parfaite de tous les éléments de votre système d’information. Vous pouvez donc commencer petit et prendre le temps de bien faire.