par Maurice Marrel | le 13 septembre 2018

Le RGPD, la confidentialité et les réglementations sur la protection des données ont soulevé plus de questions que jamais sur le traitement des données. Nous avons demandé à notre DPO et expert en anonymisation, Maurice Marrel, de répondre à certaines des questions les plus courantes auxquelles nos clients sont confrontés aujourd’hui.

1. Quel est le rôle de l’anonymisation dans le respect du RGPD ?

Ces dernières années, le numérique connecté a considérablement transformé la circulation des données.
Les données de production sont copiées en environnements de test, de recette ou de préproduction. Elles sont donc exposées aux regards de testeurs, recetteurs ou développeurs non habilités sur des machines beaucoup moins protégées que les environnements de production.
De nombreux fichiers sont également partagés avec des partenaires extérieurs, et ne doivent livrer qu’une partie des informations réellement transmises.

Ces données personnelles doivent être protégées des fuites et autres indiscrétions.
De ce fait, les législations ont imposé des règles, comme le RGPD en Europe.

Il devient donc impératif de désensibiliser ces données confidentielles.
Cette désensibilisation doit se faire par transformation de ces données, à l’aide d’algorithmes non réversibles.
Cependant, la donnée doit rester exploitable. Un utilisateur testeur doit voir à l’écran, dans le champ nom de famille, un nom de famille modifié qui ressemble à un nom de famille.
Le domaine doit rester le même : un IBAN/RIB ou un numéro de sécurité sociale doit rester valide et compatible avec les exigences et tolérances des applications afin de pouvoir pratiquer les tests sans se faire rejeter d’emblée.
Ces contraintes doivent rester applicables que ce soit avec le phénomène de redondance des données dans des bases de données héritées et archaïques, ou dans un contexte de système de gestion de bases de données multiples.
C’est ce que permet l’anonymisation des données.

2. Anonymisation & pseudonymisation : en quoi diffèrent-elles ?

L’anonymisation fait en sorte que les données ne puissent pas être récupérées, et ce de manière irréversible, à contrario de la pseudonymisation.

Dans un environnement de test, même si les machines sont sécurisées, ce sont les développeurs, testeurs, recetteurs, personnels en formation qui ont accès directement à la donnée. Il faut donc impérativement anonymiser ou pseudonymiser la donnée en amont.
Dans le cas d’une pseudonymisation, les données peuvent aussi optionnellement être conservées cryptées dans les métadonnées de la solution logicielle, afin de pouvoir être restituées unitairement sur demande aux seules personnes autorisées. Les données anciennes sont dans ce cas conservées. Cela peut être utile par exemple pour vérifier un problème isolé dans un environnement de test.

La pseudonymisation est souvent la seule solution compatible avec un fonctionnement normal des applications et avec l’exhaustivité des scénarios de tests.
C’est en revanche une technique qui présente une certaine réversibilité de par les clefs d’identification qui ne sont pas toujours remplaçables pour des raisons techniques, et de par des données identifiantes, comme des numéros de clients, qui sont parfois le seul lien entre les technologies de stockage de l’information (SGBD, fichiers). La combinaison des données entre elles peut aider des organisations mal intentionnées à statistiquement deviner certaines données d’origine.

3. Données personnelles & données sensibles – quels impacts sur la gestion des données ?

Selon la CNIL, une donnée personnelle est « toute information relative à une personne physique susceptible d’être identifiée, directement ou indirectement ». Tandis qu’une donnée sensible concerne « toute information qui révèle les origines raciales ou ethniques, les opinions politiques, philosophiques ou religieuses, l’appartenance syndicale, la santé ou la vie sexuelle d’une personne physique. »

Mais cette différenciation des données peut prêter à confusion.
Le plus important est de bien identifier les données à anonymiser. L’objectif est d’empêcher toute correspondance entre ces données. On peut par exemple ne pas modifier une donnée de type état de santé si le nom et prénom correspondant est anonymisé.
L’anonymisation concerne donc tous les types de données en exploitant des algorithmes.

4. L’anonymisation impacte-t-elle les performances de mon informatique ?

Il convient de ne pas prendre en compte la performance seule, mais également la sécurité.
Une anonymisation engendre un traitement, et aura donc forcément des impacts sur les performances. Cependant, si elle est bien anticipée et les exigences bien définies, les impacts seront minimisés. De plus, on constate que seuls une vingtaine de pourcents des données nécessitent d’être anonymisées.

De manière générale, lors d’une anonymisation, les données seront directement récupérées depuis un environnement de production pour être insérées dans un environnement de test. Mais même si les utilisateurs (développeurs, testeurs etc.) n’y ont pas accès durant le traitement, les environnements de test sont la plupart du temps bien moins protégés.
La solution idéale, dans ce cas, consistera à effectuer une copie de la base de production. Cela permettra à la première de rester disponible pendant que l’autre se fera anonymiser.
Les données anonymisées seront ensuite diffusées sur les environnements de test, de recettes et de formation concernés.
Une autre solution consiste à isoler une copie des environnements de production en machines de tests tout en limitant l’accès durant l’anonymisation, pour ensuite diffuser sur l’environnement de test.

5. Comment identifier les données qui doivent être anonymisées ?

Généralement, l’anonymisation est réalisée pour les environnements de test.
Une bonne connaissance du périmètre global de la base de données est donc nécessaire, car elle permettra de comprendre quels sont les types de données que l’on aura besoin d’anonymiser.
Il faut également prendre en compte la façon dont les données sont liées entre elles, car certaines sont indissociables.
La découverte en bases de données d’éligibilité des données à anonymiser doit être la plus automatisable possible afin d’assister l’administrateur par des algorithmes dédiés aux divers types de données.

Mais dans certains cas, l’anonymisation devra être réalisée pour les environnements de production, notamment dans le cadre du droit à l’oubli, considérablement renforcé par le RGPD.
En effet, toute personne résidant dans l’Union Européenne et dont une organisation détient des données personnelles pourra avoir le contrôle sur ses données.
Mais dans de nombreux cas, supprimer purement et simplement ces données aurait un impact important sur les autres données. L’anonymisation se présente alors comme la meilleure solution, car elle permet de rendre inaccessible les données personnelles, tout en conservant les données nécessaires au bon fonctionnement des applications et à leur cohérence.
Prenons l’exemple d’un site de commerce en ligne. Lorsqu’un produit est vendu, les données de type sortie de stock, entrée d’argent ou numéro de colis de livraison sont nécessaires au bon fonctionnement de l’entreprise et ne peuvent pas être supprimées. Par contre, le nom de l’acheteur, son adresse ou encore ses données bancaires peuvent l’être.
Le droit à l’oubli, qu’il soit dû à une demande spécifique ou à une réglementation sur la conservation de données anciennes, est donc la principale raison des anonymisations en environnement de production.

Conclusion

  • L’anonymisation répond aux exigences du RGPD car elle permet de transformer des données de manière irréversible, tout en restant exploitables
  • L’anonymisation concerne toutes les données, personnelles ou sensibles, en exploitant des algorithmes
  • Si l’anonymisation est bien anticipée et les exigences bien définies, les impacts sur la performance seront minimisés
  • Une anonymisation peut être nécessaire dans un environnement de production dans le cadre du droit à l’oubli
Protection des données personnelles

Protection des données personnelles

White Paper

Préparez-vous aux enjeux liés au Nouveau Règlement Européen sur les données personnelles (RGPD) !

Dot Anonymizer Datasheet

Dot Anonymizer

Datasheet

DOT-Anonymizer vous accompagne pour protéger la confidentialité de vos données de test, cette documentation vous présente son fonctionnement.

Maurice Marrel

Maurice Marrel

Consultant solutions senior, DOT Software

Maurice Marrel dispose de plus de 20 ans d’expérience dans des environnements informatiques multiplateformes et participe activement à la modernisation de projets à la pointe de la technologie.
Aujourd’hui, il s’est spécialisé dans l’avant vente technique et la formation pour ARCAD et DOT Software. Maurice a ainsi développé une forte expertise technique de part ses expériences, comprenant la gestion des services informatiques dans l’industrie aérospatiale, le secteur énergétique et a également assuré la direction de projets dans divers secteurs d’activités, notamment les outils de développements de logiciels.