Le masquage et l’anonymisation des données représentent des aspects fondamentaux de la protection des données. Ces techniques permettent de « jouer » avec les informations d’un jeu de donnée, afin de les rendre anonymes. Cette notion d’anonymisation peut prendre différentes formes en fonction des algorithmes qui existent. Ainsi, il est possible de mettre en place des formes d’encodages qui substituent certaines données pour d’autre, d’autres qui masquent totalement certaines données, ou encore certaines qui changent certaines valeurs afin de rendre le jeu de données initial totalement impossible à retrouver. Afin de mieux comprendre le fonctionnement de chaque algorithme, nous allons ici détailler les différentes techniques de Data Masking pour mieux comprendre les enjeux de chacune d’entre elles.
Pour ces exemples, nous allons partir du jeu de données suivant, contenant un nom ainsi qu’un salaire :
Nom : Brown – Salaire : 95000
Nom : Smith – Salaire : 125000
Les algorithmes de substitution : conserver une apparence authentique
Lors de l’usage d’un algorithme de substitution, certaines informations du jeu de données principal se voient substituées par d’autres. Les informations sont alors, d’apparence, toujours réelles, mais elles permettent d’anonymiser et de protéger l’identité des personnes du jeu de données originales. Par rapport à l’exemple, les nouvelles données seraient alors les suivantes :
Nom : Green – Salaire : 95000
Nom : Jones – Salaire : 125000
Les algorithmes aléatoires : mélanger les données
Avec cet algorithme, les caractères de chaque colonne sont mélangés de manière aléatoire. De la sorte, il est très difficile de retrouver les informations originales. En se basant sur le jeu de données donné en exemple, nous pourrions obtenir le résultat suivant :
Nom : Worbn – Salaire : 95000
Nom : Miths – Salaire : 125000
Les algorithmes de variation numériques : reproduire un résultat représentatif du jeu de données original
À l’aide d’un algorithme de variation de nombres et des dates, il est possible de créer un jeu de données fictif se basant sur des informations chiffrées du jeu de données initiales. À l’aide de la mise en place d’une fourchette numérique significative (+/- 10% par exemple), il est possible d’afficher des résultats proches de la réalité, qui permettraient dans le même temps de rendre le jeu de données initial totalement impossible à retrouver. L’exemple nous pourrait ainsi nous donner le résultat suivant :
Nom : Brown – Salaire : 102600
Nom : Smith – Salaire : 112500
Les algorithmes de rédaction : remplacer artificiellement des données
Pour rendre totalement anonyme un jeu de données, il est possible d’utiliser un algorithme de rédaction. Ce dernier vient remplacer toutes les données réelles par une chaîne de caractères constante ou aléatoire non reliée. Autrement dit, il s’agit d’un algorithme de substitution où les informations ne semblent pas authentiques. L’exemple pourrait alors donner le résultat suivant :
Nom : xxxxx – Salaire : 95000
Nom : xxxxx – Salaire : 125000
Les algorithmes de masquage : conserver une base de données utilisable
Peu différent de l’algorithme précédent, l’algorithme de masquage permet de mettre en place une rédaction partielle, où certaines informations sont conservées lors de l’anonymisation. Par rapport à l’exemple, les nouvelles données seraient alors les suivantes :
Nom : Bxxxx – Salaire : 95000
Nom : Sxxxx – Salaire : 125000
Les algorithmes personnalisés : pour répondre aux besoins plus spécifiques
Parfois, les algorithmes précédents ne sont pas suffisants ou ne permettent pas de répondre à une demande spécifique. Il est alors possible de mettre en place des algorithmes personnalisés. Ces derniers se font généralement sur demande des entreprises. Il est alors possible de demander, par exemple, d’intervertir certaines informations des différentes lignes pour rendre les données anonymes. Avec l’exemple, cela donnerait le résultat suivant :
Nom : Brown – Salaire : 125000
Nom : Smith – Salaire : 95000
Nous venons de le voir, il existe de nombreux algorithmes de masquage et d’anonymisation de données et tous permettent de créer de nouveaux jeux de données bien différents. Tous ne masquent pas les informations de la même manière mais ils permettent aux entreprises de trouver des solutions adaptées à leurs besoins en fonction des enjeux.