Le volume de données produites chaque jour dans le monde ne cesse d’augmenter. À titre de comparaison, en 2010, le monde avait produit environ deux zettaoctets de données (un zettaoctet équivaut à un milliard de téraoctets, soit mille milliards de gigaoctets). En 2020, ce chiffre a été multiplié par presque 25. Et cette croissance exponentielle devrait continuer. À l’horizon 2035, une étude commandée par Statista estime que le monde aura produit 2142 zettaoctets de données. Cette hausse s’explique en partie par l’arrivée de l’Internet des Objets (IOT) et de nouvelles technologies telles que la 5G, qui permettent d’entrevoir de nouveaux horizons pour la data. Cependant, cette arrivée massive de data entraîne une exposition accrue des données personnelles et la vie privée des utilisateurs peut rapidement être mise en danger. Pour solutionner ce problème, il est impératif d’anonymiser les données et mettre en place des solutions, comme le Data Masking…
1. Le Data Masking : une solution de première importance pour toutes les entreprises
Par définition, le Data Masking est une technologie visant à « prévenir la manipulation de données personnelles ou identifiantes en donnant aux utilisateurs des données fictives (mais réalistes) au lieu de données réelles ». Cette technique garantit la confidentialité, la disponibilité mais aussi l’intégrité des données pour les utilisateurs et pour les entreprises. Cette méthode de traitement des données permet donc à une entreprise de conserver un set de données exploitable mais qui ne contient plus aucune donnée « exacte », afin de protéger la vie privée des utilisateurs.
2. La « Data Substitution », un exemple de procédé pour anonymiser les données
Pour expliquer cela de manière simple, le Data Masking permet de conserver des données en supprimant le caractère personnel de chaque entrée. Par exemple, dans un sondage visant à connaître la couleur préférée d’un groupe de personne en fonction de leur âge, nous aurions les informations suivantes : le prénom, l’âge et la couleur préférée. Pour cet exemple, la mise en place d’un « Data Masking » sur ce jeu de données permettrait de changer le prénom par un prénom fictif. Ce procédé, connu sous le nom de « Data Substitution », donne la possibilité de conserver la couleur préférée en fonction de l’âge de la personne tout en supprimant toute possibilité d’identification. La donnée du prénom n’est plus exacte, certes, mais ce changement permet d’anonymiser totalement l’étude et de faire en sorte qu’elle réponde aux critères de protection des données personnelles. Comme l’explique la définition du Data Masking, cette technique permet de créer des « données fictives (mais réalistes) au lieu de données réelles ».
En somme, à l’échelle d’un jeu de données contenant plusieurs centaines d’entrées, les données fictives créées par cette méthode de Data Masking rendraient compte d’un résultat représentatif du jeu de données initial, tout en rendant l’identification d’un individu au sein du groupe étudié totalement impossible. Un procédé simple, mais fonctionnel, permettant de répondre aux normes RGPD tout en conservant des données de qualité…