Dans l'ère numérique actuelle, où la protection des données et la confidentialité des utilisateurs sont des enjeux majeurs, l'anonymisation de données émerge comme une solution incontournable pour concilier sécurité et exploitation des informations. Dans cet article, nous allons plonger au cœur de cette pratique cruciale en explorant principes fondamentaux, méthodes de mise en œuvre et enjeux.
Rappel anonymisation vs pseudonymisation
Premièrement, il est indispensable de rappeler la distinction entre anonymisation et pseudonymisation, qui sont des notions différentes mais très souvent confondues. Au premier abord, le terme « anonymisation » évoque la notion de masque, de dissimulation. On s’imagine alors que le principe d’anonymisation revient à masquer les attributs directement identifiants d’un individu (nom, prénom, numéro de sécurité sociale etc.). Ce raccourci constitue justement le piège à éviter. En effet, le masquage de ces paramètres définit plutôt une pseudonymisation. La pseudonymisation implique la substitution de données directement identifiantes par des données indirectement identifiantes alors que l'anonymisation, elle, vise à rendre impossible la réidentification des individus à partir des données traitées.
1.1 Comprendre les deux notions en détails…
Selon la CNIL, la pseudonymisation est un « traitement de données personnelles réalisé de manière qu'on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire ». Elle constitue une des mesures recommandées par le RGPD pour limiter les risques liés au traitement de données personnelles. Mais la pseudonymisation n’est pas une méthode d’anonymisation. La pseudonymisation réduit simplement la corrélation d’un jeu de données avec l’identité originale d’un individu concerné et constitue par conséquent une mesure de sécurité utile mais non absolue. En effet, comme dit précédemment, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom...) d’un jeu de données par des données indirectement identifiantes (alias, numéro dans un classement, etc.) empêchant ainsi la réidentification directe des individus. Cela implique donc que la pseudonymisation ne constitue pas une protection infaillible car l’identité d’un individu peut être déduite à partir d’une combinaison de plusieurs informations appelée “quasi identifiants”. Ainsi, en pratique, des données pseudonymisées restent potentiellement réidentifiantes indirectement par croisement d’informations. L’identité de l’individu peut être trahie par une de ses caractéristiques indirectement identifiantes. Cette transformation est donc réversible, justifiant le fait que des données pseudonymisées soient toujours considérées comme des données personnelles. À ce jour, les techniques de pseudonymisation les plus utilisées reposent sur des systèmes cryptographiques à clé secrète, des fonctions de hachage, du chiffrement déterministe ou encore de la Tokenization.
L’anonymisation, elle, consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Ce traitement a un caractère irréversible qui implique que les données anonymisées ne sont plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD. Pour caractériser l’anonymisation, le Comité Européen de la Protection des Données (CEPD, et ex G29) se base sur les 3 critères énoncés dans l’avis du 05/2014 (source en bas de page) :
- Individualisation : les données anonymes ne doivent pas permettre de distinguer un individu. De ce fait, même en disposant de l’ensemble des informations quasi identifiantes relatives à un individu, il doit être impossible de distinguer celui-ci dans une base une fois anonymisé.
- Corrélation : les données anonymes ne doivent pouvoir être ré-identifiées en les croisant avec d’autres jeux de données. Ainsi il doit être impossible de relier deux ensembles de données provenant de sources différentes concernant le même individu. Une fois anonymisées, les données de santé d’un individu ne doivent pas pouvoir être reliées à ses données bancaires sur la base d’informations communes.
- Inférence : les données ne doivent pas permettre de déduire de l’information additionnelle sur un individu de façon raisonnable. Il doit être par exemple impossible de déterminer avec certitude l’état de santé d’un individu à partir de données anonymes. C’est lorsque ces trois critères sont respectés que des données sont considérées comme anonymes à proprement parlé. Elles changent alors de statut juridique : elles ne sont plus considérées comme des données personnelles et sortent du cadre du RGPD.
1.2 Un exemple concret illustrant les risques de la pseudonymisation
L’« affaire AOL (America On Line)» illustre de manière parfaite le malentendu qui existe entre la pseudonymisation et l’anonymisation. En 2006, une base de données contenant vingt millions de mots-clés figurant dans les recherches effectuées par plus de 650000 utilisateurs au cours d’une période de 3 mois a été diffusée publiquement, sans autre mesure destinée à préserver la vie privée que le remplacement de l’identifiant d’utilisateur AOL par un attribut numérique (pseudonymisation). Malgré ce traitement, l’identité et la localisation de certains utilisateurs ont été rendues publiques. En effet, les requêtes transmises à un moteur de recherches, surtout si elles peuvent être couplées avec d’autres attributs, comme les adresses IP ou d’autres paramètres de configuration, ont un potentiel d’identification très élevé. Cet incident ne constitue qu’un exemple parmi les nombreux écueils montrant qu’un ensemble de données pseudonymisées n’est pas anonyme ; le simple fait de modifier l’identité n’empêche pas un individu d’être ré-identifié à partir d’informations quasi identifiantes (âge, sexe, code postal). Dans de nombreux cas, il peut se révéler aussi facile d’identifier un individu dans un ensemble de données pseudonymisées qu’à partir des données originales (jeu du « Qui est ce ? »). Ainsi, ces distinctions cruciales sont à prendre en compte dans vos projets pour garantir à la fois la sécurité des données et leur utilité.
2. Pourquoi anonymiser des données ?
Anonymiser des données est indispensable pour plusieurs raisons fondamentales. Tout d'abord, l’anonymisation est la seule technique garantissant au plus au point la protection de la vie privée des individus en évitant les risques de ré-identification des personnes concernées par les données. Cette mesure renforce la conformité aux réglementations de protection des données telles que le RGPD, assurant ainsi la confiance des utilisateurs. Ensuite, l'anonymisation permet une réutilisation libre et sécurisée des données. En éliminant les contraintes liées à la confidentialité, les entreprises peuvent exploiter ces données pour des analyses, développer la recherche, l’IA ou même des développements de produits, sans compromettre la vie privée des individus. Enfin, au-delà de la protection de la vie privée, anonymiser les données peut également apporter d'autres gains significatifs. Cela inclut une réduction des coûts liés à la gestion et à la sécurité des données sensibles, la réduction du risque d’amende par la CNIL, ainsi qu'une amélioration de la confiance des clients et des partenaires dans les pratiques de l'entreprise en matière de confidentialité des données. En somme, l'anonymisation des données constitue une pratique idéale pour concilier les impératifs de protection de la vie privée avec les besoins croissants en matière d'exploitation et d'analyse des données.
3. Comment anonymiser des données ?
Mais alors comment anonymiser réellement des données personnelles ? Explorons les différentes méthodes et techniques existantes pour y parvenir.
Avant de parler des différentes techniques d’anonymisation des données, rappelons qu’il est nécessaire en premier lieu de procéder à une pseudonymisation afin de retirer tout caractère directement identifiant du jeu de données : c’est une première étape de sécurité indispensable. Les techniques d’anonymisation prendrons en charges les attributs quasi identifiants. En les combinant à une étape de pseudonymisation préalable, on s’assure de prendre en charge les identifiants directs et ainsi protéger l’intégralité des informations personnelles liées à un individu.
Ensuite, pour rappel, l’anonymisation est caractérisée, selon le CEPD (Comité Européen de la Protection des Données), anciennement le groupe de travail G29, par 3 critères à respecter, à savoir :
• L’individualisation : est-il toujours possible d’isoler un individu ? • La corrélation : est-il toujours possible de relier entre eux les enregistrements relatifs à un individu ? • L’inférence : peut-on déduire des informations concernant un individu ?
Après, le CEPD défini deux grandes familles de techniques d’anonymisation à savoir la randomisation et la généralisation.
La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale.
Cette technique permet de protéger le jeu de données du risque d*’*inférence. Dans les techniques de randomisation, on peut par exemple citer l’ajout de bruit, la permutation et la confidentialité différentielle. Situation de randomisation : permuter des données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données.
La généralisation, elle, consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes.
Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres. Dans les techniques de généralisation, on peut par exemple citer l’agrégation, le k-anonymat, le l-diversité ou encore le t-proximité. Situation de généralisation : dans un fichier contenant la date de naissance des personnes, le fait de remplacer cette information par la seule année de naissance. Ces différentes techniques permettent de répondre à certains enjeux avec leur lot d’avantages et d’inconvénients. Nous détaillerons ainsi le principe de fonctionnement de ces différentes méthodes et exposeront par le biais d’exemples factuels, les limites auxquelles elles sont soumises.
Chacune des techniques d’anonymisation peut être appropriée, selon les circonstances et le contexte, pour atteindre la finalité souhaitée sans compromettre le droit des personnes concernées au respect de leur vie privée. Retrouvez plus de détails sur ces deux grandes familles de techniques ici [www.octopize.io/blog-posts/quelles-techniques-d-anonymisation-pour-proteger-vos-donnees-personnelles].
Cependant, il est important de mentionner que les dernières années de recherche ont vu l’émergence d’autres solutions d’anonymisation pertinentes, notamment la génération de données synthétiques anonymes. Les données synthétiques assurent en effet une forte rétention de la pertinence statistique et facilitent la reproductibilité des résultats scientifiques. Elles reposent sur la création des modèles permettant de comprendre et reproduire la structure globale des données d’origines. On distingue notamment les réseaux neuronaux adversaires (GAN) et des méthodes reposant sur des distributions conditionnelles.
Octopize, startup deeptech, a développé le logiciel d’anonymisation avatar qui utilise une approche conceptuelle unique, centrée sur l’individu, permettant la création de données synthétiques anonymes, protégées et pertinentes tout en apportant la preuve de leur protection. Sa conformité a été démontrée par la CNIL sur les 3 critères du CEPD. Cliquez ici pour en savoir plus sur les données avatars, ou les cas clients déjà réalisés.
4. Le logiciel d’anonymisation avatar pour libérer le potentiel de vos données - Liens vers Octopize avec mise en avant conformité CNIL et use cases
Vous souhaitez utiliser des données personnelles pour de nouveaux usages sans contrainte ?
La solution avatar libère le potentiel des données tout en assurant leur conformité avec les réglementations telles que la CNIL. Les données synthétiques avatar se distinguent des données d'origine, tout en gardant la même granularité et les mêmes liens entre variables. Elles peuvent supporter les mêmes analyses de données et être utilisées pour entraîner le même algorithme d'apprentissage automatique sans risque de réidentification pour vos utilisateurs.
Ainsi, le logiciel répond aux défis de préservation de la confidentialité des données tout en conservant leur valeur informative pour d’autres usages : partage, valorisation, IA, Open Data, conservation…
Son algorithme breveté a fait l'objet d'une publication dans la revue scientifique Nature Digital Medicine et a été évaluée avec succès par la CNIL française.
Le logiciel avatar est paramétrable pour atteindre le compromis parfait pour votre cas d'usage. Il génère aussi un rapport automatique de sécurité (PDF) prouvant :
- La protection de la confidentialité grâce à des métriques uniques
- La conservation de l'utilité
La solution avatar est compatible avec tout type de données tabulaires, y compris les données continues, catégorielles, les dates et les géolocalisations. Et peut être déployée en quelques heures sur toutes les infrastructures (déploiements SaaS et on-premise pris en charge).
Ainsi, le logiciel avatar peut être un atout précieux pour toute entreprise cherchant à exploiter pleinement la puissance de ses données personnelles tout en garantissant leur sécurité et leur confidentialité. Retrouvez plus de détails technique dans la documentation technique de la solution, ou plusieurs cas clients ici.
Conclusion
En conclusion, l'anonymisation des données se révèle être une pratique pertinente pour répondre aux préoccupations majeures de notre ère numérique. En évitant les risques de ré-identification des individus, elle permet aux entreprises d’être conformes vis-à-vis des réglementations de protection des données telles que le RGPD, tout en garantissant la confiance des utilisateurs. De plus, en permettant une réutilisation libre et sécurisée des données sans compromettre la vie privée des individus, elle ouvre la voie à de multiples possibilités d'exploitation, qu'il s'agisse de développement de produits, de recherche ou d'analyses. Enfin, au-delà de la protection de la vie privée, l'anonymisation des données offre d'autres avantages significatifs, tels que la réduction des coûts liés à la gestion des données sensibles et l'amélioration de la confiance des clients et partenaires dans les pratiques de l'entreprise. En somme, l'anonymisation des données est un pilier fondamental pour concilier impératifs de protection de la vie privée avec besoins croissants en exploitation de l’information issue des données.
N’hésitez pas à contacter l’équipe Octopize ou Leto pour vous aider à appréhender ces notions et libérer le potentiel de vos données en toute sécurité, de manière efficace et conforme !