Differential Privacy Featured


Bien qu’elle utilise souvent des algorithmes assez complexes, l’objectif de la confidentialité différentielle est assez simple : s’assurer que les personnes dont les données sont collectées ont autant de confidentialité que si les données n’avaient jamais été enregistrées. Vous ne devriez jamais être en mesure d’identifier quelqu’un simplement en regardant un ensemble d’informations stockées à son sujet.

Comment fonctionne la confidentialité différentielle

Les données nous concernant étant collectées à un rythme sans précédent et les gens deviennent mal à l’aise, l’idée que votre vie privée puisse être prouvée mathématiquement commence à sembler plutôt bonne. Des entreprises comme Microsoft, Google, Apple, Facebook et Uber l’ont implémenté sous une forme ou explorent leurs options, mais avant même que les grandes technologies ne s’y intéressent, elles étaient utilisées pour des éléments tels que des données de recherche sensibles, des dossiers médicaux et même des pièces. du recensement américain

Pour ce faire, il ajoute du bruit, soit aux données stockées elles-mêmes, soit aux résultats renvoyés lorsque quelqu’un les interroge, gâchant des données individuelles mais conservant la forme générale. Le bruit est essentiellement une irrégularité, ou une variabilité inexpliquée, dans les données, et l’objectif ici est d’insérer du bruit dans des points de données individuels tout en gardant des mesures globales comme la moyenne, la médiane, le mode et l’écart type proches de l’endroit où elles se trouvaient auparavant.

Confidentialité différentielle simple

Imaginons que vous ayez été sélectionné pour participer à une étude innovante en sciences sociales. Voici le hic, cependant : certaines des questions seront potentiellement embarrassantes, incriminantes ou gênantes pour vous. Disons simplement que vous préférez que personne ne voie votre nom à côté d’une coche dans la colonne intitulée Vraiment aimé la dernière saison de Game of Thrones.

Données d'enquête différentielle sur la confidentialité

Heureusement, les chercheurs ont anonymisé l’étude. Au lieu de noms, vous obtenez un nombre aléatoire, mais même dans ce cas, les gens peuvent utiliser vos réponses et les restreindre à vous.

C’est un problème qui revient souvent dans le monde réel, peut-être le plus célèbre quand les chercheurs n’ont pas seulement pu identifier les utilisateurs de Netflix mais connaissent même certaines de leurs préférences politiques. Mais que se passerait-il si nous pouvions manipuler ces données, ainsi que notre sondage, afin que personne ne lisant les résultats ne puisse savoir avec certitude ce que chaque personne a dit ?

Ajouter du bruit avec des lancers de pièces

Voici une technique que nous pouvons utiliser pour préserver votre vie privée et obtenir des résultats qui, pris ensemble, donneraient l’impression que tout le monde dit la vérité :

Organigramme différentiel des pièces de confidentialité
  1. Eh bien, posez-vous une question oui/non (Avez-vous aimé la dernière saison de Game of Thrones ?). Vous lancez une pièce.
  2. Si la pièce sort face, lancez-la à nouveau. (Peu importe ce que vous obtenez la deuxième fois.) Répondez honnêtement à la question. (Oui.)
  3. Si c’est pile, lancez à nouveau la pièce. Si c’est la tête, dis oui. Si c’est une croix, dites non.

Nous ne regarderons pas la pièce, donc nous ne saurons pas s’il vous a dit de mentir ou non. Tout ce que nous savons, c’est qu’il avait 50 % de chances de dire la vérité et 50 % de chances de dire oui ou non.

Lancement différentiel de pièces de confidentialité

Votre réponse est alors enregistrée à côté de votre nom ou de votre numéro d’identification, mais vous avez maintenant un déni plausible. Si quelqu’un vous accuse d’avoir apprécié la dernière saison de Game of Thrones, vous avez une défense soutenue par les lois de la probabilité : le tirage au sort vous a fait dire cela.

Les algorithmes réels que la plupart des entreprises technologiques utilisent pour la confidentialité différentielle sont beaucoup plus complexes que cela (deux exemples ci-dessous), mais le principe est le même. En indiquant clairement si chaque réponse est réellement valide ou non, ou même en modifiant les réponses de manière aléatoire, ces algorithmes peuvent garantir que, quel que soit le nombre de requêtes envoyées à la base de données, ils ne pourront identifier personne spécifiquement.

Cependant, toutes les bases de données ne traitent pas cela de la même manière. Certains n’appliquent les algorithmes que lorsque les données sont interrogées, ce qui signifie que les données elles-mêmes sont toujours stockées quelque part dans leur forme d’origine. Évidemment, ce n’est pas le scénario de confidentialité idéal, mais il vaut mieux appliquer une confidentialité différentielle à tout moment que de simplement envoyer des données brutes dans le monde.

Comment est-il utilisé ?

Pomme

Confidentialité différentielle Apple Hademard Mean Count Sketch
L’algorithme d’esquisse Half Count utilisé par Apple pour une confidentialité différentielle

Apple utilise la confidentialité différentielle pour masquer les données individuelles des utilisateurs avant qu’elles ne leur soient envoyées, en utilisant la logique selon laquelle si de nombreuses personnes soumettent leurs données, le bruit n’aura pas d’impact significatif sur les données agrégées. Ils utilisent une technique appelée Count Mean Sketch, ce qui signifie essentiellement que les informations sont brouillées, que des parties aléatoires sont modifiées, puis que la version inexacte est décodée et envoyée à Apple pour analyse. Il signale des choses comme vos suggestions de frappe, vos suggestions de recherche et même les emojis qui apparaissent lorsque vous tapez un mot.

Google

La première grande incursion de Google dans la confidentialité différentielle a été RAPPOR (Privacy Preserving Random Aggregable Ordinal Response), qui exécute les données à travers un filtre et modifie les pièces de manière aléatoire à l’aide d’une version de la méthode du tirage au sort décrite ci-dessus. Ils l’ont d’abord utilisé pour collecter des données sur les problèmes de sécurité dans le navigateur Chrome, et ont depuis appliqué une confidentialité différentielle à d’autres endroits, par exemple pour savoir à quel point une entreprise est occupée à un moment donné sans révéler l’activité individuelle des utilisateurs. En fait, ils ont ouvert ce projet, il est donc possible que d’autres applications apparaissent en fonction de leur travail.

Pourquoi toutes les données ne sont-elles pas traitées de cette manière ?

La confidentialité différentielle est actuellement un peu complexe à mettre en œuvre et s’accompagne d’un compromis de précision qui peut affecter négativement les données critiques dans certaines circonstances. Un algorithme d’apprentissage automatique utilisant des données privatisées pour la recherche médicale sensible pourrait faire des erreurs suffisamment importantes pour tuer des gens, par exemple. Néanmoins, il voit déjà une réelle utilisation dans le monde de la technologie, et compte tenu de la sensibilisation croissante du public à la confidentialité des données, il y a de fortes chances que la confidentialité mathématiquement prouvable soit promue comme argument de vente à l’avenir. .

Crédits image : Flux de données RAPPOR, Algorithme côté serveur pour l’esquisse du nombre moyen d’Hademard, Forfait R-MASS d’enquête sur les ensembles de données, Arbre de probabilité : lancer une pièce

Cet article est-il utile ?

Abonnez-vous à notre newsletter!

Nos derniers tutos envoyés directement dans votre boite mail

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici