Як Google анонімізує дані
Анонімізація – це метод обробки даних, при якому ідентифікаційна інформація видаляється або змінюється. Анонімізовані дані більше не можна пов’язати з особою. Також це важливий компонент зобов’язань Google щодо конфіденційності.
Аналізуючи анонімізовані дані, ми можемо створювати безпечні й цінні продукти та функції (як-от автозавершення пошукових запитів), краще виявляти загрози (як-от сайти з фішингом або зловмисним програмним забезпеченням) і водночас захищати особисту інформацію користувачів. Також ми можемо безпечно надавати анонімізовані дані третім сторонам, не ставлячи під загрозу конфіденційність користувачів.
Для захисту ваших даних ми використовуємо два методи
Генералізація даних
Певні елементи даних простіше пов’язати з особою. Щоб захистити користувачів, ми генералізуємо дані, тобто частково їх видаляємо або замінюємо загальним значенням. Наприклад, ми можемо замінити всі коди міст чи номери телефону однаковим набором цифр.
Генералізацією ми досягаємо k-анонімності (стандартний галузевий термін, яким позначають приховування особистих даних у групі схожих людей), де k – це числове значення розміру групи. Якщо комусь у наборі даних відповідає хоча б одна особа з такими ж властивостями, то k-анонімність досягнуто. Наприклад, у певному наборі даних k дорівнює 50, а властивістю є поштовий індекс. На кожного учасника групи припадають ще 49 осіб із таким самим значенням цього параметра. Тому ідентифікувати особу лише за поштовим індексом неможливо.
Якщо всі люди в групі мають той самий конфіденційний атрибут, то особисту інформацію можна виявити, просто знаючи, що дані цих осіб містяться в певному наборі. Щоб зменшити такий ризик, ми використовуємо l-різноманітність (стандартний галузевий термін, що позначає рівень різноманітності конфіденційних значень). Наприклад, група людей одночасно шукає інформацію про здоров'я (як-от симптоми грипу). Завдяки k-анонімності під час перегляду набору даних ми не зможемо виявити, хто здійснював пошук. Проте все ще існує загроза особистій інформації, оскільки конфіденційний атрибут (тема пошукового запиту) однаковий. L-різноманітність означає, що набір анонімізованих даних міститиме пошукові запити на різні теми, а не лише про грип. Це допоможе краще захистити конфіденційність користувачів.
Додавання шуму до даних
Диференційна конфіденційність (також стандартний галузевий термін) – це метод додавання математичного шуму до даних. З цим методом результат алгоритму завжди однаковий, тому важко визначити, чи інформація про особу є частиною набору даних. Наприклад, ми можемо вивчати загальні тенденції пошукових запитів щодо грипу в певному географічному регіоні. Щоб досягти диференційної конфіденційності, до набору даних додається шум. Це означає, що ми можемо змінити дані про кількість людей, які вводять запити про грип у певній місцевості, але це не вплине на загальне вивчення ширшого географічного регіону. Важливо зазначити, що додавання шуму до набору даних може зробити його менш корисним.
Анонімізація – це лише один із процесів, які допомагають захистити конфіденційність. Крім цього, ми суворо контролюємо доступ до даних користувачів, обмежуємо додавання наборів даних, за якими можна ідентифікувати особу, а також централізовано перевіряємо анонімізацію та стратегії керування даними, щоб підтримувати належний рівень захисту в усіх продуктах Google.