Cara Google menjadikan data awanama
Awanama ialah teknik pemprosesan data yang mengalih keluar atau mengubah maklumat yang mengenal pasti secara peribadi; hasilnya ialah data awanama yang tidak boleh dikaitkan dengan mana-mana seorang individu. Awanama juga merupakan komponen penting dalam komitmen Google terhadap privasi.
Dengan menganalisis data awanama, kami dapat membina produk dan ciri yang selamat serta berharga, seperti autolengkap pertanyaan carian yang dimasukkan dan pengesanan ancaman keselamatan yang lebih baik, seperti tapak pancingan data dan perisian hasad, sambil melindungi identiti pengguna. Kami juga dapat berkongsi data awanama ke luar secara selamat, menjadikannya berguna untuk orang lain tanpa meletakkan privasi pengguna kami dalam keadaan berisiko.
Dua teknik yang kami gunakan untuk melindungi data anda
Menggeneralisasikan data
Terdapat elemen data tertentu yang lebih mudah dikaitkan dengan individu tertentu. Untuk melindungi individu tersebut, kami menggunakan penggeneralisasian untuk mengalih keluar sebahagian data atau menggantikan bahagian tertentu dengan nilai yang sama. Sebagai contoh, kami mungkin menggunakan penggeneralisasian untuk menggantikan bahagian dalam semua kod kawasan atau nombor telefon dengan jujukan nombor yang sama.
Penggeneralisasian membolehkan kami mencapai k-ketanpanamaan, istilah standard industri yang digunakan bagi menggambarkan teknik untuk menyembunyikan identiti individu dalam sekumpulan orang yang sama. Dalam k-ketanpanamaan, k ialah nombor yang mewakili saiz kumpulan. Jika bagi mana-mana individu dalam set data, terdapat sekurang-kurangnya k-1 individu yang mempunyai sifat yang sama, maka kami telah mencapai k-ketanpanamaan untuk set data tersebut. Sebagai contoh, bayangkan set data tertentu dengan k bersamaan 50 dan sifat ialah poskod. Jika kami melihat mana-mana orang dalam set data itu, kami akan sentiasa menemui 49 orang lain dengan poskod yang sama. Oleh itu, kami tidak akan dapat mengenal pasti mana-mana orang daripada poskodnya sahaja.
Jika semua individu dalam set data berkongsi nilai atribut sensitif yang sama, maklumat sensitif boleh didedahkan hanya dengan mengetahui bahawa individu ini merupakan sebahagian daripada set data yang dimaksudkan. Untuk mengurangi risiko ini, kami mungkin memanfaatkan l-kepelbagaian, istilah standard industri yang digunakan untuk menggambarkan beberapa tahap kepelbagaian dalam nilai yang sensitif. Sebagai contoh, bayangkan sekumpulan orang yang mencari topik kesihatan sensitif yang sama (cth. gejala flu) semuanya pada masa yang sama. Jika kami melihat set data ini, kami takkan dapat menyatakan orang yang mencari topik itu, dengan adanya k-ketanpanamaan. Namun begitu, masih terdapat kebimbangan privasi kerana semua orang berkongsi atribut sensitif (cth. topik pertanyaan). L-kepelbagaian bermaksud set data awanama yang tidak akan mengandungi carian flu sahaja. Sebaliknya, ia mungkin merangkumi carian lain bersama-sama carian flu untuk lebih melindungi privasi pengguna.
Menambahkan hingar kepada data
Privasi berbeza (juga istilah standard industri) menggambarkan teknik untuk menambahkan hingar matematik kepada data. Dengan privasi berbeza, sukar untuk menentukan sama ada mana-mana individu merupakan sebahagian daripada set data kerana output algoritma yang diberikan akan kelihatan sama, tidak kira sama ada maklumat mana-mana individu itu dimasukkan atau diketepikan. Sebagai contoh, bayangkan kami mengukur trend keseluruhan dalam carian untuk flu di seluruh wilayah geografi. Untuk mencapai privasi berbeza, kami menambahkan hingar kepada set data itu. Ini bermakna kami mungkin menambahkan atau menolak bilangan orang yang mencari flu di kejiranan yang diberikan, namun berbuat demikian tidak akan menjejaskan ukuran kami terhadap trend di seluruh wilayah geografi yang lebih luas. Harap maklum bahawa menambahkan hingar kepada set data boleh menjadikannya kurang berguna.
Awanama cuma satu proses yang kami gunakan untuk mengekalkan komitmen kami kepada privasi pengguna. Proses lain termasuklah kawalan ketat ke atas akses data pengguna, dasar untuk megawal dan menghadkan penyatuan set data yang mungkin boleh mengenal pasti pengguna serta semakan terpusat ke atas awanama dan strategi pentadbiran data untuk memastikan tahap perlindungan yang konsisten merentas seluruh Google.