Hvernig Google gerir gögn nafnlaus
Þegar gögn eru gerð nafnlaus eru persónugreinanlegar upplýsingar fjarlægðar eða þeim breytt þannig að ekki sé lengur hægt að tengja gögnin við einn tiltekinn einstakling. Þetta er órjúfanlegur hluti af skuldbindingu Google til að tryggja persónuvernd.
Greining á nafnlausum gögnum gerir okkur kleift að búa til öruggar og gagnlegar vörur og eiginleika, til dæmis sjálfvirka útfyllingu við innslátt leitarfyrirspurna, og greina öryggisógnir á borð við vefveiðar og skaðleg vefsvæði um leið og við tryggjum nafnleysi notenda okkar. Við kunnum einnig að deila nafnlausum gögnum með utanaðkomandi aðilum á öruggan hátt þannig að þau nýtist öðrum, án þess þó að friðhelgi notenda okkar sé stefnt í hættu.
Tvær aðferðir sem við notum til að vernda gögn
Gögn gerð almenn
Sum gögn er auðveldara að rekja til tiltekinna einstaklinga en önnur. Til þess að tryggja persónuvernd þessara einstaklinga gerum við gögn almenn með því að fjarlægja hluta af gögnunum eða skipta hluta þeirra út fyrir almennt gildi. Til dæmis getum við skipt hluta allra svæðisnúmera eða símanúmera út fyrir sömu talnarunu.
Á þennan hátt getum við náð fram „k-nafnleysi“, sem er hugtak sem er notað yfir aðferð við að fela auðkenni einstaklinga í hópi svipaðra einstaklinga. K-ið stendur fyrir fjölda einstaklinga innan hóps. Ef að minnsta kosti k-1 einstaklingar í gagnamengi eru með sömu eiginleika og einhver annar einstaklingur í gagnamenginu höfum við náð fram k-nafnleysi fyrir gagnamengið. Ímyndum okkur til dæmis gagnamengi þar sem k er 50 og eiginleikinn er póstnúmer. Ef við skoðum einn einstakling innan mengisins finnum við alltaf 49 aðra með sama póstnúmer. Þar af leiðandi gætum við ekki persónugreint einstakling með póstnúmerinu einu og sér.
Ef allir einstaklingar innan gagnamengis hafa sama gildi fyrir viðkvæma eigind er hægt að koma auga á viðkvæmar upplýsingar með því einu að vita að einstaklingarnir séu hluti af viðkomandi gagnamengi. Til að minnka þessa hættu getum við nýtt það sem kallast I-fjölbreytileiki, sem er hugtak sem lýsir fjölbreytileika á meðal viðkvæmra gilda. Ímyndum okkur til dæmis að hópur fólks leiti að sama viðkvæma atriðinu tengdu heilsufari (til dæmis flensueinkennum) á sama tíma. Ef við skoðum gagnamengið getum við ekki séð hver leitaði að efnisatriðinu, þökk sé k-nafnleysi. Hins vegar gæti persónuvernd verið ótrygg þar sem sama viðkvæma eigindin (efnisatriði leitarinnar) er til staðar hjá öllum. L-fjölbreytileiki þýðir að nafnlaust gagnamengi myndi ekki einungis innihalda leit að flensueinkennum. Þess í stað gætu aðrar leitir verið hafðar með samhliða leit að flensueinkennum til þess að tryggja persónuvernd notenda.
Suði bætt við gögn
Persónuvernd með mismun er aðferð til að bæta stærðfræðisuði við gögn. Þegar þessi aðferð er notuð er erfitt að fá fullvissu um hvort tiltekinn einstaklingur sé hluti af gagnamengi eða ekki þar sem niðurstöður reiknirits líta í meginatriðum út fyrir að vera þær sömu hvort sem upplýsingar eins einstaklings eru teknar með eða ekki. Ímyndum okkur til dæmis að við séum að mæla almenna leitni í leit að flensueinkennum á tilteknu landsvæði. Til að ná fram persónuvernd með mismun bætum við suði við gagnamengið. Það þýðir að við getum bætt við eða dregið frá fjölda fólks sem leitar að flensu í tilteknu hverfi án þess að það hafi áhrif á mælda leitni innan stærra landsvæðis. Mikilvægt er að hafa í huga að þegar suði er bætt við gagnamengi getur nytsemi gagnamengisins minnkað.
Að gera gögn nafnlaus er aðeins einn hluti af skuldbindingu okkar til að tryggja persónuvernd notenda. Á meðal annarra ferla eru strangar reglur um aðgang að notendagögnum, reglur sem stjórna og takmarka sameiningu gagnamengja sem geta persónugreint notendur og miðlæg yfirferð á aðferðum tengdum nafnleysi og gagnaumsjón til að tryggja samræmda persónuvernd alls staðar hjá Google.