Paano ina-anonymize ng Google ang data
Ang pag-anonymize ay isang paraan sa pagpoproseso ng data na nag-aalis o nagbabago sa impormasyong nagbibigay ng personal na pagkakakilanlan. Ito ay nagreresulta sa na-anonymize na data na hindi maiuugnay sa kahit na sino. Isa rin itong napakahalagang bahagi ng paninindigan ng Google sa privacy.
Sa pamamagitan ng pagsusuri sa na-anonymize na data, nakakabuo kami ng mga ligtas at mahalagang produkto at feature tulad ng pag-autocomplete ng inilagay na query sa paghahanap. Mas mahusay rin kaming nakaka-detect ng mga banta sa seguridad tulad ng mga phishing at malware site. Nagagawa namin ito habang pinoprotektahan ang mga pagkakakilanlan ng user. Ligtas din kaming external na nakakapagbahagi ng na-anonymize na data kaya nagiging kapaki-pakinabang ito sa iba nang hindi nalalagay sa panganib ang privacy ng aming mga user.
Dalawa sa mga paraang ginagamit namin para protektahan ang iyong data
Pag-generalize sa data
May ilang partikular na elemento ng data na mas madaling maiugnay sa ilang partikular na indibidwal. Upang maprotektahan ang mga indibidwal na iyon, ginagawa namin ang pag-generalize sa pamamagitan ng pag-aalis ng parte ng data o pagpapalit sa ilang bahagi nito ng pangkaraniwang value. Halimbawa, maaari naming gawing pangkalahatan ang impormasyon sa pamamagitan ng pagpapalit sa mga segment ng lahat ng area code o numero ng telepono ng isang set ng sunod-sunod na numero.
Nagbibigay-daan ang pag-generalize na makamit namin ang k-anonymity, isang terminong pang-industriyang ginagamit upang maglarawan ng paraan sa pagtatago ng pagkakakilanlan ng mga indibidwal sa isang grupo ng magkakatulad na tao. Sa k-anonymity, ang k ay ang numerong kumakatawan sa laki ng isang grupo. Kung para sa sinumang indibidwal sa data set ay may kahit k-1 na indibidwal na may mga kaparehong property, ibig sabihin ay nakamit namin ang k-anonymity para sa data set. Halimbawa, isiping may isang partikular na data set kung saan ang k ay katumbas ng 50 at ang property ay zip code. Kung titingnan namin ang sinumang tao sa data set na iyon, palagi kaming makakakita ng 49 na iba pa na may parehong zip code. Dahil doon, hindi namin matutukoy ang sinuman sa pamamagitan lang ng kanyang zip code.
Kung pare-pareho ang value ng isang sensitibong attribute ng lahat ng indibidwal sa isang data set, maaaring may mabunyag nang sensitibong impormasyon kapag nalaman lang na bahagi ang mga indibidwal na ito ng pinag-uusapang data set. Upang mabawasan ang panganib na ito, maaari naming gamitin ang l-diversity, isang terminong pang-industriyang ginagamit upang maglarawan ng ilang antas ng pagkakaiba-iba sa mga sensitibong value. Halimbawa, isiping may grupo ng mga tao na pare-parehong naghanap sa iisang sensitibong paksa sa kalusugan (hal., mga sintomas ng trangkaso) nang sabay-sabay. Kung susuriin namin ang data set na ito, hindi namin masasabi kung sino ang naghanap sa paksa dahil sa k-anonymity. Gayunpaman, maaaring mayroon pa ring alalahanin sa privacy dahil nagbabahagi ang lahat ng sensitibong attribute (hal., ang paksa ng query). Ang ibig sabihin ng l-diversity ay hindi lang mga paghahanap tungkol sa trangkaso ang makikita sa na-anonymize na data set. Sa halip, maaari itong magsama ng iba pang paghahanap sa mga paghahanap tungkol sa transkaso upang higit na maprotektahan ang privacy ng user.
Pagdaragdag ng noise sa data
Ang differential privacy (isa ring terminong pang-industriya) ay naglalarawan ng paraan para sa pagdaragdag ng mathematical noise sa data. Gamit ang differential privacy, mahirap matiyak kung bahagi ba ang sinumang indibidwal ng isang data set dahil halos hindi magbabago ang resulta ng isang partikular na algorithm, isama o alisin man ang impormasyon ng sinumang indibidwal. Halimbawa, isipin na sinusukat namin ang pangkalahatang trend sa mga paghahanap tungkol sa trangkaso sa isang heograpikong rehiyon. Upang makamit ang differential privacy, magdaragdag kami ng noise sa data set. Ibig sabihin, maaari naming dagdagan o bawasan ang bilang ng mga taong naghahanap ng tungkol sa trangkaso sa isang partikular na komunidad, ngunit kapag ginawa namin ito, dapat ay hindi maapektuhan ang pagsukat namin sa trend sa mas malawak na heograpikong rehiyon. Mahalaga ring tandaan na kapag nagdagdag ng noise sa isang data set, maaaring mabawasan ang pagiging kapaki-pakinabang nito.
Ang pag-anonymize ay isa lang sa mga prosesong ginagamit namin upang panatilihin ang aming paninindigan sa privacy ng user. Kabilang sa iba pang proseso ang mahihigpit na kontrol sa access sa data ng user, mga patakaran upang makontrol at malimitahan ang pagsasama-sama ng mga data set na maaaring maging pagkakakilanlan ng mga user, at sentralisadong pagsusuri sa pag-anonymize at mga diskarte sa pamamahala ng data upang matiyak ang hindi nagbabagong antas ng proteksyon sa buong Google.