Google डेटा को कैसे अनाम बनाता है
अनाम बनाना, डेटा प्रोसेसिंग की एक तकनीक है जिसमें व्यक्ति की निजी पहचान बताने वाली जानकारी को हटा दिया या बदल दिया जाता है; इसके नतीजे के रूप में अनाम डेटा मिलता है जिसे किसी एक व्यक्ति से जोड़ा नहीं जा सकता. यह निजता के लिए Google की प्रतिबद्धता का भी एक महत्वपूर्ण हिस्सा है.
अनाम डेटा का विश्लेषण करके उपयोगकर्ताओं की पहचान की रक्षा करते हुए, हम सुरक्षित और उपयोगी उत्पाद और सेवाएं बना पाए हैं, जैसे सर्च क्वेरी को अपने आप पूरा करना, और फ़िशिंग और मैलवेयर जैसे सुरक्षा जोखिमों को बेहतर पहचान पाए हैं. हम अनाम बनाए गए डेटा को बाहर भी शेयर कर सकते हैं, जिससे हमारे उपयोगकर्ताओं की निजता को खतरे में डाले बिना उसे दूसरों के लिए उपयोगी बनाया जा सकता है.
आपके डेटा की रक्षा करने के लिए हम दो तकनीकों का उपयोग करते हैं
डेटा का सामान्यीकरण
डेटा के कुछ निश्चित तत्वों को लोगों से अधिक आसानी से जोड़ा जा सकता है. उन लोगों की रक्षा में, डेटा के किसी भाग को हटाने के लिए हम सामान्यीकरण का उपयोग करते हैं या उसके कुछ भाग को किसी सामान्य मान से बदल देते हैं. उदाहरण के लिए, हम क्षेत्र कोड या फ़ोन नंबर वाले सभी भागों को अंकों के एक जैसे क्रम से बदलने के लिए सामान्यीकरण का उपयोग कर सकते हैं.
सामान्यीकरण से हमें के–अनामिकता पाने की सुविधा मिलती है. के–अनामिकता इस क्षेत्र में प्रचलित एक शब्द है जिसे समान लोगों के समूह में लोगों की पहचान छिपाने की एक तकनीक के रूप में इस्तेमाल किया जाता है. के–अनामिकता में के एक संख्या है जो किसी समूह का आकार बताती है. अगर डेटा समूह के किसी भी व्यक्ति के लिए, समान गुणों वाले कम से कम के–1 लोग हैं, तो हमने उस डेटा समूह के लिए के–अनामिकता प्राप्त कर ली है. उदाहरण के लिए, किसी ऐसे डेटा समूह की कल्पना कीजिए जिसमें के का मान 50 है और गुण पिन कोड है. अगर हम उस डेटा समूह के किसी भी व्यक्ति को देखें, तो हमें हमेशा उसी पिन कोड वाले 49 दूसरे लोग मिलेंगे. इसलिए, हम केवल किसी व्यक्ति के पिन कोड का इस्तेमाल करके उसे पहचान नहीं पाएंगे.
अगर किसी डेटा समूह के सभी व्यक्तियों की संवेदनशील जानकारी एक जैसी है, तो संवेदनशील जानकारी केवल यह जानकर जाहिर की जा सकती है कि ये व्यक्ति विचाराधीन डेटा समूह के भाग हैं. इस जोखिम को खत्म करने के लिए, हम एल–विविधता से फ़ायदा ले सकते हैं, जो संवेदनशील मानों में विविधता का कुछ स्तर बताने के लिए उद्योग में उपयोग किया जाने वाला शब्द है. उदाहरण के लिए, लोगों के किसी ऐसे समूह की कल्पना कीजिए जिसने एक ही समय पर एक ही संवेदनशील स्वास्थ्य विषय (उदा. फ़्लू के लक्षण) खोजा. अगर हम इस डेटा समूह को देखें, तो हम यह नहीं बता पाएंगे कि किसने विषय खोजा. इसका श्रेय के–अनामिकता को जाता है. हालांकि, इसमें अभी भी निजता संबंधी चिंताएं हो सकती हैं क्योंकि सभी की संवेदनशील विशेषता (उदा. क्वेरी का विषय) एक जैसी है. एल–विविधता का मतलब है कि अनाम बनाए गए डेटा समूह में केवल फ़्लू संबंधी खोजें नहीं होंगी. बल्कि, उपयोगकर्ता की निजता की ज़्यादा रक्षा करने के लिए इसमें फ़्लू खोजों के साथ–साथ दूसरी खोजें शामिल हो सकती हैं.
डेटा में नॉइज़ जोड़ना
विशेषता सूचक निजता (जो एक उद्योग मानक शब्द भी है) एक ऐसी तकनीक है जिसका उपयोग डेटा में गणितीय नॉइज़ जोड़ने के लिए किया जाता है. विशेषता सूचक निजता की सहायता से, यह तय करना मुश्किल बनाया जा सकता है कि क्या कोई व्यक्ति किसी डेटा समूह का भाग है, क्योंकि दिए गए एल्गोरिद्म का आउटपुट आवश्यक रूप से एक जैसा ही दिखाई देगा, चाहे किसी एक व्यक्ति की जानकारी शामिल की गई हो या न की गई हो. उदाहरण के लिए, कल्पना कीजिए कि हम पूरे भौगोलिक क्षेत्र में फ़्लू की खोजों के सामूहिक रुझान को माप रहे हैं. विशेषता सूचक निजता प्राप्त करने के लिए, हम डेटा समूह में नॉइज़ जोड़ते हैं. इसका मतलब है कि किसी दिए गए पड़ोस में हम फ़्लू की खोज कर रहे लोगों की संख्या जोड़ या घटा सकते हैं, लेकिन ऐसा करने से पूरे विस्तृत भौगोलिक क्षेत्र में रुझान की हमारी माप प्रभावित नहीं होगी. इस बात पर ध्यान देना भी ज़रूरी है कि डेटा में नॉइज़ जोड़ने से वह कम उपयोगी बना सकता है.
अनामिकता केवल एक प्रक्रिया है जिसका इस्तेमाल हम उपयोगकर्ता की निजता के लिए हमारी प्रतिबद्धता बनाए रखने के लिए करते हैं. दूसरी प्रक्रियाओं में शामिल हैं: उपयोगकर्ता डेटा की एक्सेस पर सख्त नियंत्रण, उपयोगकर्ताओं की पहचान बता सकने वाले डेटा समूहों को मिलाना नियंत्रित और सीमित करने की नीतियां और अनामिकता की केंद्रीकृत समीक्षा और पूरे Google पर सुरक्षा का एक जैसा स्तर पक्का करने के लिए डेटा नियंत्रण रणनीतियां.