Google ڈیٹا کو گمنام کیسے بناتا ہے
گمنام بنانا ڈیٹا پراسیسنگ کا ایسا طریقہ ہے جو ذاتی طور پر قابل شناخت معلومات کو ہٹا دیتا ہے یا اس میں ترمیم کر دیتا ہے؛ اس کے نتیجے میں ڈیٹا گمنام ہو جاتا ہے جسے کسی ایک انفرادی فرد کے ساتھ وابستہ نہیں کیا جا سکتا۔ یہ Google کی رازداری کے عزم کا ایک اہم جزو بھی ہے۔
گمنام ڈیٹا کا تجزیہ کر کے ہم صارفین کی شناخت کو محفوظ بنانے کے ساتھ ساتھ محفوظ اور قابل قدر پروڈکٹس اور خصوصیات بنا سکتے ہیں، مثلاً درج کردہ کسی تلاش کے استفسار کی خودکار تکمیل، اور فریب دہی اور میلوئیر سائٹس جیسے سیکورٹی کے خطرات کو بہتر جانچ سکتے ہیں۔ ہم اپنے صارفین کی رازداری کو خطرے میں ڈالے بغیر دوسروں کے فائدے کیلئے اس گمنام ڈیٹا کا اشتراک محفوظ طریقے سے بیرونی طور پر بھی کر سکتے ہیں۔
آپ کے ڈیٹا کو محفوظ رکھنے کیلئے دو طریقے جو ہم استعمال کرتے ہیں
ڈیٹا کو عمومی بنانا
ڈیٹا کے کچھ خاص عناصر ایسے ہوتے ہیں جو کچھ خاص افراد کے ساتھ آسانی سے منسلک ہو جاتے ہیں۔ ان افراد کی حفاظت کیلئے ہم ڈیٹا کا کوئی خاص حصہ ہٹانے کیلئے یا اس کے کچھ حصے کو کسی عمومی قدر کے ساتھ تبدیل کرنے کیلئے عمومیت استعمال کرتے ہیں۔ مثال کے طور پر ایسا ممکن ہے کہ ہم تمام ایریا کوڈز یا ایک ہی سلسلہ کے فون نمبرز کے حصے ہٹانے کیلئے عمومیت کو استعمال کریں۔
عمومیت کے ذریعے ہم k-anonymity حاصل کر پاتے ہیں، جو کہ انڈسٹری کی معیاری اصطلاح ہے جسے ایک جیسے افراد کے گروپ میں افراد کی انفرادی شناخت کو چھپانے کے عمل کو بیان کرنے کیلئے استعمال کیا جاتا ہے۔ k-anonymity میں k وہ نمبر ہے جو گروپ کے سائز کی نمائندگی کرتا ہے۔ اگر ڈیٹا سیٹ میں کسی بھی فرد کیلئے کم از کم ایسے k-1 افراد ہیں جن کی خصوصیات ایک جیسی ہیں، اس کا مطلب ہے کہ ہمیں ڈیٹا سیٹ کیلئے k-anonymity حاصل ہو گئی ہے۔ مثال کے طور پر، فرض کریں کہ ایک خاص ڈیٹا سیٹ ہے جس میں k برابر ہے 50 کے اور پراپرٹی زپ کوڈ ہے۔ اگر ہم اس ڈیٹا سیٹ کے اندر کسی بھی فرد کو دیکھیں تو ہمیشہ اسی جیسے زپ کوڈ کے 49 دیگر بھی نظر آئیں گے۔ اس لئے ہم صرف زپ کوڈ سے کسی ایک شخص کی شناخت نہیں کر پائیں گے۔
اگر کسی ڈیٹا سیٹ میں تمام افراد ایک ہی حساس انتساب رکھتے ہیں تو حساس معلومات بس اس بات سے افشاء ہو سکتی ہے کہ تمام افراد اس ایک حساس انتساب والے ڈیٹا سیٹ کا حصہ ہیں۔ اس خطرے کو کم کرنے کیلئے l-diversity کا استعمال کرتے ہیں جو کہ انڈسٹری کی معیاری اصطلاح ہے جسے حساس اقدار کے اندر موجود تنوع کو بیان کرنے کیلئے استعمال کیا جاتا ہے۔ مثال کے طور پر فرض کریں کہ لوگوں کے ایک گروپ کو صحت کے حوالے سے ایک ہی حساس موضوع (مثلا زکام کی علامات) کے لحاظ سے ایک ہی وقت میں تلاش کیا جاتا ہے۔ اگر ہم اس ڈیٹا سیٹ کو دیکھیں تو k-anonymity کی وجہ سے ہم یہ نہیں بتا پائیں گے کہ کس نے اس موضوع کو تلاش کیا۔ تاہم، ہو سکتا ہے کہ پھر بھی رازداری کے حوالے سے تشویش ہو کیونکہ ہر کسی کے حساس انتسابات (استفسار کے موضوعات) ہوتے ہیں۔ L-diversity کا مطلب ہے کہ گمنام ڈیٹا سیٹ میں صرف زکام سے متعلق تلاشیاں نہیں ہونگی۔ بلکہ زکام کی تلاشیوں کے ساتھ ساتھ صارف کی رازداری کو مزید محفوظ رکھنے کیلئے دیگر تلاشیاں بھی ہو سکتی ہیں۔
ڈیٹا میں شور شامل کرنا
ڈفرینشل رازداری (بھی انڈسٹری کی ایک معیاری اصطلاح ہے) ایک ایسا طریقہ ہے جس سے ڈیٹا میں ریاضیاتی شور شامل کیا جا سکتا ہے۔ ڈفرنشیل رازداری کے ساتھ یہ طے کرنا مشکل ہے کہ آیا کوئی خاص فرد کسی ڈیٹا سیٹ کا حصہ ہے یا نہیں کیونکہ کسی ایک الگورتھم کا آؤٹ پٹ ایک ہی جیسا نظر آئے گا چاہے کسی ایک خاص فرد کی معلومات شامل ہوں یا انہیں نکال دیا جائے۔ مثال کے طور پر فرض کریں کہ ہم ایک مخصوص جغرافیے میں زکام کی تلاشیوں کے حوالے سے عمومی رجحان کی پیمائش کر رہے ہیں۔ ڈفرینشیل رازداری کیلئے ہم ڈیٹا سیٹ میں شور شامل کر دیتے ہیں۔ اس کا مطلب ہے کہ ہم چاہے کسی خاص علاقے میں زکام کی تلاش کرنے والے لوگوں کی ایک خاص تعداد شامل کریں یا نکال دیں، اس سے زیر بحث پورے جغرافیے میں رجحان کی ہماری پیمائش پر کوئی اثر نہیں پڑتا۔ اس میں یہ بات قابل نوٹ ہے کہ ڈیٹا سیٹ میں شور شامل کرنے سے یہ پہلے جیسا قابل استعمال نہیں رہتا۔
گمنامیت صرف ایک پراسس ہے جسے ہم صارف کی رازداری کے عزم کو برقرار رکھنے کیلئے استعمال کرتے ہیں۔ دیگر پراسسس جو ہم استعمال کرتے ہیں ان میں صارف کے ڈیٹا تک رسائی پر سخت کنٹرول، ڈیٹا سیٹس, جن سے شاید صارفین کی شناخت ہو پائے, میں شمولیت کو کنٹرول اور محدود کرنے کی پالیسیاں، اور پورے Google میں مستقل حفاظت کو یقینی بنانے کیلئے گمنامیت اور ڈیٹا گورننس کی حکمت عملیوں کا مرکزی جائزہ لینا شامل ہے۔