چگونه Google دادهها را بینام میکند
بینامسازی یک روش پردازش داده است که اطلاعاتی را که باعث شناسایی فرد میشود برمیدارد یا اصلاح میکند؛ با این کار دادهها بینام میشوند و دیگر به هیچ شخص خاصی مرتبط نیستند. بینامسازی یکی از مؤلفههای مهم تعهد Google نسبت به حریم خصوصی محسوب میشود.
با تجزیهوتحلیل دادههای بینامشده، میتوانیم محصولات و ویژگیهایی ایمن و ارزشمند ایجاد کنیم، مانند تکمیل خودکار عبارت جستجوی واردشده و شناسایی بهتر تهدیدهای امنیتی (مانند فیشینگ و سایتهای بدافزار)، و درحین انجام همه این کارها از هویت کاربر محافظت کنیم. همچنین میتوانیم دادههای بینامشده را بدون خطر بهصورت خارجی همرسانی کنیم و بدون به خطر انداختن حریم خصوصی کاربرانمان، این دادهها را برای استفاده مفید در اختیار دیگران قرار دهیم.
دو روشی که برای محافظت از دادههای شما استفاده میکنیم
عمومیسازی دادهها
برخی از عناصر موجود در دادهها راحتتر باعث شناسایی برخی افراد میشوند. بهمنظور محافظت از این افراد، از روش عمومیسازی برای برداشتن قسمتی از داده یا جایگزین کردن قسمتی از آن با مقداری عمومی استفاده میکنیم. بهعنوان مثال ممکن است با استفاده از عمومیسازی، قسمتهایی از همه کدهای منطقه یا شمارههای تلفن را با یک سری اعداد یکسان جایگزین کنیم.
عمومیسازی به ما امکان میدهد به «بینامی-k» دست پیدا کنیم، اصطلاحی استاندارد در این حرفه که برای توصیف روشی جهت پنهان کردن هویت اشخاص در گروهی از افراد مشابه استفاده میشود. در «بینامی-k» حرف k عددی است که نشاندهنده اندازه گروه است. اگر بهازای هر فردی در مجموع داده، حداقل k-1 فرد با مشخصات یکسان وجود داشته باشد، پس به «بینامی-k» برای مجموع داده دست پیدا کردیم. بهعنوان مثال، مجموعه داده خاصی را درنظر بگیرید که k این مجموعه برابر است با ۵۰، و مشخصه موردنظر کد پستی است. اگر به هریک از اشخاص موجود در این مجموعه داده نگاهی بیندازیم، همیشه ۴۹ نفر دیگر با همان کد پستی را پیدا میکنیم. بنابراین هیچ فردی را فقط با کد پستی او نمیتوانیم شناسایی کنیم.
اگر همه افراد موجود در یک مجموعه داده ویژگی حساسی با مقدار یکسانی داشته باشند، با دانستن این موضوع که این افراد عضوی از مجموعه داده موردنظر هستند، اطلاعات حساس میتواند بهسادگی فاش شود. برای کاهش این خطر، ممکن است از شیوه «گوناگونی-L» استفاده کنیم، یک اصطلاح استاندارد صنعتی که برای توصیف سطوحی از گوناگونی در مقادیر حساس استفاده میشود. بهعنوان مثال، گروهی از افراد را تصور کنید که همگی همزمان موضوع پزشکی حساسی را جستجو کردند (بهعنوان مثال نشانههای آنفولانزا). اگر به این مجموعه داده نگاه کنیم، در نتیجه استفاده از «بینامی-k»، نمیتوانیم بگوییم چه کسی برای این موضوع جستجو کرده است. بااینوجود چون همگی در یک ویژگی حساس خاص مشترکند (یعنی موضوع پرسمان)، ممکن است همچنان نگرانیای درخصوص حریم خصوصی وجود داشته باشد. «گوناگونی-L» یعنی مجموعه داده بینامشده فقط شامل جستجوهای مربوط به آنفولانزا نمیشود، بلکه ممکن است علاوهبر جستجوهای مربوط به آنفولانزا، جستجوهای دیگری را شامل شود تا از حریم خصوصی بیشتر محافظت شود.
افزودن اختلال به دادهها
حریم خصوصی تفاضلی (که همچنین یک اصطلاح استاندارد در این حرفه است) روشی را برای افزودن اختلالی ریاضی به دادهها توصیف میکند. درصورت استفاده از حریم خصوصی تفاضلی تشخیص اینکه آیا فردی عضوی از یک مجموعه است یا خیر دشوار میشود، زیرا صرفنظر از اینکه آیا اطلاعات هر فرد اضافه یا حذف شده است، نتیجه الگوریتم معینی بهطور اساسی یکسان بهنظر میرسد. بهعنوان مثل تصور کنید میخواهیم گرایش کلی جستجوهای انجامشده برای آنفولانزا را در منطقهای جغرافیایی ارزیابی کنیم. برای دستیابی به حریم خصوصی تفاضلی، اختلالی به مجموعه داده اضافه میکنیم. یعنی ممکن است تعداد افرادی که آنفولانزا را در محلی خاص جستجو میکنند، کم یا زیاد کنیم اما این کار روی ارزیابی گرایش در منطقه جغرافیایی وسیعتر تأثیری نمیگذارد. همچنین باید بدانید که افزودن اختلال به مجموعه داده ممکن است کمی از میزان مفید بودن آن بکاهد
بینام کردن فقط یکی از فرآیندهایی است که ما از آن برای حفظ تعهدمان نسبت به حریم خصوصی کاربران استفاده میکنیم. سایر فرآیندها عبارتند از: کنترلهای شدید برای دسترسی به دادههای کاربر، خطمشیهایی برای کنترل و محدود کردن پیوستن مجموعههای دادهای که ممکن است باعث شناسایی کاربران شوند و مرور متمرکز بینامسازی و راهکارهای کنترل داده برای اطمینان از سطح هماهنگی از محافظت در همه محصولات Google.