اما در حالی که بازیابی اطلاعات خصوصی در سمت مشتری امن است، به تنهایی حریم خصوصی پایگاه داده را فراهم نمی کند. پایگاه داده مجموعهای از بردارهای کاندید – نزدیکترین همسایههای احتمالی – را برای مشتری ارائه میکند که معمولاً بعداً توسط مشتری با استفاده از نیروی بیرحم شناسایی میشوند. با این حال، انجام این کار می تواند چیزهای زیادی را در مورد پایگاه داده به مشتری نشان دهد. چالش حریم خصوصی اضافی، جلوگیری از یادگیری آن بردارهای اضافی توسط مشتری است.
“یک کلاینت مخرب اطلاعات خیلی بیشتری نسبت به یک کلاینت صادق دنبال پروتکل نمی آموزد. و از سرورهای مخرب نیز محافظت می کند. اگر شخصی از پروتکل منحرف شود، ممکن است نتیجه درستی دریافت نکنید، اما آنها هرگز متوجه نمی شوند که درخواست مشتری چیست. لانگوفسکی می گوید.
پروتکل جدید می تواند به ویژه در شرایطی مفید باشد که نشت داده ها می تواند قوانین حریم خصوصی کاربران را نقض کند، مانند زمانی که یک ارائه دهنده مراقبت های بهداشتی از تاریخچه پزشکی بیمار برای جستجو در پایگاه داده برای سایر بیمارانی که علائم مشابه داشتند استفاده می کند یا زمانی که یک شرکت تبلیغات هدفمندی را به کاربران ارائه می دهد. قوانین حفظ حریم خصوصی اروپا
Langowski میگوید: “سرور باید بتواند این محاسبات را بدون دیدن اعدادی که روی آنها محاسبات انجام میدهد انجام دهد. در واقع نمیتواند ویژگیها را ببیند، اما هنوز باید نزدیکترین چیز را در پایگاه داده به شما ارائه دهد.”
سروان-شرایبر این مقاله را با همکار دانشجوی فارغ التحصیل CSAIL، سیمون لانگوفسکی و مشاور و نویسنده ارشدشان، سرینیواس دواداس، استاد مهندسی برق ادوین سیبلی وبستر نوشت. این تحقیق در سمپوزیوم IEEE در مورد امنیت و حریم خصوصی ارائه خواهد شد.
در آینده، محققان قصد دارند پروتکل را طوری تنظیم کنند که بتواند حریم خصوصی را تنها با استفاده از یک سرور حفظ کند. این امر میتواند آن را در موقعیتهای واقعیتری به کار گیرد، زیرا نیازی به استفاده از دو نهاد بدون تبانی (که اطلاعات را با یکدیگر به اشتراک نمیگذارند) برای مدیریت پایگاه داده نیست.
علاوه بر حریم خصوصی کاربر، پروتکل آنها انتقال غیرمجاز اطلاعات از پایگاه داده را به حداقل می رساند، حتی اگر یک عامل مخرب سعی کند پایگاه داده را فریب دهد تا اطلاعات محرمانه را فاش کند.
الگوریتمها هنگام خرید آنلاین، محصولاتی را توصیه میکنند یا آهنگهایی را پیشنهاد میکنند که ممکن است هنگام گوش دادن به موسیقی در برنامههای پخش جریانی دوست داشته باشیم.
محققان از تکنیک تنظیمی استفاده کردند که در وهله اول بسیاری از بردارهای اضافی را حذف میکند و سپس از ترفند متفاوتی استفاده کردند که آن را پنهانسازی فراموشی مینامند تا هر نقطه داده اضافی به جز نزدیکترین همسایه واقعی را پنهان کنند. این به طور موثر حریم خصوصی پایگاه داده را حفظ می کند، بنابراین مشتری چیزی در مورد بردارهای ویژگی در پایگاه داده نمی آموزد.
هنگامی که آنها این پروتکل را طراحی کردند، آن را با یک پیاده سازی غیرخصوصی روی چهار مجموعه داده دنیای واقعی آزمایش کردند تا تعیین کنند که چگونه الگوریتم را برای به حداکثر رساندن دقت تنظیم کنند. سپس، آنها از پروتکل خود برای انجام پرس و جوهای جستجوی خصوصی نزدیکترین همسایه در آن مجموعه داده ها استفاده کردند.
داده های همسایه
تکنیک آنها به چند ثانیه زمان پردازش سرور در هر پرس و جو و کمتر از 10 مگابایت ارتباط بین مشتری و سرورها نیاز دارد، حتی با پایگاه های داده ای که حاوی بیش از 10 میلیون مورد است. در مقابل، سایر روشهای ایمن میتوانند به گیگابایت ارتباط یا ساعتها زمان محاسباتی نیاز داشته باشند. با هر پرس و جو، روش آنها به دقت بیش از 95 درصد دست یافت (به این معنی که تقریباً هر بار نزدیکترین همسایه واقعی را به نقطه پرس و جو پیدا می کرد).
محققان MIT ممکن است راه حل بهتری داشته باشند. آنها یک پروتکل حفظ حریم خصوصی ایجاد کردند که بسیار کارآمد است که می تواند روی یک تلفن هوشمند از طریق شبکه بسیار کند اجرا شود. تکنیک آنها از داده های شخصی محافظت می کند و در عین حال از صحت نتایج توصیه ها اطمینان می دهد.
ساشا سروان شرایبر، دانشجوی فارغ التحصیل در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و نویسنده اصلی این مقاله می گوید: “این یک مشکل واقعا سخت است. ما برای رسیدن به پروتکل خود بر یک رشته کامل از ترفندهای رمزنگاری و الگوریتمی تکیه کردیم.” مقاله ای که این پروتکل جدید را ارائه می کند.
این الگوریتمها با استفاده از اطلاعات شخصی مانند خریدهای گذشته و تاریخچه مرور ما برای ایجاد توصیههای مناسب کار میکنند. ماهیت حساس چنین دادههایی حفظ حریم خصوصی را بسیار مهم میکند، اما روشهای موجود برای حل این مشکل به ابزارهای رمزنگاری سنگینی که نیاز به محاسبات و پهنای باند زیادی نیاز دارند، متکی هستند.
این جستجوها شامل سروری است که با یک پایگاه داده آنلاین مرتبط است که حاوی نمایش مختصری از ویژگی های نقطه داده است. در مورد یک سرویس پخش موسیقی، این ویژگی ها که به عنوان بردارهای ویژگی شناخته می شوند، می توانند ژانر یا محبوبیت آهنگ های مختلف باشند.
برای یافتن یک توصیه آهنگ، مشتری (کاربر) درخواستی را به سرور ارسال می کند که حاوی یک بردار ویژگی خاص است، مانند یک سبک موسیقی که کاربر دوست دارد یا یک تاریخچه فشرده از عادات گوش دادن او. سپس سرور شناسه یک بردار ویژگی را در پایگاه داده ارائه میکند که نزدیکترین نقطه به درخواست مشتری است، بدون اینکه بردار واقعی را آشکار کند. در مورد پخش موسیقی، آن شناسه احتمالاً یک عنوان آهنگ خواهد بود. مشتری عنوان آهنگ توصیه شده را بدون یادگیری بردار ویژگی مرتبط با آن می آموزد.
تکنیکی که در قلب موتورهای پیشنهاد الگوریتمی قرار دارد به عنوان جستجوی نزدیکترین همسایه شناخته می شود که شامل یافتن نقطه داده در پایگاه داده ای است که نزدیکترین نقطه به یک نقطه پرس و جو است. نقاط دادهای که در نزدیکی نقشهبرداری میشوند ویژگیهای مشابهی دارند و همسایه نامیده میشوند.
تکنیکهایی که آنها برای فعال کردن حریم خصوصی پایگاه داده استفاده میکنند، یک کلاینت مخرب را خنثی میکند، حتی اگر درخواستهای نادرست ارسال کند تا سرور را فریب دهد تا اطلاعات درز کند.
برای دستیابی به این هدف، محققان پروتکلی ایجاد کردند که بر دو سرور مجزا تکیه دارد که به یک پایگاه داده دسترسی دارند. استفاده از دو سرور این فرآیند را کارآمدتر می کند و استفاده از تکنیک رمزنگاری به نام بازیابی اطلاعات خصوصی را ممکن می سازد. Servan-Schreiber توضیح میدهد که این تکنیک به مشتری اجازه میدهد تا از پایگاه داده بدون افشای آنچه در جستجوی آن است، پرس و جو کند.