Büyük Veride Etkin Gizlilik Koruması için Yazılım Tasarımı


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: İstanbul Üniversitesi-Cerrahpaşa, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Türkiye

Tezin Onay Tarihi: 2018

Tezin Dili: Türkçe

Öğrenci: Can Eyüpoğlu

Danışman: Ahmet Sertbaş

Özet:

Büyük veri konusuna son yıllarda giderek artan bir ilgi vardır. Büyük verinin ortaya çıkışı, verilerin paylaşılması ve işlenmesi için gerekli olan veri gizliliği için kullanılan koruma modelleri açısından yeni zorluklara yol açmaktadır. Yayınlanan veri setinin kullanılabilirliğini sürdürürken bireylerin hassas bilgilerini korumak, gizliliğin korunmasındaki en önemli zorluktur. Bu bağlamda, verilerin kimlik ifşası ve bağlantı saldırılarına karşı korunması için veri anonimleştirme yöntemleri kullanılmaktadır. Bu tez çalışmasında, kaos ve pertürbasyon temelli yeni bir veri anonimleştirme algoritması, büyük veride gizlilik ve kullanılabilirlik koruması için önerilmiştir. Ayrıca önerilen algoritma kullanılarak gizliliği korunan büyük veri setleri Hadoop üzerinde dağıtıklaştırılmıştır. Önerilen algoritmanın performansı Kullback-Leibler uzaklığı, olasılıksal anonimlik, sınıflandırma doğruluğu, F-ölçütü, yürütme süresi ve Impala sorguları açısından değerlendirilmiştir. Deneysel sonuçlar, önerilen algoritmanın, etkin ve aynı veri setini kullanan mevcut algoritmaların çoğundan üstün olduğunu göstermektedir. Verilerin karıştırılması için kaosun uygulanması sonucu ortaya çıkan bu başarılı algoritma, gizlilik korumalı veri madenciliği ve veri yayınlama alanlarında kullanılmada gelecek vadetmektedir.