Verilerin güvenli yayımlanması için çalışan verilerini hazırlama

Gerçek verilerle çalışırken, müşterilerin ya da diğer kişilerin kişisel bilgilerinin izlenemeyeceğinden veya açığa çıkmayacağından emin olman gerekir. Bu egzersizde, bastırma (suppress) ve genelleme (generalization) tekniklerini pratik etmek için IBM HR Analytics Employee veri kümesinin basitleştirilmiş bir sürümünü kullanacaksın.

Veri kümesi hakkında bilgi sızmasını önlemek için, sütun adlarını sayılarla değiştireceksin.

DataFrame hr olarak yüklendi; keşfetmek için konsolu kullan. numpy, np olarak içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1) 

# Drop the rows with NaN values
df_cleaned = ____

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

AvançadoNível de habilidade

4.9+

Kursa Ücretsiz Başla

Veri bastırma, maskeleme, sentetik veri üretimi ve genelleştirme gibi anonimleştirme tekniklerini uygulamaya hazır ol. Bu bölümde, hassas ve hassas olmayan kişisel olarak tanımlanabilir bilgiler (PII), yarı tanımlayıcılar (quasi-identifier) ve GDPR’ın temelleri arasında nasıl ayrım yapacağını öğreneceksin. Ayrıca, bu en iyi uygulamalara uyulmadığında nelerin ters gidebileceğine dair gerçek hayattan örneklerle karşılaşacaksın.

Exercise 1: Özel olan nedir ve neden önemseriz?Exercise 2: Gizlilik güçtür Exercise 3: Hassas mı, hassas olmayan mı?Exercise 4: Hassas özniteliklerin bastırılması Exercise 5: Faker ile veri maskeleme ve veri üretimi Exercise 6: Hassas PII’yi maskeleme Exercise 7: faker ile isimleri kaldırma Exercise 8: Veri genelleştirme ile anonimleştirme Exercise 9: Genelleştirme ile kimlik tespit riskini azaltma Exercise 10: Veri toplulaştırma ve veri genelleştirme Exercise 11: Beyaz Saray maaşlarında üst ve alt kodlama

Sütunların olasılık dağılımını izleyen veri kümelerinden örnekleme yaparak veriyi nasıl anonimleştireceğini keşfet. Ardından, bağlama veya yeniden tanımlama saldırılarını önlemek için k-anonymity gizlilik modelini nasıl uygulayacağını ve kategorik değişkenlerde veri genelleştirmesi yapmak için hiyerarşileri nasıl kullanacağını öğreneceksin.

Exercise 1: Kategorik verileri anonimleştirme Exercise 2: Veri dağılımını keşfet Exercise 3: Aynı olasılık dağılımından örnekleme Exercise 4: Sürekli verileri anonimleştirme Exercise 5: Farklı dağılımlar Exercise 6: En iyi sürekli dağılımdan örnekleme Exercise 7: K-anonimliğe giriş Exercise 8: Gizlilik öznitelikleri Exercise 9: Aralıklara genelleme Exercise 10: Hiyerarşiler kullanarak veriyi genelleştirme Exercise 11: Kategorik veriler için hiyerarşileri kullanma Exercise 12: Bir veri kümesini k-anonimleştirme

Apple, Google ve Uber gibi büyük teknoloji şirketlerinin kullandığı diferansiyel gizlilik hakkında bilgi edin. Bu bölümde, özel histogramlar üreterek ve veride özel ortalamalar hesaplayarak veri keşfi yapacaksın. Ayrıca, işletmelerin verilerinin faydasını artırmasına olanak tanıyan diferansiyel gizlilikli Machine Learning modelleri oluşturacaksın.

Exercise 1: Diferansiyel gizliliğe giriş Exercise 2: Epsilon (ϵ): sihirli sayı Exercise 3: Diferansiyel gizlilikle histogramlar Exercise 4: Gizlilik bütçeleri Exercise 5: Gizlilik bütçelerini kullanma Exercise 6: Hiç bütçe kalmadığında Exercise 7: Gizlilik bütçesi muhasebecisiyle veriyi keşfetme Exercise 8: Farklılaştırılmış gizliliğe sahip Machine Learning modelleri Exercise 9: Farklılaştırılmış gizliliğe sahip bir sınıflandırıcı oluştur Exercise 10: Maaş tahmini Exercise 11: Farklılaştırmalı gizliliğe sahip kümeleme modelleri Exercise 12: Veriyi ön işleme Exercise 13: Müşterileri segmentlere ayırma

Bu son bölümde, çok sütunlu büyük veri kümelerini anonimleştirmek için temel bileşen analizi (PCA) gibi boyut indirgeme yöntemlerini nasıl uygulayacağını öğreneceksin. Ardından, gerçekçi ve tutarlı veri kümeleri üretmek için Faker’ı ve normal dağılımı izleyen sentetik veri kümeleri oluşturmak için scikit-learn’ü kullanacaksın. Son olarak, birden fazla tekniği birleştirerek veri kümelerini güvenle kamuya açarken bu kursta öğrendiklerinin tümünü bir araya getireceksin.

Exercise 1: Anonimleştirme için PCA Exercise 2: Yüksek boyutlu verilerin anonimleştirilmesi Exercise 3: PCA ile veri maskeleme Exercise 4: Faker ile gerçekçi veri kümeleri oluşturma Exercise 5: Tutarlı sentetik veri kümesi Exercise 6: Aynı olasılıksal dağılıma sahip veri kümeleri Exercise 7: scikit-learn kullanarak sentetik veri kümeleri oluşturma Exercise 8: Sınıflandırma için veri kümeleri oluşturma Exercise 9: Kümeleme için veri kümeleri oluşturma Exercise 10: Veri kümelerini güvenle kamuya aç Exercise 11: Bir veri kümesini keşfetme ve takma adlandırma Exercise 12: Verilerin güvenli yayımlanması için çalışan verilerini hazırlama

Geçerli egzersiz

Exercise 13: Harika iş!