Genelleştirme ile kimlik tespit riskini azaltma

Bu egzersizde, IBM HR Analytics Employee Attrition & Performance veri kümesi üzerinde genelleştirme uygulayacaksın.

Daha özel olarak, monthly_income değişkenini ikili (binary) bir sütuna dönüştüreceksin. Dönüşüm için kullanılacak eşik değeri, maaşların ortalamasının yukarı yuvarlanmış hali olacak. Yeni değerler, tam sayı ortalamadan küçük veya ona eşit olanlar için 0, daha büyük olanlar için 1 olacak.

Veri kümesi pandas DataFrame'i hr olarak yüklendi.

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

Kursa Göz Atın

Egzersiz talimatları

.mean() kullanarak monthly_income sütununun ortalamasını hesapla ve tam sayıya yuvarla. mean_income olarak kaydet.
Gelirleri genelleştirmek için hr['monthly_income'] üzerine bir lambda fonksiyonu uygula: değeri mean_income'dan küçük veya eşitse 0, büyükse 1 yap.
Ortaya çıkan hr DataFrame'inin ilk beş satırını incele.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Gizliliği ve Anonimleştirme

AvançadoNível de habilidade

4.9+

Kursa Ücretsiz Başla

Veri bastırma, maskeleme, sentetik veri üretimi ve genelleştirme gibi anonimleştirme tekniklerini uygulamaya hazır ol. Bu bölümde, hassas ve hassas olmayan kişisel olarak tanımlanabilir bilgiler (PII), yarı tanımlayıcılar (quasi-identifier) ve GDPR’ın temelleri arasında nasıl ayrım yapacağını öğreneceksin. Ayrıca, bu en iyi uygulamalara uyulmadığında nelerin ters gidebileceğine dair gerçek hayattan örneklerle karşılaşacaksın.

Exercise 1: Özel olan nedir ve neden önemseriz?Exercise 2: Gizlilik güçtür Exercise 3: Hassas mı, hassas olmayan mı?Exercise 4: Hassas özniteliklerin bastırılması Exercise 5: Faker ile veri maskeleme ve veri üretimi Exercise 6: Hassas PII’yi maskeleme Exercise 7: faker ile isimleri kaldırma Exercise 8: Veri genelleştirme ile anonimleştirme Exercise 9: Genelleştirme ile kimlik tespit riskini azaltma

Geçerli egzersiz

Exercise 10: Veri toplulaştırma ve veri genelleştirme Exercise 11: Beyaz Saray maaşlarında üst ve alt kodlama

Sütunların olasılık dağılımını izleyen veri kümelerinden örnekleme yaparak veriyi nasıl anonimleştireceğini keşfet. Ardından, bağlama veya yeniden tanımlama saldırılarını önlemek için k-anonymity gizlilik modelini nasıl uygulayacağını ve kategorik değişkenlerde veri genelleştirmesi yapmak için hiyerarşileri nasıl kullanacağını öğreneceksin.

Exercise 1: Kategorik verileri anonimleştirme Exercise 2: Veri dağılımını keşfet Exercise 3: Aynı olasılık dağılımından örnekleme Exercise 4: Sürekli verileri anonimleştirme Exercise 5: Farklı dağılımlar Exercise 6: En iyi sürekli dağılımdan örnekleme Exercise 7: K-anonimliğe giriş Exercise 8: Gizlilik öznitelikleri Exercise 9: Aralıklara genelleme Exercise 10: Hiyerarşiler kullanarak veriyi genelleştirme Exercise 11: Kategorik veriler için hiyerarşileri kullanma Exercise 12: Bir veri kümesini k-anonimleştirme

Apple, Google ve Uber gibi büyük teknoloji şirketlerinin kullandığı diferansiyel gizlilik hakkında bilgi edin. Bu bölümde, özel histogramlar üreterek ve veride özel ortalamalar hesaplayarak veri keşfi yapacaksın. Ayrıca, işletmelerin verilerinin faydasını artırmasına olanak tanıyan diferansiyel gizlilikli Machine Learning modelleri oluşturacaksın.

Exercise 1: Diferansiyel gizliliğe giriş Exercise 2: Epsilon (ϵ): sihirli sayı Exercise 3: Diferansiyel gizlilikle histogramlar Exercise 4: Gizlilik bütçeleri Exercise 5: Gizlilik bütçelerini kullanma Exercise 6: Hiç bütçe kalmadığında Exercise 7: Gizlilik bütçesi muhasebecisiyle veriyi keşfetme Exercise 8: Farklılaştırılmış gizliliğe sahip Machine Learning modelleri Exercise 9: Farklılaştırılmış gizliliğe sahip bir sınıflandırıcı oluştur Exercise 10: Maaş tahmini Exercise 11: Farklılaştırmalı gizliliğe sahip kümeleme modelleri Exercise 12: Veriyi ön işleme Exercise 13: Müşterileri segmentlere ayırma

Bu son bölümde, çok sütunlu büyük veri kümelerini anonimleştirmek için temel bileşen analizi (PCA) gibi boyut indirgeme yöntemlerini nasıl uygulayacağını öğreneceksin. Ardından, gerçekçi ve tutarlı veri kümeleri üretmek için Faker’ı ve normal dağılımı izleyen sentetik veri kümeleri oluşturmak için scikit-learn’ü kullanacaksın. Son olarak, birden fazla tekniği birleştirerek veri kümelerini güvenle kamuya açarken bu kursta öğrendiklerinin tümünü bir araya getireceksin.

Exercise 1: Anonimleştirme için PCA Exercise 2: Yüksek boyutlu verilerin anonimleştirilmesi Exercise 3: PCA ile veri maskeleme Exercise 4: Faker ile gerçekçi veri kümeleri oluşturma Exercise 5: Tutarlı sentetik veri kümesi Exercise 6: Aynı olasılıksal dağılıma sahip veri kümeleri Exercise 7: scikit-learn kullanarak sentetik veri kümeleri oluşturma Exercise 8: Sınıflandırma için veri kümeleri oluşturma Exercise 9: Kümeleme için veri kümeleri oluşturma Exercise 10: Veri kümelerini güvenle kamuya aç Exercise 11: Bir veri kümesini keşfetme ve takma adlandırma Exercise 12: Verilerin güvenli yayımlanması için çalışan verilerini hazırlama Exercise 13: Harika iş!