Genelleştirme ile kimlik tespit riskini azaltma
Bu egzersizde, IBM HR Analytics Employee Attrition & Performance veri kümesi üzerinde genelleştirme uygulayacaksın.
Daha özel olarak, monthly_income değişkenini ikili (binary) bir sütuna dönüştüreceksin. Dönüşüm için kullanılacak eşik değeri, maaşların ortalamasının yukarı yuvarlanmış hali olacak. Yeni değerler, tam sayı ortalamadan küçük veya ona eşit olanlar için 0, daha büyük olanlar için 1 olacak.
Veri kümesi pandas DataFrame'i hr olarak yüklendi.
Bu egzersiz
Python ile Veri Gizliliği ve Anonimleştirme
kursunun bir parçasıdırEgzersiz talimatları
.mean()kullanarakmonthly_incomesütununun ortalamasını hesapla ve tam sayıya yuvarla.mean_incomeolarak kaydet.- Gelirleri genelleştirmek için
hr['monthly_income']üzerine birlambdafonksiyonu uygula: değerimean_income'dan küçük veya eşitse 0, büyükse 1 yap. - Ortaya çıkan
hrDataFrame'inin ilk beş satırını incele.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Calculate the mean value of incomes
mean_income = ____
# Apply generalization by transforming to binary data
hr['monthly_income'] = ____
# See resulting DataFrame
print(____)