Kategorik veriler için hiyerarşileri kullanma
Bu egzersizde, US Adult Income veri kümesinin bachelors sütununda veri genellemesi uygulamak için hiyerarşiler oluşturup kullanacaksın.
Hiyerarşileri içeren bir başlangıç sözlüğü hierarchies olarak hazır. Eğitim türleri için üç kategori tutar: Primary, Secondary ve Higher; her birinde verideki karşılık gelen eğitim değerlerinin listesi bulunur. İnteraktif konsolda keşfetmekten çekinme.
Genelleştirilmiş eğitim bilgisini tutacak ve orijinal değerleri bununla değiştireceğimiz yeni bir sözlük oluşturacağız.
Veri kümesi income_df olarak mevcut.
Bu egzersiz
Python ile Veri Gizliliği ve Anonimleştirme
kursunun bir parçasıdırEgzersiz talimatları
education_hierarchysözlüğünü boş bir sözlük olarak başlat.- İç döngüyü tamamlayarak eğitim türü
keydeğerini ata. Örneğin{'Some-college': 'Higher education'}. - Eğitim hiyerarşisi genellemesini
bachelorssütununa uygula ve sonucu yenibachelors_generalizedsütununa ata.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Initialize dictionary for each education category value
education_hierarchy = ____
# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
for education in education_values:
education_hierarchy[education] = ____
# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____
# See resulting dataset
print(income_df.head())