Menggunakan hierarki untuk data kategorikal
Dalam latihan ini, Anda akan membuat dan menggunakan hierarki untuk menerapkan generalisasi data pada kolom bachelors dari himpunan data US Adult Income.
Sebuah dictionary awal yang berisi hierarki tersedia untuk Anda sebagai hierarchies. Dictionary ini memuat tiga kategori untuk tipe pendidikan: Primary, Secondary, dan Higher; masing-masing berisi daftar nilai pendidikan yang sesuai dalam data. Silakan eksplor di konsol interaktif.
Kita akan membuat dictionary baru yang akan menyimpan informasi pendidikan yang telah digeneralisasi dan menggunakannya untuk menggantikan nilai asli.
Himpunan data tersedia sebagai income_df.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Petunjuk latihan
- Inisialisasi
education_hierarchysebagai dictionary kosong. - Lengkapi loop bagian dalam untuk menetapkan jenis pendidikan
keysebagai nilai. Contohnya{'Some-college': 'Higher education'}. - Terapkan generalisasi hierarki pendidikan pada kolom
bachelors, lalu simpan hasilnya ke kolom barubachelors_generalized.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Initialize dictionary for each education category value
education_hierarchy = ____
# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
for education in education_values:
education_hierarchy[education] = ____
# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____
# See resulting dataset
print(income_df.head())