MulaiMulai sekarang secara gratis

Menggunakan hierarki untuk data kategorikal

Dalam latihan ini, Anda akan membuat dan menggunakan hierarki untuk menerapkan generalisasi data pada kolom bachelors dari himpunan data US Adult Income.

Sebuah dictionary awal yang berisi hierarki tersedia untuk Anda sebagai hierarchies. Dictionary ini memuat tiga kategori untuk tipe pendidikan: Primary, Secondary, dan Higher; masing-masing berisi daftar nilai pendidikan yang sesuai dalam data. Silakan eksplor di konsol interaktif.

Kita akan membuat dictionary baru yang akan menyimpan informasi pendidikan yang telah digeneralisasi dan menggunakannya untuk menggantikan nilai asli.

Himpunan data tersedia sebagai income_df.

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Petunjuk latihan

  • Inisialisasi education_hierarchy sebagai dictionary kosong.
  • Lengkapi loop bagian dalam untuk menetapkan jenis pendidikan key sebagai nilai. Contohnya {'Some-college': 'Higher education'}.
  • Terapkan generalisasi hierarki pendidikan pada kolom bachelors, lalu simpan hasilnya ke kolom baru bachelors_generalized.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Initialize dictionary for each education category value
education_hierarchy = ____

# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
    for education in education_values:
        education_hierarchy[education] = ____

# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____

# See resulting dataset
print(income_df.head())
Edit dan Jalankan Kode