IniziaInizia gratis

Usare gerarchie per dati categorici

In questo esercizio creerai e userai delle gerarchie per applicare la generalizzazione dei dati alla colonna bachelors del dataset US Adult Income.

Un dizionario iniziale con le gerarchie è disponibile come hierarchies. Contiene tre categorie per i tipi di istruzione: Primary, Secondary e Higher; ognuna ha un elenco dei corrispondenti valori di istruzione presenti nei dati. Sentiti libero di esplorarlo nella console interattiva.

Creeremo un nuovo dizionario che conterrà le informazioni di istruzione generalizzate e lo useremo per sostituire i valori originali.

Il dataset è disponibile come income_df.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Inizializza education_hierarchy come dizionario vuoto.
  • Completa il ciclo interno per assegnare il tipo di istruzione key come valore. Ad esempio {'Some-college': 'Higher education'}.
  • Applica la generalizzazione della gerarchia dell'istruzione alla colonna bachelors, assegnando il risultato alla nuova colonna bachelors_generalized.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Initialize dictionary for each education category value
education_hierarchy = ____

# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
    for education in education_values:
        education_hierarchy[education] = ____

# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____

# See resulting dataset
print(income_df.head())
Modifica ed esegui il codice