Usare gerarchie per dati categorici
In questo esercizio creerai e userai delle gerarchie per applicare la generalizzazione dei dati alla colonna bachelors del dataset US Adult Income.
Un dizionario iniziale con le gerarchie è disponibile come hierarchies. Contiene tre categorie per i tipi di istruzione: Primary, Secondary e Higher; ognuna ha un elenco dei corrispondenti valori di istruzione presenti nei dati. Sentiti libero di esplorarlo nella console interattiva.
Creeremo un nuovo dizionario che conterrà le informazioni di istruzione generalizzate e lo useremo per sostituire i valori originali.
Il dataset è disponibile come income_df.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Istruzioni dell'esercizio
- Inizializza
education_hierarchycome dizionario vuoto. - Completa il ciclo interno per assegnare il tipo di istruzione
keycome valore. Ad esempio{'Some-college': 'Higher education'}. - Applica la generalizzazione della gerarchia dell'istruzione alla colonna
bachelors, assegnando il risultato alla nuova colonnabachelors_generalized.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Initialize dictionary for each education category value
education_hierarchy = ____
# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
for education in education_values:
education_hierarchy[education] = ____
# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____
# See resulting dataset
print(income_df.head())